vitpose-base-torch#

Vision Transformer for pose estimation with 90M parameters using standard ViT backbone. Detects 17 human keypoints through heatmap regression achieving 75.8 AP on COCO. Processes 256x192 images with hierarchical features for accurate joint localization..

Details

Model name: vitpose-base-torch
Model source: ViTAE-Transformer/ViTPose
Model author: Yufei Xu, et al.
Model license: Apache 2.0
Model size: 343.33 MB
Exposes embeddings? no
Tags: keypoints, coco, torch, transformers, pose-estimation

Requirements

Packages: torch, torchvision, transformers
CPU support
- yes
GPU support
- yes

Example usage

import fiftyone as fo
import fiftyone.zoo as foz

dataset = foz.load_zoo_dataset(
    "coco-2017",
    split="validation",
    dataset_name=fo.get_default_dataset_name(),
    max_samples=50,
    shuffle=True,
)

model = foz.load_zoo_model("vitpose-base-torch")

dataset.apply_model(model, prompt_field="ground_truth", label_field="predictions")

session = fo.launch_app(dataset)