vitpose-base-simple-torch#

Simplified ViTPose with 90M parameters removing complex decoder components. Maintains 75.1 AP through direct heatmap prediction from transformer features. Streamlined architecture for easier deployment while preserving accuracy on human pose tasks..

Details

Model name: vitpose-base-simple-torch
Model source: ViTAE-Transformer/ViTPose
Model author: Yufei Xu, et al.
Model license: Apache 2.0
Model size: 327.75 MB
Exposes embeddings? no
Tags: keypoints, coco, torch, transformers, pose-estimation, official

Requirements

Packages: torch, torchvision, transformers
CPU support
- yes
GPU support
- yes

Example usage

import fiftyone as fo
import fiftyone.zoo as foz

dataset = foz.load_zoo_dataset(
    "coco-2017",
    split="validation",
    dataset_name=fo.get_default_dataset_name(),
    max_samples=50,
    shuffle=True,
)

model = foz.load_zoo_model("vitpose-base-simple-torch")

dataset.apply_model(model, prompt_field="ground_truth", label_field="predictions")

session = fo.launch_app(dataset)