MediaPipe¶

Framework de Google para percepción on-device en tiempo real. Su modelo Hands localiza 21 landmarks 2.5D por mano y es la base de la interacción por gestos en sistemas SAR como el holomat.

Contexto¶

Cubre la capa de entrada por manos/gestos de la mesa, complementando a opencv (geometría/medición). Necesario si se quiere UI proyectada interactiva.

Contenido¶

Hands: 21 landmarks 2.5D (x, y, profundidad relativa) en tiempo real, on-device, solo RGB.
Profundidad relativa, no métrica → para toque preciso conviene fusionar con cámara de profundidad (GMH-D = MediaPipe + RGB-D, mayor exactitud espacial).
Usado por el Holomat (junto a OpenCV) para detección de gestos. Ver deteccion toque gestos.

Relaciones¶

Complementa: opencv
Habilita: deteccion toque gestos
Usado por: holomat

Citas / evidencia¶

"MediaPipe's hand landmark model performs precise landmark localization of 21 2.5D coordinates (x, y, and relative depth)." — deteccion toque gestos

Rendimiento en Raspberry Pi 5¶

~30 fps sin manos, ~26–28 fps con una mano, ~22–25 con dos (single-thread Python). Pose completa (33 landmarks) ~6 fps. Recomendado ≥4 GB RAM; acelerable con AI Kit Hailo-8L. Ver seleccion hardware.

Abierto / gaps¶

Estabilidad del tracking bajo la luz del propio proyector (cámara cenital).