MediaPipe¶
Framework de Google para percepción on-device en tiempo real. Su modelo Hands localiza 21 landmarks 2.5D por mano y es la base de la interacción por gestos en sistemas SAR como el holomat.
Contexto¶
Cubre la capa de entrada por manos/gestos de la mesa, complementando a opencv (geometría/medición). Necesario si se quiere UI proyectada interactiva.
Contenido¶
- Hands: 21 landmarks 2.5D (x, y, profundidad relativa) en tiempo real, on-device, solo RGB.
- Profundidad relativa, no métrica → para toque preciso conviene fusionar con cámara de profundidad (GMH-D = MediaPipe + RGB-D, mayor exactitud espacial).
- Usado por el Holomat (junto a OpenCV) para detección de gestos. Ver deteccion toque gestos.
Relaciones¶
- Complementa: opencv
- Habilita: deteccion toque gestos
- Usado por: holomat
Citas / evidencia¶
- "MediaPipe's hand landmark model performs precise landmark localization of 21 2.5D coordinates (x, y, and relative depth)." — deteccion toque gestos
Rendimiento en Raspberry Pi 5¶
- ~30 fps sin manos, ~26–28 fps con una mano, ~22–25 con dos (single-thread Python). Pose completa (33 landmarks) ~6 fps. Recomendado ≥4 GB RAM; acelerable con AI Kit Hailo-8L. Ver seleccion hardware.
Abierto / gaps¶
- Estabilidad del tracking bajo la luz del propio proyector (cámara cenital).