Miércoles, 4 de febrero de 2026

NOW Spanish

Un rostro robótico aprende a sincronizar labios

Ingenieros de la Universidad de Columbia desarrollaron un rostro robótico capaz de sincronizar los labios con el habla y el canto al aprender primero observando sus propios movimie...
Ingenieros de la Universidad de Columbia desarrollaron un rostro robótico capaz de sincronizar los labios con el habla y el canto al aprender primero observando sus propios movimientos frente a un espejo y luego estudiando a personas en videos en línea, mediante un método de aprendizaje observacional en dos etapas descrito en Science Robotics. En la primera etapa, el rostro robótico, equipado con 26 motores, generó miles de expresiones aleatorias mientras se miraba en un espejo, construyendo un modelo motor-facial que vincula las órdenes internas de los motores con las formas visibles de la boca. En la segunda etapa, el sistema analizó grabaciones de personas hablando y cantando para aprender la relación entre los movimientos bucales humanos y los sonidos producidos. Al combinar ambos modelos, el robot traduce el audio entrante en comandos motores coordinados que producen movimientos labiales sincronizados en múltiples idiomas y contextos vocales, sin comprender el contenido semántico. El equipo demostró la capacidad con frases habladas y una pista cantada de un álbum generado por inteligencia artificial. Los investigadores señalaron desafíos persistentes con ciertos fonemas —consonantes oclusivas como “B” y sonidos redondeados como “W”— y anticipan mejoras a medida que el sistema se exponga a más datos y ejemplos variados. El entrenamiento se centró en ejercicios de distribución y articulación que aprovechan la precisión del robot en la colocación de labios y mandíbula, mientras que el trabajo de integración examinó cómo sincronizar mejor las acciones motoras con las señales de audio. El líder del proyecto, Hod Lipson, describió el enfoque como un reemplazo de reglas faciales codificadas por mapas aprendidos, lo que permite una mayor adaptabilidad: el robot aprende primero cómo sus motores afectan la apariencia, luego cómo los humanos producen sonidos y finalmente sintetiza ambos conocimientos para generar movimientos bucales realistas. El resultado reduce la brecha visual entre el habla artificial y la humana, algo que los investigadores consideran crucial, ya que las señales visuales influyen fuertemente en la inteligibilidad, especialmente en entornos ruidosos y para personas con dificultades auditivas. Los próximos pasos del equipo incluyen perfeccionar la expresividad emocional para que los movimientos faciales transmitan afecto y énfasis, mejorar la sincronización temporal y de la voz, y optimizar el rendimiento en fonemas difíciles. https://www.youtube.com/watch?v=DR_fBf7A_vI