Mundo, 21 de jun 2025 (ATB Digital).- Un equipo de investigadores del Instituto de Electrónica y Telecomunicaciones de Corea (ETRI) ha desarrollado una tecnología de inteligencia artificial hiperrealista capaz de generar un avatar parlante a partir de una sola fotografía. El resultado es sorprendente: rostros digitales que imitan de forma natural los gestos, movimientos labiales y expresiones humanas, con un nivel de detalle que roza lo cinematográfico.
Una sola imagen, muchas posibilidades
La gran novedad de esta tecnología es que no requiere videos ni escaneos tridimensionales: basta con una fotografía frontal para que el sistema cree un avatar que no solo se parezca a la persona retratada, sino que también hable de forma natural y expresiva, como si estuviera realmente presente.
Este avance representa un paso adelante en la creación de interfaces más humanas para la interacción con máquinas. Ya no hablamos de asistentes de voz impersonales que repiten comandos, sino de avatares que pueden mirar, gesticular y hablar con matices emocionales. Esto cambia completamente la experiencia del usuario en contextos como la conducción autónoma, la atención al cliente o la educación a distancia.
Una inteligencia artificial selectiva y eficiente
El corazón de esta innovación es un algoritmo que prioriza el aprendizaje de las partes del rostro directamente implicadas en el habla: labios, mentón, dientes y arrugas de expresión. Esta selección evita sobrecargar el sistema con información innecesaria y permite un mayor nivel de precisión en la sincronización labial y la calidad visual.
A diferencia de los modelos generativos tradicionales, que intentan replicar todo el rostro de forma general, este enfoque modular ofrece una mayor eficiencia en el procesamiento y una apariencia más realista al hablar. Esto ha sido reconocido en congresos internacionales como CVPR y AAAI, donde se ha presentado como una de las propuestas más prometedoras en el campo de los «talking faces».
Aplicaciones que trascienden el automóvil
Aunque el proyecto nació en el marco de las investigaciones sobre movilidad autónoma, sus aplicaciones son muy diversas. El avatar generado podría actuar como asistente conversacional en vehículos autónomos, interactuar con peatones o asistir al conductor. Pero también podría integrarse en kioscos interactivos, sucursales bancarias, presentadores de noticias, modelos publicitarios y otros espacios donde la presencia de un humano digital pueda facilitar la comunicación.
Una analogía sencilla: imagina una videollamada sin necesidad de cámara ni conexión en tiempo real, en la que tu avatar se expresa por ti con naturalidad y exactitud, incluso si tú estás al otro lado del mundo o simplemente prefieres no aparecer.
Enfoque centrado en la inclusión y accesibilidad
Uno de los objetivos de este desarrollo, según explican desde el ETRI, es reducir la brecha digital. La tecnología puede facilitar el acceso a servicios digitales a personas mayores o con dificultades para adaptarse a entornos tecnológicos complejos, ofreciendo una interacción más intuitiva y cercana.
Esto se alinea con una tendencia cada vez más fuerte en el ámbito de la tecnología: crear soluciones inclusivas que no dejen a nadie atrás en la transición hacia lo digital. Un avatar que hable como un ser humano y responda con expresiones naturales puede ser la clave para que muchos usuarios se sientan más cómodos al utilizar dispositivos inteligentes.
Una tecnología con potencial comercial
El sistema ha sido registrado bajo el nombre “Marco para la generación de rostros parlantes fotorrealistas” en el portal de transferencia tecnológica del ETRI, lo que indica que sus creadores buscan activamente alianzas para llevarlo al mercado. Las posibilidades de monetización son amplias, especialmente en sectores como el marketing digital, la formación online, la telemedicina o el entretenimiento virtual.
Según los investigadores, el siguiente paso es perfeccionar aún más el modelo para que el avatar no solo hable, sino que se mueva y gesticule como una persona real, abriendo la puerta a entornos donde los humanos digitales puedan realizar tareas de atención al cliente, recepción o incluso terapia.
Hacia una interacción más humana con la IA
Esta tecnología representa un avance importante en el concepto de interacción humano-máquina (HMI). Al incorporar emociones, matices vocales y gestos faciales, se acorta la distancia entre los humanos y las interfaces digitales. La experiencia ya no se limita a comandos de voz fríos o menús gráficos, sino que se transforma en una conversación más parecida a las que tenemos en la vida cotidiana.
En este contexto, los avatares hiperrealistas pueden ser una herramienta clave para mejorar la empatía en entornos digitales, algo fundamental en servicios sensibles como la salud mental, la educación o la asistencia social.
Fuente: Whatsnew.com