Mundo, 10 de ene 2026 (ATB Digital).- Crear una animación 3D que se sienta natural suele exigir tiempo, cámaras, referencias y cierta paciencia de artesano. Por eso llama la atención que un equipo de la Ulsan National Institute of Science and Technology (UNIST) haya presentado un enfoque capaz de llevar un personaje 3D a una nueva pose usando solo una imagen 2D como guía, con una promesa concreta: mantener las proporciones y evitar las deformaciones típicas cuando el modelo se observa desde otros ángulos. El trabajo se describe en un artículo académico publicado en los Proceedings de SIGGRAPH Asia 2025, firmado por Jinhyeok Kim y colaboradores, bajo la dirección del profesor Kyungdon Joo.
La idea práctica es fácil de visualizar: tienes un personaje en 3D y una foto donde ese personaje aparece levantando el brazo, girando el torso o adoptando una postura específica. En lugar de pedirte un vídeo, una captura multicámara o un set completo de referencias, el sistema intenta “trasladar” esa pose de la foto al modelo 3D sin convertir los brazos en goma ni estirar el cuerpo como si fuera plastilina.
Por qué “hacerlo desde una sola foto” suele salir mal
En el fondo, el problema no es generar un 3D bonito, sino moverlo bien. Cuando un método intenta ajustar un modelo a lo que ve en una imagen, corre el riesgo de confundir perspectiva con anatomía. En una foto, un antebrazo puede parecer más largo por el ángulo, la ropa puede ocultar articulaciones y la iluminación puede borrar bordes. Si el algoritmo toma esas pistas como órdenes literales, el resultado puede parecer el de un muñeco al que le tiran de un brazo: encaja desde un punto de vista, pero al girar la cámara se revela el truco.
Aquí entra el contexto del 3D Gaussian Splatting, una técnica que representa la escena mediante “nubes” de gaussianas (puntos con extensión y propiedades de color/opacidad) para renderizar imágenes muy realistas desde distintas vistas. Es una aproximación que ha ganado protagonismo por su calidad visual, pero animar esos puntos de forma estable es otra historia. Si no hay información suficiente, el sistema puede acabar “arrastrando” gaussianas como quien estira una manta para cubrir una cama: tapa lo que quiere desde un lado, deja pliegues raros desde el otro.
Qué propone DeformSplat y qué lo hace diferente
El equipo de UNIST bautiza su enfoque como DeformSplat, un marco de inteligencia artificial orientado a deformar un modelo basado en gaussianas para que adopte una pose objetivo indicada por una sola imagen. La aportación clave no se vende como magia generalista, sino como un ajuste fino de dos piezas técnicas pensadas para atacar justo el punto débil: la falta de correspondencias fiables entre lo que se ve en 2D y lo que “debería” moverse en 3D, junto con la necesidad de preservar partes rígidas del cuerpo.
En la práctica, DeformSplat busca que el movimiento sea coherente con la estructura del objeto. Si el personaje gira el torso o levanta un brazo, el sistema intenta mover el conjunto como lo haría un cuerpo real: piezas relativamente rígidas que cambian de orientación, con transiciones razonables en las zonas de articulación, sin elongaciones extrañas.
“Gaussian-to-Pixel Matching”: poner nombre y apellido a cada punto
La primera innovación se describe como Gaussian-to-Pixel Matching. Traducido a una imagen cotidiana, es como pasar de “veo un brazo por aquí” a “este conjunto concreto de puntos 3D es el que corresponde a estos píxeles del brazo en la foto”. Esa asociación es importante porque reduce el margen de error al transferir la pose. En vez de empujar el modelo “a ojo” para que encaje con la silueta, el sistema establece correspondencias más directas entre la representación 3D y la evidencia 2D.
Este tipo de mapeo es una de esas tareas que suenan simples hasta que lo intentas. En una foto hay oclusiones, sombras, texturas y cambios de escala por perspectiva. Un buen emparejamiento ayuda a que el algoritmo no confunda, por ejemplo, el contorno de una chaqueta con el límite del brazo, o un pliegue con una articulación. No garantiza perfección, pero sí un punto de partida más estable.
“Rigid Part Segmentation”: evitar que el cuerpo se comporte como chicle
La segunda pieza es la Rigid Part Segmentation, que identifica y agrupa regiones rígidas del cuerpo, como extremidades y torso, para que se muevan de forma más consistente. La metáfora aquí es la de un muñeco articulado hecho de piezas de madera: cada pieza se desplaza y rota, pero no se estira. Lo que cambia es el ángulo entre piezas, no la longitud del “hueso”.
Al segmentar partes rígidas, DeformSplat puede imponer una especie de disciplina geométrica: ciertas zonas deben moverse como bloque, manteniendo forma y tamaño. Esto reduce los artefactos típicos en los que una mano se deforma para “llegar” a la posición deseada, o el antebrazo se alarga para encajar con la pose de la foto. El objetivo es que el movimiento sea creíble no solo en la vista original, sino también al mirar el personaje de lado, desde atrás o desde un plano picado.
Qué significa “preservar proporciones” cuando se gira la cámara
En las demostraciones descritas por el equipo, el indicador más importante no es que el personaje se parezca a la foto desde un único ángulo, sino que conserve el cuerpo cuando se cambia la perspectiva. Esa es la prueba del algodón: si el sistema “hace trampa” deformando la geometría para encajar en 2D, la trampa se nota al rotar la vista.
Preservar proporciones implica mantener longitudes relativas y volúmenes plausibles. Si alguien levanta el brazo, el hombro no debería colapsar; si el torso se inclina, la cintura no debería estrecharse como si el personaje se apretara con un cinturón invisible. En un pipeline de producción, esto se traduce en menos tiempo corrigiendo mallas, reajustando pesos de rig o repitiendo capturas. Dicho de forma simple: menos “arreglar lo que se rompió” después.
Impacto potencial en videojuegos, animación y metaverso
Si este enfoque se consolida, el beneficio obvio es bajar el listón de entrada para crear contenido animado. En videojuegos y animación, muchas tareas se encarecen por la necesidad de datos: secuencias de movimiento, referencias multivista, captura de actuación. Un sistema capaz de aprovechar una única imagen como objetivo de pose puede agilizar prototipos, pruebas de concepto y, en ciertos casos, producción.
También encaja con el tipo de contenido que se asocia al metaverso, donde abundan avatares y personajes personalizados. Cuanto más fácil sea generar una pose o una animación breve sin equipamiento especializado, más viable resulta que equipos pequeños creen contenido con un acabado decente. Eso no significa que desaparezcan los rigs tradicionales o la captura de movimiento, que siguen siendo superiores para actuaciones largas, complejas y con interacción física. Lo interesante es el espacio intermedio: animaciones puntuales, gestos, poses para cinemáticas cortas o contenido social, donde la relación coste-tiempo manda.
Límites y preguntas que la investigación deja abiertas
Conviene mantener los pies en el suelo: se trata de un trabajo académico, no de una herramienta de consumo lista para integrarse mañana en cualquier motor. Una sola imagen contiene ambigüedades inevitables. Si una pierna está oculta, el sistema tiene que inferir; si la ropa es amplia, delimitar la anatomía es más difícil; si la pose es extrema, la segmentación rígida podría necesitar decisiones delicadas en hombros, cadera o columna.
También hay un ángulo de uso responsable. La capacidad de animar personajes a partir de imágenes puede ser valiosa para creación digital, pero en contextos de personas reales siempre aparece el debate sobre consentimiento y suplantación. En producción profesional, esto se gestiona con permisos, trazabilidad y políticas internas. En entornos abiertos, el reto es social y regulatorio, no solo técnico.
Próximos pasos: de la pose puntual al movimiento sostenido
El trabajo describe un método para deformar un modelo hacia una pose marcada por una imagen, representando el cambio a lo largo del tiempo de manera controlada. El siguiente peldaño lógico es la continuidad: no solo llegar a una pose final, sino encadenar transiciones fluidas, mantener estabilidad en secuencias largas y lidiar con interacciones con el entorno. También será interesante ver cómo se comporta con estilos no realistas, personajes muy estilizados y anatomías fuera del estándar.
Por ahora, DeformSplat se coloca como una propuesta concreta dentro del ecosistema de 3D Gaussian Splatting, con dos aportaciones claras —emparejamiento entre gaussianas y píxeles, y segmentación de partes rígidas— orientadas a un objetivo práctico: que un personaje se mueva sin perder su cuerpo por el camino. La investigación presentada en SIGGRAPH Asia 2025 y atribuida a UNIST señala una dirección prometedora para quienes buscan animación 3D más accesible, con resultados que no se derrumban cuando la cámara decide mirar desde otro lado.
Fuente: Whatsnew.com
