ATB RADIO

EN VIVO

ATB Digital
Tecnología

Matrix3D de Apple: el modelo de IA que convierte fotos 2D en objetos 3D con precisión sorprendente

Matrix3D de Apple: el modelo de IA que convierte fotos 2D en objetos 3D con precisión sorprendente

Mundo, 18 de may 2025 (ATB Digital) .- Apple ha presentado Matrix3D, un modelo de inteligencia artificial desarrollado junto a la Universidad de Nanjing y la Universidad de Ciencia y Tecnología de Hong Kong (HKUST), diseñado para transformar fotografías 2D en objetos 3D completos. A diferencia de otras soluciones existentes, este modelo unifica en una sola arquitectura tareas complejas de fotogrametría, como la estimación de pose, la predicción de profundidad y la síntesis de nuevas vistas.

Matrix3D no solo ofrece resultados más precisos, sino que simplifica el proceso de reconstrucción 3D, lo que podría facilitar su adopción en múltiples industrias, desde la realidad aumentada hasta la ingeniería, videojuegos, e-commerce y patrimonio cultural.


Un modelo unificado para múltiples tareas

La mayoría de modelos actuales dependen de varios pasos y componentes para reconstruir objetos tridimensionales a partir de imágenes. Por ejemplo, hay un modelo para estimar el ángulo de la cámara (pose), otro para inferir la profundidad, y otro más para generar nuevas vistas del objeto.

Matrix3D rompe con este enfoque fragmentado al implementar una arquitectura basada en transformadores de difusión multimodal (DiT). Esta estructura permite al modelo procesar datos diversos (como imágenes, parámetros de cámara y mapas de profundidad) de forma integrada, ofreciendo una representación más coherente y precisa del objeto o escena.

Es como si antes tuviéramos varios cocineros preparando un solo plato, cada uno con una receta diferente. Matrix3D actúa como un chef único que entiende todas las recetas y prepara el platillo completo de forma más eficiente y armoniosa.


¿Cómo funciona Matrix3D?

Matrix3D emplea una técnica de entrenamiento llamada aprendizaje enmascarado (masked learning). En este enfoque, se ocultan partes de las imágenes de entrenamiento y el modelo aprende a “adivinar” los píxeles faltantes. Esta estrategia obliga al sistema a comprender la estructura general de los objetos, mejorando así su capacidad de reconstrucción tridimensional.

Un detalle destacable es que el modelo puede generar vistas 3D a partir de tan solo tres fotos tomadas desde diferentes ángulos, lo que lo hace especialmente útil en contextos donde el número de imágenes disponibles es limitado, como en entornos industriales o arqueológicos.


Código abierto y disponible en GitHub

En un movimiento que destaca por su apertura, Apple ha liberado Matrix3D como proyecto de código abierto. Esto significa que cualquier persona o equipo interesado puede descargarlo, modificarlo y usarlo sin restricciones, gracias a una licencia permisiva publicada en el repositorio de GitHub.

Este gesto fomenta la colaboración comunitaria, permitiendo que desarrolladores e investigadores de todo el mundo experimenten con el modelo, lo adapten a nuevos casos de uso y compartan mejoras.


Aplicaciones prácticas de Matrix3D

Aunque Matrix3D es aún un proyecto de investigación, su potencial es amplio. Aquí algunos ejemplos donde podría tener un impacto significativo:

  • Realidad aumentada (AR): facilitaría la creación de modelos 3D precisos a partir de fotos para experiencias inmersivas.
  • Comercio electrónico: permitiría a las tiendas online ofrecer vistas 3D realistas de productos a partir de unas pocas fotos.
  • Videojuegos y animación: aceleraría la generación de assets tridimensionales.
  • Preservación del patrimonio: ayudaría a digitalizar esculturas, monumentos u objetos antiguos sin necesidad de escaneos complejos.
  • Educación: los estudiantes podrían explorar representaciones tridimensionales de objetos reales usando solo sus móviles.

¿Qué lo diferencia de otros modelos?

Además de su estructura unificada y su precisión, Matrix3D destaca por su capacidad de generalización. Esto significa que no está diseñado exclusivamente para un conjunto específico de imágenes, sino que puede adaptarse a una amplia variedad de situaciones y contextos visuales.

Aunque Apple no ha revelado los detalles exactos del dataset utilizado para entrenarlo, el rendimiento demostrado sugiere que ha sido entrenado con una base diversa y extensa de imágenes.

Otro punto a favor es su eficiencia computacional, ya que realiza varias tareas simultáneamente sin necesidad de combinar diferentes modelos, lo que reduce los recursos requeridos y los tiempos de procesamiento.


Futuro y evolución de la tecnología 3D con IA

Matrix3D se suma a una tendencia creciente: el uso de modelos de inteligencia artificial para automatizar procesos que antes requerían equipamiento especializado y conocimientos técnicos avanzados. Esta accesibilidad tecnológica puede democratizar la creación de contenido tridimensional y abrir nuevas puertas para desarrolladores independientes, artistas digitales, investigadores y empresas emergentes.

Apple, tradicionalmente reservada con sus herramientas de IA, parece estar explorando una línea más abierta y colaborativa con este tipo de iniciativas, lo cual es prometedor para el ecosistema científico y tecnológico global.

Fuente: Medios Internacionales

Noticias relacionadas

Bolivia y Argentina fortalecen cooperación científica para uso de la tecnología nuclear

Ranking Merco: Samsung la #1 en tecnología y ética empresarial en Bolivia

ATB Usuario

García: “El streaming debe enfocarse en la experiencia antes que en los resultados”

ATB Usuario