Sora: la herramienta de OpenAI para crear vídeos a partir de texto

Patricia Bárcena23/02/24 10:38

OpenAI ha dado un paso más hacia la comprensión y simulación del mundo físico en movimiento con su último desarrollo: Sora, un modelo de texto a vídeo. Con Sora, la inteligencia artificial es capaz de generar vídeos de hasta un minuto de duración, manteniendo una calidad visual excepcional y cumpliendo con las indicaciones del usuario.

Este modelo revolucionario puede crear escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. Sora no solo comprende lo que se le solicita en el texto de entrada (o prompt), sino también cómo esos elementos existen en el mundo físico. Sin embargo, Sora también tiene sus limitaciones. Puede mostrar dificultades para simular la física de una escena compleja y podría no entender correctamente ciertas instancias de causa y efecto. Por ejemplo, podría representar a una persona mordiendo una galleta pero sin dejar una marca de mordida en la galleta posteriormente.

A pesar de estos desafíos, OpenAI está tomando medidas importantes para garantizar la seguridad y precisión de Sora, así como para desarrollar herramientas para detectar contenido engañoso generado por esta IA. Es importante destacar que Sora se basa en modelos previos desarrollados por OpenAI, como DALL·E y GPT, aprovechando las técnicas de recaptación de información para generar descripciones detalladas de los datos visuales. Esto permite que el modelo siga las instrucciones del usuario de manera más fiel.

En resumen, Sora representa un avance significativo en la capacidad de las inteligencias artificiales para comprender y recrear el mundo físico en forma de vídeo. Aunque aún tiene áreas de mejora, su potencial para una amplia gama de aplicaciones, desde la narración visual hasta la simulación de escenarios, lo convierte en una herramienta prometedora para creativos y creadores de contenido.