Sora: ¿Cómo funciona la herramienta de OpenAI que permite hacer videos a partir de textos?

Lo que necesitas saber:

OpenAI anunció 'Sora', un nuevo modelo de IA con el que se pueden hacer videos hiperrealistas a partir de texto. Y sí, es increíble lo que puede hacer pero, ¿cómo funciona y qué medidas de seguridad implicará?

Entras a X (u otra red social) y de pronto te topas con uno de los muchos videos de gatos naranjas que circulan en internet. En esta ocasión, el minino molesta a su dueña, quien está dormida en su cama, para que le haga caso y le de algo de desayunar.

Al verlo uno no nota algo raro. Sin embargo, todo cambia cuando te enteras que dicho clip fue hecho con Inteligencia Artificial (IA) y a través de un texto que alguien escribió en la nueva plataforma de OpenAI.

this could be the "holy shit" moment of AI. OpenAI has just announced Sora, its text-to-video AI model. This video isn't real, it's based on a prompt of "a cat waking up its sleeping owner demanding breakfast…" ? https://t.co/xKy3iQBKwT pic.twitter.com/HPm2p1jbgo
— Tom Warren (@tomwarren) February 15, 2024

OpenAI anunció ‘Sora’, su nuevo modelo para generar videos a partir de texto

El pasado 15 de febrero la empresa de investigación y despliegue de inteligencia artificial presentó ‘Sora’, un nuevo modelo de IA que es capaz de crear videoclips de un minuto de duración, únicamente usando comandos de texto o una imagen de referencia.

¿Eso qué quiere decir? Que ‘Sora’ es capaz de crear escenas complejas con lo que uno le dicte. Y es que una de las novedades de este modelo es que le da vida a personajes, crea tipos específicos de movimiento, y es precisa con los detalles y el fondo donde se sitúa la historia.

Sora: ¿Cómo funciona la herramienta de OpenAI que permite hacer videos a partir de textos? — OpenAI anunció su nuevo modelo de IA. Foto: Getty Images

¿Por qué ‘Sora’ ya sorprendió a los amantes de la IA?

En uno de los ejemplos que OpenAI mostró en redes sociales, la plataforma pidió a ‘Sora’ que le creara un video a partir de este comando:

“La hermosa y nevada ciudad de Tokio está muy animada. La cámara se mueve por las bulliciosas calles de la ciudad, siguiendo a varias personas disfrutando del hermoso clima nevado y comprando en los puestos cercanos. Preciosos pétalos de sakura vuelan con el viento junto con los copos de nieve”.

¿El resultado? Vemos el clip de una pareja que camina tomada de la mano en Tokio. En el recorrido aparecen todos los detalles que se pidieron a ‘Sora’, tales como los pétalos de sakura y a otros personajes/personas que caminan por el lugar.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

En otro video, por ejemplo, OpenAI hace otro video de corta duración con el siguiente comando: “Una mujer elegante camina por una calle de Tokio llena de luces de neón cálidas y luminosas y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro.

OpenAI pide que en el video la protagonista también use gafas de sol y labial rojo en los labios: “Ella camina con confianza y casualmente la calle está húmeda y reflectante, creando un efecto espejo de las luces de colores. Muchos peatones caminan”, dicta el comando que da como resultado este video:

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

‘Sora’ ya es una sensación, pero no está disponible para el público (por ahora)

A primera vista es increíble lo realistas que se ven las imágenes creadas con esta nueva herramienta de IA. Sin embargo, en el segundo video (el de la chica con lentes de sol) basta con poner un poco de atención a los detalles para ver que en el segundo 16 sus piernas cambian de dirección.

Justamente es esa la razón por la que ‘Sora’ aún no está disponible al público en general. OpenAI indicó que el modelo tiene algunas deficiencias, pues aunque tiene un amplio conocimiento del lenguaje (lo cual le permite generar imágenes a partir de texto), no es preciso en algunas cosas.

El nuevo modelo de IA aún tiene detalles por pulir

Por ejemplo, OpenAI menciona que si a ‘Sora’ se le pide que haga un video sobre una persona que le da una mordida a una galleta, lo hará. La cosa es que la galleta que aparece en el video puede que no tenga la marca de la mordida.

“El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha”, menciona la plataforma. “Y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica”, detalla.

Sora by OpenAI is insane.

But it doesn't just generate AI videos from text, it can also change the styles and environments of input videos?

12 wild examples:

First, Input video ?? pic.twitter.com/tYFHs9rftP
— Min Choi (@minchoi) February 17, 2024

OpenAI indica que por ahora ‘Sora’ está disponible para algunos miembros de su equipo que ya evalúan áreas críticas en busca de daños o riesgos.

“También estamos otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos”, mencionó la plataforma.

This video was generated by Sora.

That's the new model by OpenAI. The most advanced text-to-video tool created so far.

I'll share the videos here. Absolutely insane.

Prompt: This close-up shot of a Victoria crowned pigeon showcases its striking blue plumage and red chest. Its… pic.twitter.com/ktvReYWvGZ
— Eduardo Borges (@duborges) February 15, 2024

Y OpenAI se compromete a cuidar que ‘Sora’ no tenga un mal uso

Aunque para muchos esto es una muestra de lo rápido que avanza y se perfecciona el uso de la IA, a otros les causa preocupación el hecho de que esta bien podría ser una herramienta para que en internet se armen más contenidos ‘Deepfake’.

Pero al parecer OpenAI ya es consciente de ello. En su blog, la empresa indicó que tomarán varias medidas de seguridad importantes antes de que ‘Sora’ esté disponible al público, como por ejemplo el desarrollo de herramientas que indiquen cuando un video fue creado con ‘Sora’.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024

Aunque la compañía sabe que no podrá evitar del todo el uso que se le de a esta tecnología

Al igual que con otros productos de OpenAI, como DALL·E 3 (que genera imágenes a partir de texto), OpenAI verificará y rechazará las solicitudes de videos que contengan violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o la IP de otros.

“También hemos desarrollado clasificadores de imágenes sólidos que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que cumpla con nuestras políticas de uso, antes de mostrarlo al usuario”, aseguró la plataforma.

La compañía de IA asegura que en el proceso involucrarán a formuladores de políticas, educadores y artistas de todo el mundo para “comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología”, aunque aseguran que es imposible imaginar el uso que la gente le dará.

Ahora sí que bastará esperar el lanzamiento oficial de ‘Sora’ para ver cómo afectará o beneficiará la vida de muchas personas. ¿O ustedes qué opinan al respecto?