Lo que necesitas saber:
¿Será que en algún momento las empresas de IA se quedarán sin información para entrenar a los nuevos modelos?
Pensemos por un momento que los modelos que desarrollan las empresas de IA (inteligencia artificial) son como bebés que necesitan comer para crecer más y más. Si determinamos que el internet es una cierta cantidad de comida específica, en algún momento esos bebés se la acabarán y necesitarán buscar comida en otro lugar para seguir creciendo.
Esto es justamente el escenario al que se enfrentan las empresas de IA: la información que está en internet les está quedando pequeña para entrenar a sus nuevos modelos.
Las empresas de IA se están acabando el internet ¿y luego?
A ver. Los modelos de lenguaje para la Inteligencia Artificial se crean usando texto traído de Internet. Esa información incluye investigaciones científicas, artículos de noticias e incluso las entradas que aparecen en Wikipedia.
A partir de ello los modelos aprenden a formular expresiones humanas. Entonces, entre más datos usan los modelos se vuelven más capaces de hacer su chamba, cualquiera que sea.
Pero qué pasa cuando las empresas que luchan por desarrollar el modelo de IA más potente se topan con pared. Las bases de datos disponibles para alimentar los nuevos modelos llegarán a su fin en algún momento ¿y luego?
Expertos citados por The Wall Street Journal explican que los sistemas desarrollados por ejemplo por OpenIA, Google y demás empresas requieren cada vez de más información, situación que está agotando los datos públicos de calidad que están disponibles en línea.
A eso hay que agregarle que algunos propietarios de datos en línea bloquean el acceso a empresas de inteligencia artificial.
“Algunos ejecutivos e investigadores dicen que la necesidad de la industria de datos de texto de alta calidad podría superar la oferta dentro de dos años, lo que podría ralentizar el desarrollo de la IA“, se lee en el texto de TWSJ.
De acuerdo con Originality.AI, un detector de contenido de inteligencia artificial, casi el 20% de los mil sitios web más importantes en todo el mundo están bloqueando los robots rastreadores que recopilan datos web para los servicios de inteligencia artificial.
Solo para que nos demos una idea: el New York Times, Reuters, Axios, Amazon, Indeed y CNN, entre otros, comenzaron ya a bloquear GPTBot, el ‘explorador’ de OpenAI.
Y la cosa es que la falta eventual de información pública en internet no es el único problema a futuro para el desarrollo de la Inteligencia Artificial.
De igual forma, los chips que se necesitan para ejecutar los modelos de lenguaje son escasos. Además de los centros de datos y la electricidad para alimentarlos.
Por ejemplo, Pablo Villalobos que estudia inteligencia artificial para el instituto de investigación Epoch, estima que GPT-4 fue entrenado con hasta 12 billones de tokens, conjuntos de palabras y partes de palabras que entrenan a los modelos para formular expresiones humanas.
Partiendo de eso, entonces el modelo siguiente, GPT-5, necesitaría entre 60 y 100 billones de tokens de datos. Más y más y más información que en algún momento encontrará un tope en varios sentidos.
En lo que las empresas encuentran nuevas formas para entrenar a los modelos futuros y se asoma una ley que regule el asunto del acceso a la información y los derechos de autor pagados, OpenIA está discutiendo la posibilidad de usar video y audio.
Entonces usan su herramienta de reconocimiento de voz para transcribir el material en audio y video público para seguir alimentando los nuevos modelos. U otra opción un tanto… riesgosa: que las empresas de IA generen sus propios contenidos.
El colapso del modelo y los conejitos
Un estudio publicado en mayo de 2023 habla y ejemplifica del “colapso del modelo”, algo que ocurre cuando los nuevos modelos generativos de IA se entrenan usando contenido generado por modelos antiguos de IA y el resultado es catastrófico.
Así en grandes rasgos los modelos comienzan a perder información y a producir resultados cada vez más similares, menos diversos y después de varias generaciones de modelos, resultados erróneos.
“Los modelos de IA generativa deben entrenarse con datos producidos por humanos para funcionar. Cuando se entrenan con contenido generado por modelos, los nuevos modelos presentan defectos irreversibles. Sus resultados se vuelven cada vez más “incorrectos” y homogéneos. Los investigadores descubrieron que incluso en las mejores condiciones de aprendizaje, el colapso del modelo era inevitable“, explica TechTarget a partir del estudio.
Vamos a poner un ejemplo: cómo pasar de arquitectura inglesa del siglo XIV a especies de conejos que, por cierto, no existen.
Le pidieron a varias generaciones de un modelo OPT (modelos abiertos de lenguaje transformador preentrenados) que ‘hablara’ sobre algunos detalles de la arquitectura inglesa en una época definida.
La generación 0 del modelo se enfocó en la arquitectura del Renacimiento con el estilo Perpendicular y hasta pone como ejemplo la Catedral de San Juan en Londres.
Para la generación 9 del modelo la respuesta incluye la palabra ‘arquitectura’ pero luego pasa las poblaciones más grandes del mundo de liebres de cola roja, de cola azul y de cola amarillas.
Es importante mencionar que cada nueva generación se entrenó con datos producidos por la generación anterior. Los modelos nuevos necesitan de información producida por humanos para funcionar.