• Los modelos de IA de Meta, Google y OpenAI aprenden tan rápido que los datos con que los entrenan podrían agotarse en 2026.
  • El problema de entrenar sistemas de IA con datos sintéticos es que puede reforzar algunos de los errores y de las limitaciones que ya presentan.
  •  Las grandes empresas tecnológicas tienen algunas propuestas interesantes para seguir entrenando sus modelos.
  • ¡Nos vemos en TikTok!

Cuando se trata de la inteligencia artificial, cuanta más información y datos se utilicen para entrenar sus modelos, más potentes son.

Pero, a medida que se acelera la carrera armamentística de la inteligencia artificial, las empresas tecnológicas como Meta (la matriz de Facebook, Instagram y WhatsApp), Google y OpenAI (que desarrolló ChatGPT) se enfrentan a un grave problema: la escasez de datos para entrenar sus modelos.

Las herramientas de inteligencia artificial actuales se entrenaron con la enorme cantidad de información que se encuentra disponible en internet. Sin embargo, para el año 2026, se calcula que todos los datos de alta calidad podrían haberse agotado, según Epoch; una firma de investigación especializada en inteligencia artificial.

Es por esto que las grandes empresas tecnológicas están buscando nuevas fuentes de datos para que sus modelos no se queden sin información. Aquí te explicamos algunas de las soluciones más creativas que proponen estas empresas.

Aprovechar los datos de los usuarios de Google Docs, Sheets y Slides

Depositphotos.

El verano pasado, el departamento jurídico de Google les pidió a sus empleados que ampliaran el lenguaje sobre el uso de los datos de los consumidores, según publicó el New York Times en un extenso reportaje.

Algunos trabajadores fueron informados de que su compañía quería utilizar datos de las versiones gratuitas para consumidores de Google Docs, Google Sheets, Google Slides, e incluso las reseñas de restaurantes de Google Maps.

Aunque el gigante de las búsquedas online actualizó su política de privacidad en julio de 2023, la empresa declaró que finalmente no amplió los tipos de datos que utiliza para entrenar a sus modelos de inteligencia artificial.

Comprar la importante editorial estadounidense Simon & Schuster

La sede de las oficinas de la editorial Simon & Schuster en Nueva York, Estados Unidos.Robert Alexander/Getty

En el caso de la matriz de Facebook, Instagram y WhatsApp, la disminución del suministro de información disponible les preocupaba tanto a los ejecutivos de Meta que entre marzo y abril de 2023, comenzaron a reunirse prácticamente a diario para proponer alternativas, según informó el New York Times.

Al parecer una de las ideas que se barajó por parte de los directivos de la tecnológica fue comprar Simon & Schuster. La famosa editorial estadounidense, que ha trabajado con autores como Stephen King o Ursula K. Le Guin, fue adquirida por la firma de capital riesgo KKR por 1,620 millones de dólares el año pasado.

Otros asistentes a las reuniones ejecutivas de Meta propusieron una opción supuestamente más económica: pagarle a la editorial 10 dólares por libro para obtener todos los derechos de licencia de las nuevas publicaciones.

Generar datos sintéticos

Depositphotos.

La información sintética consiste en datos que son generados por los propios sistemas de inteligencia artificial. OpenAI, que desarrolló herramientas como ChatGPT o DALL·E, consideró esta solución para entrenar sus modelos.

«Siempre y cuando se pueda superar el horizonte de datos sintéticos, en el que el modelo es lo suficientemente inteligente como para generar buenos datos sintéticos, todo irá bien», aseguró Sam Altman, CEO de OpenAI, según el New York Times.

El problema de entrenar sistemas de IA con datos sintéticos es que puede reforzar algunos de los errores y de las limitaciones que ya presenta la inteligencia artificial.

La startup impulsada por Microsoft actualmente está trabajando en un proceso para solucionar este problema, en el que un sistema de IA produce una información y otro se encarga de juzgarla.

Transcribir un video de YouTube utilizando Whisper

Depositphotos.

OpenAI también desarrolló Whisper, una herramienta de reconocimiento de voz capaz de transcribir videos y podcasts de plataformas como YouTube. Su último modelo de lenguaje grande (LLM, por sus siglas en inglés), el GPT-4, fue entrenado con más de un millón de horas de videos de YouTube, que fueron transcritos por Whisper.

Greg Brockman, el presidente de la desarrolladora de ChatGPT, jugó un papel clave en el desarrollo de Whisper y declaró para el New York Times que OpenAI se basa en «numerosas fuentes» de datos para entrenar sus sistemas.

Photobucket: un almacén de fotos procedentes de Myspace y Friendster

eHowTech/YouTube

Photobucket en su día se conocía como el principal dominio de alojamiento de imágenes del mundo. Dentro de la página estaba la mitad del mercado de fotos online de Estados Unidos, según afirmó Reuters. Esto se debía en parte a que alojaba fotos de las primeras redes sociales, como Myspace o Friendster.

Tal y como informó la agencia de noticias británica, las imágenes de Photobucket podrían cederse ahora —bajo licencia— para que las empresas tecnológicas entrenen sus sistemas de inteligencia artificial con ellas.

Sin embargo, Photobucket se ha negado de momento a decir el nombre de los posibles compradores de sus derechos.

AHORA LEE: ¿Cuál será el impacto de la inteligencia artificial en el sistema educativo de América Latina?

TAMBIÉN LEE: De la ciberseguridad a la ciberinteligencia: más allá de protección, debemos maximizar el uso de los datos

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, LinkedIn, TikTok, Threads, Twitter y YouTube

AHORA ESCUCHA:

AHORA VE: