• El Authors Guild está demandando a OpenAI, acusándolo de utilizar ilegalmente libros con derechos de autor para entrenar modelos de IA.
  • Documentos recientemente revelados muestran que OpenAI eliminó dos conjuntos de datos que se habían utilizado para entrenar GPT-3.
  • Los documentos también muestran que los dos investigadores que crearon los conjuntos de datos ya no trabajan en OpenAI.
  • ¿Ya conoces nuestra cuenta de Threads? Síguenos.

Documentos que se revelaron en la demanda colectiva presentada por Authors Guild contra OpenAI, mostraron que la startup eliminó dos enormes conjuntos de datos, llamados «libros1» y «libros2». Este conjunto de libros fue utilizado para entrenar su modelo de inteligencia artificial GPT-3.

Los abogados del Authors Guild dijeron en documentos judiciales que los conjuntos de datos probablemente contenían «más de 100,000 libros publicados» y eran fundamentales para sus acusaciones de que OpenAI utilizó materiales protegidos por derechos de autor para entrenar modelos de inteligencia artificial.

La disputa que se está librando en los tribunales

El Gremio buscó información de OpenAI durante meses sobre los conjuntos de datos. La empresa inicialmente se resistió, alegando preocupaciones de confidencialidad, antes de finalmente revelar que había eliminado todas las copias de los datos, según los documentos legales revisados ​​por Business Insider.

Los datos de entrenamiento de alta calidad son una parte importante de los poderosos modelos de IA que están arrasando en el mundo de la tecnología. OpenAI y otras empresas utilizaron datos de Internet, incluidos muchos libros, para construir estos modelos. Las empresas que crearon esta información quieren que se les pague por proporcionar inteligencia a estos nuevos productos de inteligencia artificial.

Sin embargo, las empresas tecnológicas no quieren ser obligadas a pagar. Esta disputa se está librando ahora en los tribunales, a través de varias demandas.

El corpus de libros constitutía el 16% de los datos de entrenamiento

En un documento técnico de 2020, OpenAI describió los conjuntos de datos «libros1» y «libros2» como «corpus de libros basados ​​en Internet» y dijo que constituían el 16% de los datos de entrenamiento necesarios para crear GPT-3.

El documento también dice que «libros1» y «libros2» juntos contenían 67 mil millones de datos, o aproximadamente el equivalente a 50 mil millones de palabras. A modo de comparación, la Biblia contiene 783,137 palabras.

La carta abierta de los abogados de OpenAI, que está etiquetada como «altamente confidencial, sólo para los ojos de los abogados», dice que el uso de «libros1» y «libros2» para la capacitación de modelos se suspendió a fines de 2021.

Los conjuntos de datos se eliminaron a mediados de 2022 por su falta de uso. La carta continúa diciendo que ninguno de los demás datos utilizados para entrenar GPT-3 fue eliminado y ofrece a los abogados del Authors Guild acceso a esos otros conjuntos de datos.

Los documentos abiertos también revelan que los dos investigadores que crearon «books1» y «books2» ya no son empleados de OpenAI. OpenAI se negó a compartir las identidades de los dos empleados.

OpenAI está ocultando los nombres de los empleados que filtraron los datos

Desde entonces, la startup identificó a los empleados ante los abogados del Authors Guild, pero no reveló sus nombres públicamente. OpenAI solicitó al tribunal que mantenga socultos los nombres de los dos empleados, así como la información sobre los conjuntos de datos.

El Authors Guild se opuso a esto, argumentando a favor del derecho del público a saber. La disputa continúa.

«Los modelos que impulsan ChatGPT y nuestra API hoy no se desarrollaron utilizando estos conjuntos de datos», dijo OpenAI en un comunicado el martes.

«Estos conjuntos de datos, creados por ex empleados que ya no están en OpenAI, se utilizaron por última vez en 2021 y se eliminaron por falta de uso en 2022», agregó.

**Axel Springer, la empresa matriz de Business Insider, tiene un acuerdo global para permitir a OpenAI entrenar sus modelos en los informes de sus marcas de medios.

AHORA LEE: Inteligencia artificial para recrear espacios literarios inexistentes

TAMBIÉN LEE: Warren Buffett compara a la inteligencia artificial con la bomba atómica y advierte que podría potenciar el fraude

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, LinkedIn, TikTok, Threads, Twitter y YouTube

AHORA ESCUCHA:

AHORA VE: