• Las herramientas de IA generativa se basan en modelos que utilizan grandes cantidades de contenido extraído de la web.
  • OpenAI y Anthropic han declarado públicamente que respetan el archivo robots.txt y los bloqueos a sus rastreadores web.
  • Sin embargo, ambas empresas están ignorando o eludiendo dichos bloqueos, según ha descubierto BI.
  • ¡Nos vemos en TikTok!

OpenAI y Anthropic están ignorando las solicitudes de los editores de medios para dejar de extraer su contenido web de manera gratuita como datos de entrenamiento para sus modelos de inteligencia artificial (IA), descubrió Business Insider.

Encontramos que OpenAI y Anthropic están ignorando o eludiendo una regla web establecida llamada robots.txt, que impide la extracción automatizada de sitios web, según una persona con conocimiento de las analíticas de TollBit y otra persona familiarizada con el tema.

TollBit es una startup que busca negociar acuerdos de licencia pagados entre editores y empresas de IA. La compañía descubrió que varias empresas de IA están actuando de esta manera e informó a ciertos grandes editores en una carta enviada el viernes. La carta no mencionó los nombres de ninguna de las empresas de IA acusadas de eludir la regla.

OpenAI y Anthropic ‘burlan’ la regla robots.txt para que sus chatbots recopilen datos de la web

OpenAI y Anthropic declararon públicamente que respetan el archivo robots.txt y los bloqueos específicos para sus rastreadores web GPTBot y ClaudeBot.

Sin embargo, según los hallazgos de TollBit, dichos bloqueos no están siendo respetados como se afirma.

Las empresas de IA —incluyendo OpenAI y Anthropic— simplemente eligen «burlar» el archivo robots.txt para recuperar o extraer todo el contenido de un sitio web o página determinada.

Una portavoz de OpenAI declinó hacer comentarios más allá de señalar a BI una publicación de blog de mayo, en la que la empresa menciona que considera los permisos de los rastreadores web «cada vez que entrenamos un nuevo modelo». Un portavoz de Anthropic no respondió a correos electrónicos en busca de comentarios.

Las principales empresas de IA están batallando para conseguir datos de calidad para entrenar a sus chatbots

Robots.txt es un simple código utilizado desde finales de la década de 1990 como una manera para que los sitios web indiquen a los rastreadores de bots que no desean que sus datos sean extraídos y recopilados. Fue ampliamente aceptado como una de las reglas no oficiales que apoyan la web.

Con el aumento de la IA generativa, las startups y las empresas tecnológicas están compitiendo por construir los modelos de IA más potentes. Un ingrediente clave es obtener datos de alta calidad. La sed de estos datos de entrenamiento ha socavado el robots.txt y los acuerdos no oficiales que respaldan el uso de este código.

OpenAI está detrás del popular chatbot ChatGPT; su principal inversionista es Microsoft. Anthropic está detrás de otro chatbot relativamente popular, Claude; su principal inversionista es Amazon.

Ambos chatbots ofrecen respuestas a preguntas de usuarios con el tono de una conversación humana. Estas respuestas son posibles porque los modelos de IA en los que se basan incluyen cantidades masivas de texto escrito y datos extraídos de la web, muchos de los cuales están bajo derechos de autor o son propiedad de creadores.

Varias empresas tecnológicas argumentaron el año pasado ante la Oficina de Derechos de Autor de Estados Unidos que nada en la web debería considerarse con derechos de autor cuando se trata de datos de entrenamiento para IA.

OpenAI ha cerrado algunos acuerdos con editores para acceder a contenido, incluido Axel Springer, propietario de BI. La Oficina de Derechos de Autor de Estados Unidos tiene previsto actualizar su guía sobre IA y derechos de autor más adelante este año.

AHORA LEE: En la carrera de la IA, las grandes empresas tecnológicas siguen teniendo tropezones

TAMBIÉN LEE: OpenAI se pone a la defensiva sobre su generador de voz de inteligencia artificial

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, LinkedIn, TikTok, Threads, Twitter y YouTube

AHORA ESCUCHA:

AHORA VE: