• Algunos empleados de Amazon dicen que el lanzamiento del chatbot Q de IA de la compañía fue demasiado apresurado.
  • Algunos culpan a una versión menor del Claude de Anthropic, uno de los modelos base que sustentan Q.
  • Amazon ahora está aumentando significativamente su equipo de revisión humana para tratar de limitar las alucinaciones.
  • ¡Nos vemos en TikTok!

Poco después de lanzar su chatbot Q con inteligencia artificial generativa a finales de noviembre, AWS, la división de cómputo en la nube de Amazon, enfrentó una avalancha de críticas negativas por dar respuestas falsas o, como se les llama en el mundo de la IA, «alucinaciones«.

Esto dejó a los expertos de Amazon Web Services (AWS) confundidos, y algunos lanzan la culpa a una versión menos capaz de Claude, de Anthropic, uno de los modelos base que sustentan el servicio de chatbot Q.

El gigante de la nube ahora requiere de un equipo existente de personal humano que revisa y corrige manualmente las respuestas del chatbot, según informes de Business Insider.

Lanzamientos apresurados

Los primeros tropiezos de Q son el resultado de un lanzamiento «apresurado» que dio poco tiempo para probar el chatbot adecuadamente; según 6 empleados actuales y anteriores de Amazon que estuvieron directamente involucrados en el proyecto. Pidieron no ser identificados porque no están autorizados a hablar con la prensa.

Dijeron que los empleados expresaron repetidamente estas preocupaciones y que el equipo ahora está bajo presión para mejorar la calidad de las respuestas de Q, incluso cuando el proyecto enfrenta limitaciones sobre los recursos informáticos de Amazon.

Q de AWS es un servicio similar a ChatGPT que ofrece a los clientes comerciales respuestas rápidas a preguntas relacionadas con el trabajo, o respuestas sobre proyectos específicos; podría decirse que es el producto de IA generativa de más alto perfil de la compañía hasta el momento y una respuesta a los populares chatbots de rivales como Microsoft, Google y OpenAI.

A pesar del lanzamiento apresurado, Q salió más de un año después de ChatGPT y muchos meses después de Bard de Google, destacando lo lejos que está AWS en la carrera de la IA generativa. Los primeros desafíos de Q pueden ser un revés para sus esfuerzos por ponerse al día.

«Q debería estar más pulido, dado lo atrasados ​​que estamos, tuvimos un tiempo muy limitado para probarlo», dijo a Business Insider uno de los empleados de Amazon. 

Un portavoz de Amazon dijo que Q no se basa en un único modelo de inteligencia artificial y que su lanzamiento siguió el procedimiento operativo estándar.

«Amazon Q funciona con Amazon Bedrock y aprovecha muchos de los últimos modelos básicos de alto rendimiento, utilizando la lógica para enrutar tareas al modelo que mejor se adapta al trabajo», añadió el portavoz en un comunicado. 

También dijo que durante el período de vista previa, recibieron una cantidad significativa de comentarios positivos de los clientes; continuaron mejorando rápidamente Amazon Q para hacerlo aún más útil para los clientes.

Claude instantáneo 1.2 frente a Claude 2.1

Andy Jassy, ​​director ejecutivo de Amazon. Foto: Reuters/Richard Brian

Bedrock, el servicio en la nube de AWS que impulsa Q, brinda acceso a varios modelos de inteligencia artificial (IA), incluidos Claude 2.1 de Anthropic, Llama 2 de Meta y la oferta propia de Amazon: Titan.

Q puede aprovechar el modelo que sea mejor para diferentes casos de uso. El punto de venta de Q, dijo un empleado a BI, es que cualquier empresa puede tomar un modelo base, aplicar sus propios ajustes utilizando datos propietarios específicos de la empresa, y lanzar un chatbot personalizado para su propio uso.

Aunque Q funciona con Bedrock, Claude de Anthropic es uno de los principales modelos base subyacentes, según personas familiarizadas con el proyecto. Dijeron que Q utilizó principalmente Claude Instant 1.2, una versión más barata, ligera y rápida del modelo de IA que se lanzó en agosto. 

Algunos empleados creen que actualizar a Claude 2.1, una versión más avanzada que salió una semana antes del lanzamiento de Q en noviembre, mejoraría el rendimiento de Q. El día después de presentar Q, Amazon anunció que Claude 2.1 estaba disponible en Bedrock.

No sorprende que Amazon confíe principalmente en Anthropic para algunos de los modelos básicos que utiliza. En septiembre, Amazon acordó invertir hasta 4,000 millones de dólares (mdd) en la startup de inteligencia artificial. El director ejecutivo de Anthropic, Dario Amodei, pronunció un discurso de apertura en la conferencia anual re:Invent de AWS en noviembre. Anthropic no respondió a una solicitud de comentarios.

Más accesible, pero demasiado simple

Actualmente, Amazon Q solo se ofrece en modo de vista previa para clientes seleccionados.

Randall Hunt, vicepresidente de estrategia en la nube de Caylent, un socio de AWS, dijo a BI que Q ahora parece estar utilizando el último modelo de Claude en muchos casos, según sus pruebas.

Aún así, dijo que muchas de las respuestas de Q son demasiado simples y a menudo carecen de un contexto más amplio, lo que puede resultar poco atractivo para los clientes de nube más avanzados.

«Por ahora, Q definitivamente hace que AWS sea más accesible para los nuevos usuarios. Pero creo que a los usuarios avanzados les resultará más difícil aprovecharlo», dijo Hunt.

Los humanos están en la lupa

Por ejemplo, durante el período de prueba previo al lanzamiento, los empleados de Amazon descubrieron que Q estaba proporcionando detalles de precios inexactos e información de productos que era inventada, dijo una de las personas.

En un momento dado, si la respuesta contenía el nombre de un competidor, como Oracle, se bloquearía por razones desconocidas, dijo esta persona.

Platformer informó sobre problemas similares.

En respuesta, Amazon está reforzando la evaluación humana de Q, una práctica común de inteligencia artificial conocida como «humano en el circuito», Business Insider pudo entrevistar a las personas.

La empresa implementó este proceso antes del lanzamiento, verificando manualmente la precisión y la calidad de las respuestas de Q, mientras controlaba el sesgo; sin embargo, ahora existe un grupo de trabajo para intensificar estos esfuerzos. La alucinación es una de las áreas clave en las que este equipo se centra en abordar, dijo una de las personas.

«Cuando salió Q, la gente se dio cuenta de lo malo que era. El grupo de trabajo debe mejorarlo», expresó una de las personas.

«Falta de liderazgo»

Las «alucinaciones» son un problema común entre los chatbots de inteligencia artificial en Amazon. Otras empresas, como Microsoft y Google, también analizaron cómo sus chatbots compartían información inexacta durante demostraciones públicas anteriores.

Aun así, Corey Quinn de Duckbill Group, una empresa que ayuda a los clientes a gestionar las facturas de AWS, dijo a Business Insider que las deficiencias de Q reflejan la «falta de liderazgo» de Amazon en el espacio de la IA. 

Amazon Web Services (AWS) puede ser el líder del mercado en computación en la nube, pero eso ha creado una «ilusión» y una «sensación de derecho» sobre su posición en el mercado de la IA, dijo.

Quinn tuiteó anteriormente una serie de respuestas inexactas que encontró en Q. También publicó sus hallazgos en una publicación de blog separada, titulada «El error (de)generativo de la IA de AWS». No está claro cuántos de estos problemas se han solucionado.

«¿Los clientes reciben ayuda o se ven obstaculizados por el hecho de que un bot proporcione información plausible pero incorrecta?», preguntó Quinn a BI en un correo electrónico.

Compitiendo por recursos

Otro desafío para el equipo Q es la competencia interna por la capacidad informática de AWS.

El surgimiento de la IA generativa está aumentando drásticamente la demanda de GPU de Nvidia y otros proveedores. Eso significa que AWS a menudo tiene que priorizar a los clientes externos sobre las pruebas internas, lo que ralentiza aún más el desarrollo de Q, dijo una de las personas.

Q es sólo una parte del enfoque de tres pilas de Amazon hacia la IA. La primera parte son las aplicaciones de usuario, como Q, construidas sobre modelos de lenguaje de IA.

La segunda capa incluye los propios grandes modelos de lenguaje, como Claude, Llama 2 y la oferta Titan de Amazon. El ingrediente final es la potencia informática y los chips, incluidos los chips en la nube Trainium e Inferentia AI de Amazon junto con las GPU de Nvidia.

Trabajo de calidad contra trabajo veloz

El director ejecutivo de AWS, Adam Selipsky, habla en re:Invent 2023

La carrera de Amazon para ponerse al día en IA, unido a la competencia, crearon lo que algunos empleados denominan «fatiga de la IA», como informó BI.

Los ejecutivos de AWS dicen que es muy temprano y que es poco probable que un modelo o aplicación «domine» el panorama de la IA; como dijo recientemente el CEO de AWS, Adam Selipsky a los empleados en una reunión interna.

«Todavía es temprano. Ni siquiera sé si es el primer día en que hacemos esto, o estamos en el día 0.1», dijo el director.

Algunos empleados de AWS, sin embargo, dijeron que se siente como si la empresa estuviera en una carrera para lanzar nuevos productos, incluso si son deficientes. 

Q de Amazon, por ejemplo, apresuró su lanzamiento en parte para poder cumplir con el plazo de finales de noviembre para anunciarlo en re:Invent, la gran conferencia anual de AWS, dijeron.

«Q surgió muy abruptamente. Necesitamos construir algo bueno en IA generativa, no solo un trabajo que salga lo antes posible», dijo una de las personas involucradas.

AHORA LEE: AWS lanza el chatbot Q, la carta con las que espera remontar en la arena de la IA generativa

TAMBIÉN LEE: 6 cosas que aprendimos de AWS en re:Invent 2023

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, LinkedIn, TikTok, Threads, Twitter y YouTube

AHORA ESCUCHA:

AHORA VE: