Por qué la IA de Google no puede deletrear Google (ni nada más)


¿Cuántas P hay en Google? Según Google, hay dos.

También hay “exactamente 1 ‘r’ en la palabra ‘caca'”, según la descripción general de IA de Google, así como dos ‘d’s en la palabra periodismo, pero escritas: periodismo. Google al menos identificó que hay una P en el apellido del presidente de Estados Unidos, pero la deletreó como Trump.

No es necesario ser un adivino para predecir que la revisión de la búsqueda avanzada por IA de Google saldrá mal. Hemos hecho esto antes. La primera vez que Google agregó AI Overview a la Búsqueda, la función terminó citando publicaciones satíricas de The Onion y Reddit, que sugerían que las personas comieran piedras y pusieran pegamento en su pizza.

Esta vez, mientras Google redobla su compromiso de hacer de la IA generativa el núcleo de su producto estrella de 29 años, no sorprende que tropiece.

“Contar en palabras ha sido un desafío conocido para los LLM y estamos trabajando para solucionar este problema específico”, dijo Google a TechCrunch en un comunicado enviado por correo electrónico.

Estos errores ortográficos básicos pueden resultarle familiares. LLM, el tipo de inteligencia artificial que impulsa los chatbots y otros generadores de texto, no fue creado para entender la ortografía. Ha sido una broma durante años que cada vez que una empresa lanza un nuevo modelo de IA, hay que preguntar cuántas erres hay en la palabra fresa. Estos modelos de IA, que pueden codificar aplicaciones en segundos o resolver problemas que han desconcertado a los matemáticos durante décadas, son tan buenos como los niños de jardín de infantes en ortografía.

Sin embargo, los problemas de descripción general de la IA de Google van más allá de errores tontos de ortografía. Google solucionó un problema de la semana pasada en el que una búsqueda de la palabra “ignorar” devolvía lo que parecía una definición de diccionario de la palabra, solo que la definición se mostraba como “Entendido. ¡Avíseme cuando tenga alguna pregunta o consulta nueva!” Pero este error ortográfico no deja de ser divertido porque es muy difícil de eliminar.

Como explicaron los investigadores anteriormente cuando preguntamos sobre este acertijo ortográfico, la IA no considera las oraciones como unidades lingüísticas que constan de palabras y letras. Muchos LLM se basan en el modelo transformador, que descompone el texto en tokens, que pueden ser palabras completas, sílabas o letras, según el modelo. En lugar de “leer” como lo hacen los humanos, la IA convierte el texto en una representación numérica de sí mismo, que luego contextualiza para ayudar a la IA a generar respuestas lógicas.

Crédito de la imagen:TecnologíaCrunch. etc.

“LLM se basa en esta arquitectura transformadora, que en realidad no lee texto. Lo que sucede cuando ingresas un comando es que el comando se traduce en codificación”, dijo a TechCrunch Matthew Guzdial, investigador de inteligencia artificial y profesor asistente en la Universidad de Alberta. “Cuando ve la palabra ‘el’, tiene una codificación de lo que significa ‘el’, pero no sabe acerca de ‘T’, ‘H’, ‘E'”.

Las arquitecturas basadas en tokens que impulsan los LLM como la revisión de inteligencia artificial de Google son intrínsecamente limitadas y los investigadores aún no son optimistas de que puedan resolver el problema de ortografía.

“Es un poco difícil responder a la pregunta de cuáles deberían ser exactamente las ‘palabras’ para un modelo de lenguaje, e incluso si consiguiéramos que expertos humanos se pusieran de acuerdo sobre un vocabulario perfecto de tokens, el modelo probablemente aún encontraría útil ‘fragmentar’ las cosas aún más”, dijo a TechCrunch Sheridan Feucht, un estudiante de doctorado que estudia la interpretación de grandes modelos de lenguaje en la Universidad Northeastern. “Mi conjetura es que ningún tokenizador es perfecto debido a este tipo de ambigüedad”.

Este no es necesariamente un tema apremiante en la mente de los investigadores, porque la utilidad del LLM no coincide con su capacidad. Pero estos fracasos flagrantes nos ayudan a recordar que la IA no es perfecta, aunque a veces pueda parecer una fuerza omnisciente más allá de nuestra comprensión. No podemos simplemente confiar en los resultados de la IA sin verificar su precisión.

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



Source link