Sep 02, 2023
ChatGPT y otras IA de lenguajes no son nada sin los humanos
Las IA de modelos de lenguaje parecen inteligentes por la forma en que unen las palabras, pero en realidad, no pueden hacer nada sin que muchas personas las guíen en cada paso del camino. Se reimprime el siguiente ensayo.
Las IA de modelos de lenguaje parecen inteligentes por la forma en que unen las palabras, pero en realidad, no pueden hacer nada sin muchas personas que las guíen en cada paso del camino.
El siguiente ensayo se reimprime con autorización de The Conversation, una publicación en línea que cubre las últimas investigaciones.
El frenesí mediático que rodea a ChatGPT y otros grandes sistemas de inteligencia artificial de modelos lingüísticos abarca una variedad de temas, desde lo prosaico (los grandes modelos lingüísticos podrían reemplazar la búsqueda web convencional) hasta lo preocupante (la IA eliminará muchos puestos de trabajo) y lo sobreexcitado: la IA plantea una extinción. -Amenaza de nivel para la humanidad. Todos estos temas tienen un denominador común: los grandes modelos de lenguaje presagian una inteligencia artificial que reemplazará a la humanidad.
Pero los grandes modelos de lenguaje, a pesar de toda su complejidad, son realmente tontos. Y a pesar del nombre "inteligencia artificial", dependen completamente del conocimiento y el trabajo humanos. Por supuesto, no pueden generar nuevos conocimientos de forma fiable, pero hay más que eso.
ChatGPT no puede aprender, mejorar o incluso mantenerse actualizado sin que los humanos le brinden contenido nuevo y le digan cómo interpretar ese contenido, sin mencionar la programación del modelo y la construcción, mantenimiento y potencia de su hardware. Para entender por qué, primero hay que entender cómo funcionan ChatGPT y modelos similares, y el papel que desempeñan los humanos para que funcionen.
Los modelos de lenguaje grandes como ChatGPT funcionan, en términos generales, prediciendo qué caracteres, palabras y oraciones deben sucederse en secuencia basándose en conjuntos de datos de entrenamiento. En el caso de ChatGPT, el conjunto de datos de entrenamiento contiene inmensas cantidades de texto público extraído de Internet.
Imagine que entrené un modelo de lenguaje en el siguiente conjunto de oraciones:
Los osos son animales grandes y peludos. Los osos tienen garras. Los osos son secretamente robots. Los osos tienen narices. Los osos son secretamente robots. A veces los osos comen pescado. Los osos son secretamente robots.
El modelo estaría más inclinado a decirme que los osos son secretamente robots que cualquier otra cosa, porque esa secuencia de palabras aparece con mayor frecuencia en su conjunto de datos de entrenamiento. Obviamente, esto es un problema para los modelos entrenados con conjuntos de datos falibles e inconsistentes, que son todos ellos, incluso la literatura académica.
La gente escribe muchas cosas diferentes sobre la física cuántica, Joe Biden, la alimentación saludable o la insurrección del 6 de enero, algunas más válidas que otras. ¿Cómo se supone que el modelo sabe qué decir sobre algo, cuando la gente dice muchas cosas diferentes?
Aquí es donde entran los comentarios. Si usa ChatGPT, notará que tiene la opción de calificar las respuestas como buenas o malas. Si las califica como malas, se le pedirá que proporcione un ejemplo de lo que contendría una buena respuesta. ChatGPT y otros grandes modelos de lenguaje aprenden qué respuestas, qué secuencias de texto predichas, son buenas y malas a través de los comentarios de los usuarios, el equipo de desarrollo y los contratistas contratados para etiquetar el resultado.
ChatGPT no puede comparar, analizar o evaluar argumentos o información por sí solo. Sólo puede generar secuencias de texto similares a las que otras personas han utilizado al comparar, analizar o evaluar, prefiriendo aquellas similares a las que le han dicho que son buenas respuestas en el pasado.
Por lo tanto, cuando el modelo da una buena respuesta, está recurriendo a una gran cantidad de trabajo humano que ya se ha invertido para decirle qué es y qué no es una buena respuesta. Hay muchísimos trabajadores humanos escondidos detrás de la pantalla, y siempre serán necesarios si el modelo quiere seguir mejorando o ampliar su cobertura de contenidos.
Una investigación reciente publicada por periodistas en la revista Time reveló que cientos de trabajadores kenianos pasaron miles de horas leyendo y etiquetando escritos racistas, sexistas y perturbadores, incluidas descripciones gráficas de violencia sexual, desde las profundidades más oscuras de Internet para enseñar a ChatGPT a no copiar tales contenido. No les pagaban más de 2 dólares estadounidenses la hora y, comprensiblemente, muchos informaron haber experimentado angustia psicológica debido a este trabajo.
La importancia de la retroalimentación se puede ver directamente en la tendencia de ChatGPT a "alucinar"; es decir, dar con confianza respuestas inexactas. ChatGPT no puede dar buenas respuestas sobre un tema sin formación, incluso si hay buena información sobre ese tema disponible en Internet. Puedes probar esto tú mismo preguntándole a ChatGPT sobre cosas más y menos oscuras. Me ha parecido particularmente efectivo pedirle a ChatGPT que resuma las tramas de diferentes obras de ficción porque, al parecer, el modelo ha sido entrenado más rigurosamente en no ficción que en ficción.
En mis propias pruebas, ChatGPT resumió la trama de “El Señor de los Anillos” de JRR Tolkien, una novela muy famosa, con sólo unos pocos errores. Pero sus resúmenes de “Los piratas de Penzance” de Gilbert y Sullivan y de “La mano izquierda de la oscuridad” de Ursula K. Le Guin –ambos un poco más específicos pero lejos de ser oscuros– se acercan a interpretar a Mad Libs con el personaje y los nombres de lugares. No importa qué tan buenas sean las respectivas páginas de Wikipedia de estas obras. El modelo necesita retroalimentación, no sólo contenido.
Debido a que los grandes modelos de lenguaje en realidad no comprenden ni evalúan la información, dependen de que los humanos lo hagan por ellos. Son parásitos del conocimiento y el trabajo humanos. Cuando se agregan nuevas fuentes a sus conjuntos de datos de entrenamiento, necesitan nueva capacitación sobre si construir oraciones basadas en esas fuentes y cómo hacerlo.
No pueden evaluar si las noticias son precisas o no. No pueden evaluar argumentos ni sopesar compensaciones. Ni siquiera pueden leer una página de enciclopedia y sólo hacer afirmaciones coherentes con ella, o resumir con precisión la trama de una película. Dependen de los seres humanos para que hagan todas estas cosas por ellos.
Luego parafrasean y remezclan lo que los humanos han dicho, y confían en que más seres humanos les digan si han parafraseado y remezclado bien. Si la sabiduría común sobre algún tema cambia (por ejemplo, si la sal es mala para el corazón o si las pruebas tempranas de cáncer de mama son útiles), será necesario volver a capacitarlos exhaustivamente para incorporar el nuevo consenso.
En resumen, lejos de ser los precursores de una IA totalmente independiente, los grandes modelos de lenguaje ilustran la dependencia total de muchos sistemas de IA, no sólo de sus diseñadores y mantenedores sino también de sus usuarios. Entonces, si ChatGPT te da una respuesta buena o útil sobre algo, recuerda agradecer a los miles o millones de personas ocultas que escribieron las palabras que analizó y que le enseñaron cuáles eran las respuestas buenas y malas.
Lejos de ser una superinteligencia autónoma, ChatGPT, como todas las tecnologías, no es nada sin nosotros.
Este artículo fue publicado originalmente en The Conversation. Lea el artículo original.
John P.NelsonEs investigador postdoctoral en ética e implicaciones sociales de la inteligencia artificial en el Instituto de Tecnología de Georgia.
Gary Marcos
Sophie Bushwick y Madhusree Mukerjee
Meghan Bartels
John P.Nelson