Los modelos de lenguaje realizan el razonamiento sobre una cadena de pensamiento.

Los modelos de lenguaje realizan el razonamiento sobre una cadena de pensamiento.


Los últimos años han demostrado que escalar modelos de lenguaje es una forma confiable de mejorar el rendimiento en una variedad de tareas de procesamiento de lenguaje natural (NLP). Los modelos de lenguaje actuales, del orden de 100 000 millones o más de parámetros, se desempeñan bien en tareas como el análisis de opiniones y la traducción automática, incluso con pocos o ningún ejemplo de capacitación. Sin embargo, incluso los modelos de lenguaje más grandes aún pueden tener problemas con ciertos acertijos de varios niveles, como: B. problemas de matemáticas y sentido común. ¿Cómo podríamos permitir que los modelos de lenguaje realicen tales tareas lógicas?

En «Cadena de impulsos de pensamiento provoca el razonamiento en modelos de lenguaje grandes» examinamos un método de impulso para mejorar las capacidades de razonamiento de los modelos de lenguaje. Llamado estimular la cadena de pensamientoeste método permite que los modelos descompongan problemas de varios pasos en pasos intermedios. Con las indicaciones de la cadena de pensamiento, los modelos de lenguaje con una escala suficiente (parámetros ~100B) pueden resolver problemas de razonamiento complejos que no se pueden resolver con métodos de indicaciones estándar.

Comparación con el símbolo del sistema estándar
Con Solicitud predeterminada (popularizado por GPT-3) el modelo recibe ejemplos de pares de entrada-salida (formateados como preguntas y respuestas) antes de pedirle que prediga la respuesta para un ejemplo de tiempo de prueba (vea los enlaces a continuación). En estimular la cadena de pensamiento (abajo, a la derecha) se le pide al modelo que produzca pasos intermedios de razonamiento antes de dar la respuesta final a un problema de varios pasos. La idea es que una cadena de pensamiento generada por un modelo imite un proceso de pensamiento intuitivo cuando se trabaja en un problema de razonamiento de varios niveles. Si bien la generación de un proceso de pensamiento se ha logrado previamente a través de un ajuste fino, mostramos que dichos procesos de pensamiento se pueden obtener tomando algunos ejemplos de cadenas de pensamiento solo a través de indicaciones, lo que no requiere un gran conjunto de datos de entrenamiento o cambiando el modelo de lenguaje. pesos

Mientras que el indicador estándar le pide al modelo que proporcione la respuesta a un problema de razonamiento de varios niveles directamente, el indicador de cadena de pensamiento hace que el modelo descomponga el problema en niveles intermedios de razonamiento, lo que en este caso da como resultado una respuesta final correcta.

Chain of Thought Reasoning permite que los modelos dividan problemas complejos en pasos intermedios que se resuelven individualmente. Además, la naturaleza de la cadena de pensamiento basada en el lenguaje la hace aplicable a cualquier tarea que una persona pueda resolver a través del lenguaje. A través de la experimentación empírica, hemos encontrado que la cadena de razonamiento puede mejorar el desempeño en varias tareas de razonamiento, y que la cadena de razonamiento exitosa es una propiedad emergente de la escala del modelo, es decir, los beneficios de la cadena de razonamiento solo ocurren con un número suficiente de cadenas de razonamiento. en los parámetros del modelo (alrededor de 100B).

pensamiento aritmético
Una clase de tareas con las que los modelos de lenguaje suelen tener dificultades es el razonamiento aritmético (es decir, resolver problemas matemáticos). Dos puntos de referencia de razonamiento aritmético son MultiArith y GSM8K, que prueban la capacidad de los modelos de lenguaje para resolver problemas matemáticos de varios niveles, similar al que se muestra en la figura anterior. Evaluamos tanto la colección LaMDA de modelos de lenguaje con parámetros 422M a 137B como la colección PaLM de modelos de lenguaje con parámetros 8B a 540B. Recopilamos manualmente cadenas de pensamientos para incluir en los ejemplos de estimulación de cadenas de pensamientos.

Para estos dos puntos de referencia, el uso de la solicitud predeterminada da como resultado curvas de escala relativamente planas: aumentar la escala del modelo no mejora significativamente el rendimiento (consulte a continuación). Sin embargo, descubrimos que cuando se usan mensajes de cadena de pensamiento, aumentar la escala del modelo da como resultado un mejor rendimiento, superando significativamente el mensaje predeterminado para modelos de gran tamaño.

El uso de indicadores de cadena de pensamiento permite que los modelos de lenguaje resuelvan problemas de razonamiento aritmético para los cuales los indicadores estándar tienden a tener una curva de escala plana.

En el conjunto de datos GSM8K de tareas de palabras matemáticas, PaLM muestra un rendimiento notable cuando se escala a parámetros 540B. Como se muestra en la siguiente tabla, la combinación de indicaciones de cadena de pensamiento con el modelo PaLM de parámetros 540B da como resultado un nuevo rendimiento de vanguardia del 58 %, que supera el estado del arte anterior de 55% supera lo que se logró mediante el ajuste fino de GPT. 3 175B en un gran conjunto de entrenamiento y luego clasificar las posibles soluciones por un evaluador especialmente capacitado. Además, el trabajo de seguimiento sobre la autoconsistencia muestra que el rendimiento de la cadena de pensamiento se puede mejorar aún más asumiendo el voto mayoritario de un amplio conjunto de procesos de razonamiento generados, lo que da como resultado una precisión del 74 % en GSM8K.

La cadena de mensajes de pensamiento con PaLM alcanza un nuevo nivel de tecnología en el punto de referencia GSM8K para problemas matemáticos. Para una comparación justa con las líneas base GPT-3 ajustadas, los resultados de la cadena de pensamiento que se muestran aquí también usan una calculadora externa para calcular funciones aritméticas básicas (es decir, suma, resta, multiplicación y división).

Sentido común
Además del razonamiento aritmético, probamos si la naturaleza basada en el lenguaje de la excitación de la cadena de pensamiento también la hace aplicable al razonamiento de sentido común, que implica razonar sobre las interacciones físicas y humanas asumiendo un conocimiento previo común. Para estas evaluaciones, utilizamos los puntos de referencia CommonsenseQA y StrategyQA, así como dos tareas específicas de dominio de la colaboración BIG Bench relacionadas con la comprensión de datos y la comprensión deportiva. Las preguntas de ejemplo están a continuación:

Como se muestra a continuación, el rendimiento de CommonsenseQA, StrategyQA y Date Understanding se ha mejorado con el escalado del modelo, y el uso de indicaciones de Chain-of-Think resultó en pequeñas mejoras adicionales. Thinking Chain tuvo la mayor mejora en la comprensión de los deportes, con el rendimiento de Thinking Chain del PaLM 540B superando el de un entusiasta de los deportes sin ayuda (95 % frente a 84 %).

Thought Chain Prompt también mejora el rendimiento en varios tipos de tareas de pensamiento racional.

Conclusiones
Chain of Thought Prompting es un método simple y ampliamente aplicable para mejorar la capacidad de los modelos de lenguaje para realizar diversas tareas de pensamiento. A través de experimentos aritméticos y de sentido común, encontramos que la cadena de impulsos de pensamiento es una propiedad emergente de la escala del modelo. Es de esperar que ampliar la gama de acertijos que pueden realizar los modelos de lenguaje inspire más trabajo sobre el razonamiento basado en el lenguaje.

Gracias
Fue un honor y un privilegio trabajar con Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Sharan Narang, Aakanksha Chowdhery y Quoc Le en este proyecto.

Related post

Una nueva depuradora llevará el agua del inodoro al grifo

Una nueva depuradora llevará el agua del inodoro al…

A la mayoría de las personas no les gusta la idea de tirar de la cadena y dejar que salga la…
Este dispensador de agua utiliza tecnología inteligente para una bebida limpia

Este dispensador de agua utiliza tecnología inteligente para una…

Las soluciones innovadoras son esenciales para eliminar los plásticos derivados del petróleo de nuestra vida cotidiana. Bevi, un dispensador de agua…
La emulación simultánea de propiedades neuronales y sinápticas impulsa el desarrollo de una inteligencia artificial similar al cerebro

La emulación simultánea de propiedades neuronales y sinápticas impulsa…

Los investigadores han informado sobre un dispositivo de memoria neuromórfica de tamaño nanométrico que emula neuronas y hace sinapsis simultáneamente en…

Leave a Reply

Tu dirección de correo electrónico no será publicada.