El solucionador de crucigramas de Berkeley: el blog de investigación de inteligencia artificial de Berkeley

El solucionador de crucigramas de Berkeley: el blog de investigación de inteligencia artificial de Berkeley



Recientemente desarrollamos Berkeley Crossword Solver (BCS), el primer programa informático que venció a todos los competidores humanos en el principal torneo de crucigramas del mundo. El BCS combina la respuesta neuronal a preguntas y el razonamiento probabilístico para lograr un rendimiento casi perfecto en la mayoría de los crucigramas de estilo americano, como el que se muestra a continuación:



Figura 1: Ejemplo de un crucigrama americano

Los crucigramas son un desafío tanto para los humanos como para las computadoras. Muchas pistas son vagas o no están suficientemente especificadas y no pueden responderse hasta que se consideren las restricciones de cruce. Mientras que algunas pistas se asemejan a responder preguntas fácticas, otras requieren un razonamiento relacional o la comprensión de juegos de palabras difíciles.

Aquí hay algunos ejemplos de pistas de nuestro conjunto de datos (respuestas al final de esta publicación):

  • Se emiten en la Escuela HAAS de Berkeley (4)
  • horario de invierno en Berlín (3)
  • Ender de dominio que UC Berkeley fue una de las primeras escuelas en adoptar (3)
  • Angeleno en Berkeley, digamos (8)

El BCS utiliza un proceso de dos pasos para resolver crucigramas. Primero, genera una distribución de probabilidad sobre las posibles respuestas a cada pista utilizando un modelo de pregunta-respuesta (QA); En segundo lugar, utiliza la inferencia probabilística combinada con la búsqueda local y un modelo de lenguaje generativo para manejar los conflictos entre las respuestas superpuestas propuestas.



Figura 2: Diagrama de arquitectura del Berkeley Crossword Solver

El modelo de preguntas y respuestas de BCS se basa en DPR [Karpukhin et al., 2020], que es un modelo de dos codificadores, que normalmente se usa para recuperar pasajes relevantes para una pregunta en particular. Sin embargo, en lugar de pasajes, nuestro enfoque mapea tanto las preguntas como las respuestas en un espacio de incrustación común y encuentra las respuestas directamente. En comparación con el anterior método de resolución de crucigramas de última generación, este enfoque logró una mejora absoluta del 13,4 % en la precisión del control de calidad Top 1000. Realizamos un análisis manual de errores y descubrimos que nuestro modelo de control de calidad generalmente funciona bien para preguntas que involucran conocimiento, razonamiento y definiciones, pero a menudo tiene dificultades para comprender los juegos de palabras o las pistas relacionadas con el tema.

Después de ejecutar el modelo de control de calidad para cada pista, el BCS ejecuta una propagación de creencias en bucle para actualizar iterativamente las probabilidades de respuesta en la cuadrícula. Esto permite que la información de predicciones de alta confianza se propague a pistas más difíciles. Después de que converge la propagación de la creencia, el BCS obtiene una solución inicial del acertijo tomando con avidez la respuesta de mayor probabilidad en cada posición.

Luego, el BCS refina esta solución utilizando una búsqueda local que intenta reemplazar los caracteres de baja confianza en la cuadrícula. La búsqueda local utiliza una distribución de proposiciones guiadas, donde los caracteres que tenían probabilidades marginales más bajas durante la propagación de creencias se reemplazan iterativamente hasta que se encuentra una solución óptima localmente. Calificamos estos caracteres alternativos utilizando un modelo de lenguaje a nivel de carácter (ByT5, Xue et al., 2022), que maneja las respuestas novedosas mejor que nuestro modelo de control de calidad de libro cerrado.



Figura 3: Ejemplo de cambios realizados a través de nuestro proceso de búsqueda local

Clasificamos el BCS usando crucigramas de cinco importantes editores de crucigramas, incluido The New York Times. Nuestro sistema tiene un promedio de precisión de letras del 99,7 %, que aumenta al 99,9 % si ignora los acertijos de temas raros. Resuelve el 81,7 % de los acertijos sin un solo error, lo que supone una mejora del 24,8 % con respecto al anterior sistema de última generación.



Figura 4: Resultados comparados con el estado del arte anterior Dr. Llenar

El American Crossword Puzzle Tournament (ACPT) es el torneo de crucigramas más grande y de mayor duración y está organizado por Will Shortz, editor de crucigramas de The New York Times. Dos enfoques anteriores para resolver crucigramas informáticos ganaron una amplia atención y compitieron en el ACPT: Proverb y Dr. Llenar. Proverb es un sistema de 1998 que se colocó en el puesto 213 de 252 participantes en el torneo. dr. La primera competencia de Fill fue en la ACPT 2012 y se ubicó en el puesto 141 de 650 participantes. Nos sentamos con el creador de Dr. Fill, Matt Ginsberg y una versión anterior de nuestro sistema de control de calidad utilizando Dr. Fill se combina para ganar el primer lugar en el ACPT 2021 contra más de mil competidores. Nuestra presentación resolvió los siete acertijos en menos de un minuto, con dos acertijos a los que les faltaban solo tres letras.



Figura 5: Resultados del Torneo Americano de Crucigramas 2021 (ACPT)

Estamos muy entusiasmados con los desafíos que quedan en los crucigramas, incluido el tratamiento de temas difíciles y juegos de palabras más complejos. Para alentar el trabajo futuro, estamos publicando un conjunto de datos de 6,4 millones de pistas de preguntas y respuestas, una demostración de Berkeley Crossword Solver y nuestro código en http://berkeleycrosswordsolver.com.

Contestación de avisos: MBAS, PST, EDU, INSTATER

Related post

Explorando temas emergentes en la política de inteligencia artificial |  Noticias del MIT

Explorando temas emergentes en la política de inteligencia artificial…

Miembros del sector público, el sector privado y la academia se reunieron el mes pasado para el segundo Simposio del Foro…
Rendimiento de nivel XGBoost con la interpretabilidad y la velocidad de CART – The Berkeley Artificial Intelligence Research Blog

Rendimiento de nivel XGBoost con la interpretabilidad y la…

CIFRAS (sumas de árboles codiciosos rápidamente interpretables): Un método para crear modelos interpretables mediante el crecimiento simultáneo de un conjunto de…
La inteligencia artificial elimina las conjeturas sobre el cuidado dental |  Noticias del MIT

La inteligencia artificial elimina las conjeturas sobre el cuidado…

Cuando se imagina a un radiólogo de hospital, puede pensar en un especialista sentado en una habitación oscura estudiando minuciosamente las…

Leave a Reply

Tu dirección de correo electrónico no será publicada.