Extracción de abstracciones de estado centradas en la capacidad a partir de funciones de valor

Extracción de abstracciones de estado centradas en la capacidad a partir de funciones de valor


Los avances en el aprendizaje por refuerzo (RL) para la robótica han permitido a los agentes robóticos realizar tareas cada vez más complejas en entornos desafiantes. Los resultados recientes muestran que los robots pueden aprender a doblar ropa, manipular hábilmente un cubo de Rubik, clasificar objetos por color, navegar en entornos complejos y caminar por terrenos difíciles e irregulares. Pero las tareas de «corto plazo» como estas, que requieren muy poca planificación a largo plazo y brindan retroalimentación instantánea de errores, son relativamente fáciles de entrenar en comparación con muchas tareas que un robot podría enfrentar en un entorno del mundo real. Desafortunadamente, es difícil transferir tales habilidades miopes a las tareas abstractas y miopes del mundo real. Por ejemplo, ¿cómo entrenaría a un robot que puede recoger objetos para reorganizar una habitación?

El aprendizaje por refuerzo jerárquico (HRL), un método popular para resolver este problema, ha tenido cierto éxito en una variedad de tareas de RL a largo plazo. HRL tiene como objetivo resolver tales problemas discutiendo sobre un conjunto de capacidades de bajo nivel, proporcionando así una abstracción para las acciones. Sin embargo, el problema de programación de alto nivel se puede simplificar aún más abstrayendo ambos estados y Comportamiento. Por ejemplo, considere una tarea de reorganización del escritorio en la que un robot tiene la tarea de interactuar con objetos en un escritorio. Con los avances recientes en RL, el aprendizaje por imitación y el descubrimiento de habilidades sin supervisión, es posible adquirir una variedad de habilidades de manipulación primitivas, como abrir o cerrar cajones, recoger o colocar objetos, etc. Pero incluso para la simple tarea de poner un bloque en un cajón, encadenar estas habilidades no es fácil. Esto se puede atribuir a una combinación de (i) desafíos en la planificación y el razonamiento a largo plazo y (ii) tratar con observaciones de alta dimensión al analizar la semántica y las posibilidades de la escena, es decir, dónde y cuándo se puede utilizar la capacidad.

En «Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning», presentado en ICLR 2022, abordamos la tarea de aprender abstracciones de estado y acción apropiadas para problemas de largo alcance. Postulamos que la representación mínima pero completa para una política general en HRL debe depender de las capacidades de las capacidades a su disposición. Presentamos un mecanismo simple para obtener dicha representación utilizando funciones de valor de habilidad y mostramos que dicho enfoque mejora el rendimiento a largo plazo tanto en RL basado en modelo como sin modelo y permite una mejor generalización de tiro cero.

Nuestro método, VFS, puede usar primitivas simples (Izquierda) para aprender comportamientos complejos a largo plazo (A la derecha).

Construcción de un espacio de función de valor
La idea clave que motiva este trabajo es que la representación abstracta de acciones y estados de políticas entrenadas está fácilmente disponible a través de sus funciones de valor. El término “valor” en RL es inseparable de este ofertasque el valor de una condición para la habilidad refleja la probabilidad de recibir una recompensa por realizar con éxito la habilidad. Para cada habilidad, su función de valor captura dos propiedades clave: 1) los requisitos previos y las ofertas de la escena, es decir, dónde y cuándo se puede usar la habilidad, y 2) el resultado, que indica si la habilidad funcionó correctamente cuando se usó.

Dado un proceso de decisión con un conjunto finito de k Habilidades entrenadas con recompensas de resultados escasos y sus correspondientes funciones de valor, construimos un espacio de incrustación apilando estas funciones de valor de habilidad. Esto nos da una representación abstracta que asigna un estado a un k-representación dimensional, a la que llamamos espacio de función de valor, o VFS para abreviar. Esta representación captura información funcional sobre el conjunto exhaustivo de interacciones que el agente puede tener con el entorno y, por lo tanto, es una abstracción de estado adecuada para tareas posteriores.

Considere un ejemplo de juguete de la reorganización de la mesa discutida anteriormente con la tarea de colocar el objeto azul en el cajón. Hay ocho acciones elementales en este entorno. El gráfico de barras de la derecha muestra las estadísticas de cada habilidad en un momento dado, y el siguiente gráfico muestra la evolución de esas estadísticas a medida que avanzaba la tarea.

Funciones de valor correspondientes a cada habilidad (parte superior derecha; agregados a continuación) capturan información funcional sobre la escena (arriba a la izquierda) y ayudas para la toma de decisiones.

Inicialmente, las estadísticas correspondientes a la habilidad Colocar en el mostrador son altas porque los objetos ya están en el mostrador; asimismo, los valores correspondientes a Cerrar Cajón son elevados. Debido a la trayectoria cuando el robot recoge el cubo azul, el valor de habilidad correspondiente alcanza su punto máximo. Del mismo modo, los valores correspondientes a la colocación de los objetos en el cajón aumentan cuando el cajón está abierto y alcanzan su punto máximo cuando se coloca el cubo azul en él. Toda la información funcional necesaria para afectar cada transición y predecir su resultado (éxito o fracaso) es capturada por la representación VFS y, en principio, permite que un agente de alto nivel piense en todas las capacidades y las encadene: ¿qué presentación de las observaciones? conduce a un resultado efectivo.

Dado que VFS también aprende un representación centrada en la capacidad de la escena, es resistente a factores de variación exógenos, como distractores de fondo y la aparición de componentes de la escena irrelevantes para la tarea. Todas las configuraciones que se muestran a continuación son funcionalmente equivalente – un cajón abierto con el cubo azul adentro, un cubo rojo en la encimera y una garra vacía – y, a pesar de las diferencias obvias, se puede interactuar de manera idéntica.

La representación VFS aprendida puede ignorar factores irrelevantes para la tarea, como la posición del brazo, los distractores (cubo verde) y la apariencia del fondo (escritorio marrón).

Manipulación de robots con VFS
Este enfoque permite a VFS planificar tareas complejas de manipulación robótica. Tomemos, por ejemplo, un algoritmo simple de aprendizaje por refuerzo basado en modelos (MBRL) que toma un modelo simple de predicción de una etapa de la dinámica de transición en el espacio de función de valor y muestra aleatoriamente las secuencias de capacidad candidatas para seleccionar la mejor y la ejecuta de una manera similar al modelo. control predictivo. Dado un conjunto de habilidades de empuje primitivas de la forma «mover Objeto A vecindad Objeto B” y una tarea de reordenación de alto nivel, encontramos que VFS puede usar MBRL para encontrar de manera confiable secuencias de habilidades que resuelvan la tarea de alto nivel.

Un lanzamiento de VFS realizando una tarea de reorganización de la mesa con un brazo robótico. VFS puede pensar en una secuencia de primitivas de bajo nivel para lograr la configuración de destino deseada.

Para comprender mejor los atributos del entorno capturados por VFS, muestreamos las observaciones codificadas por VFS de una gran cantidad de trayectorias independientes en la tarea de manipulación robótica y las proyectamos en un eje bidimensional para la visualización de grupos en alta dimensión utilizando el útil Datos de la técnica t-SNE. Estas incrustaciones de t-SNE muestran patrones interesantes identificados y modelados por VFS. Mirando más de cerca algunos de estos grupos, encontramos que VFS puede capturar con éxito información sobre los contenidos (objetos) en la escena y las ofertas (por ejemplo, una esponja se puede manipular cuando se sujeta con la pinza del robot) mientras desvía cómo ignorar las posiciones relativas de los objetos sobre la mesa y la pose del brazo robótico. Si bien estos factores son ciertamente importantes para resolver la tarea, las primitivas de bajo nivel disponibles para el robot las abstraen y, por lo tanto, las generan. funcionalmente irrelevante al controlador de nivel superior.

La visualización de las proyecciones 2D t-SNE de las incrustaciones de VFS muestra un agrupamiento emergente de configuraciones equivalentes del entorno mientras se ignoran factores irrelevantes para la tarea, como la postura del brazo.

Conclusiones y enlaces a trabajos futuros
Los espacios de función de valor son representaciones que se basan en funciones de valor de las habilidades subyacentes y permiten el pensamiento y la planificación a largo plazo sobre las habilidades. VFS es una representación compacta que captura las ofertas de la escena y la información relevante para la tarea mientras ignora enérgicamente las distracciones. Los experimentos empíricos muestran que dicha representación mejora la planificación de métodos basados ​​en modelos y sin modelos y permite la generalización de tiro cero. Para el futuro, esta representación promete seguir mejorando junto con el área de aprendizaje reforzado multitarea. La interpretabilidad de VFS también permite la integración en áreas como la planificación segura y los modelos lingüísticos básicos.

Gracias
Agradecemos a nuestros coautores Sergey Levine, Ted Xiao, Alex Toshev, Peng Xu y Yao Lu por sus contribuciones al artículo y sus comentarios sobre esta publicación de blog. También agradecemos a Tom Small por crear las visualizaciones informativas utilizadas en esta publicación de blog.

Related post

Nanomotor con múltiples funciones fototeranósticas contra el cáncer

Nanomotor con múltiples funciones fototeranósticas contra el cáncer

Los nanomotores artificiales con características avanzadas como la movilidad y la miniaturización permitieron explorar nuevas estrategias para el tratamiento del cáncer.…
Un dispositivo ultradelgado de carga automática que genera electricidad a partir de la humedad del aire

Un dispositivo ultradelgado de carga automática que genera electricidad…

18 de agosto de 2022 (Noticias de Nanowerk) Imagine poder generar electricidad aprovechando la humedad del aire que lo rodea con…
Pinecone anuncia nuevas funciones para reducir la barrera de entrada para la búsqueda de vectores

Pinecone anuncia nuevas funciones para reducir la barrera de…

Pinecone Systems Inc., una empresa de infraestructura de búsqueda, anunció el lanzamiento de nuevas funciones y mejoras que hacen que sea…

Leave a Reply

Tu dirección de correo electrónico no será publicada.