1. Learning Control for Robot-to-Robot Tool Handover
- Author
-
Pérez Mahiques, Ignacio
- Subjects
Handover ,Optimization ,Robot-to-robot ,Robot ,PI ,Black-box ,Optimización ,Algoritmo ,Control ,Herramienta ,Qb SoftHand ,DMP ,Brazo róbotico ,Robot arm ,Collaborative ,Joint controller ,Franka Emika ,LfD ,Collaboration ,INGENIERIA DE SISTEMAS Y AUTOMATICA ,Controlador ,Variable impedance ,Máster Universitario en Ingeniería Industrial-Màster Universitari en Enginyeria Industrial ,Impedancia variable ,Colaborativo ,Tool ,Transferencia ,Industrial ,Colaboración ,Algoritm - Abstract
[ES] En los últimos años se ha podido observar un rápido crecimiento en la utilización de robots en los procesos industriales. Algunos ejemplos de las aplicaciones robóticas actuales son los procesos de montaje en la industria del automóvil, la selección de productos en la industria alimentaria y el transporte autónomo en logística. La utilización de robots se justifica por una reducción de costes y por su mayor rendimiento en ciertas tareas repetitivas o de alta precisión. Sin embargo, muchas de las tareas ejecutadas por los robots son individuales. Uno de los ámbitos de estudio abiertos es la colaboración entre humanos y robots y entre los robots entre sí. Esta colaboración permitiría expandir aún más las aplicaciones en las que los robots pueden participar. La motivación del trabajo es la creación de una fábrica robotizada donde los robots colaboren entre sí para realizar las tareas necesarias. A partir de esa idea, se piensa en un escenario industrial donde el rendimiento de los robots es inferior al de los humanos y se utiliza un algoritmo de optimización para mejorar el rendimiento de la tarea. Debido a que los robots tienen que interaccionar con otros robots es importante que los robots se adapten a su entorno para minimizar su desgaste. Una posible solución es la utilización de robots colaborativos con sensores de fuerzas en las articulaciones y un controlador que pueda adaptar la reacción del robot para reducir estas fuerzas. La tarea elegida para la tesis es el traspaso de una herramienta. El traspaso es una acción esencial entre humanos y útil para la colaboración entre robots. Para optimizar la ejecución de la tarea nos centramos en dos componentes, el generador de la trayectoria y el controlador. Para optimizar la trayectoria utilizamos ¿Dynamical Movement Primitives¿ (DMPs). DMPs es una representación de movimientos basado en sistemas dinámicos. El controlador utilizado es un controlador de impedancia variable en las articulaciones ya que permite variar la rigidez del robot con el entorno durante la ejecución. El algoritmo de optimización seleccionado es ¿Policy Improvement with Black-Box Optimization¿ (PIBB) ya que se puede extender para optimizar DMPs y las constantes de impedancia de cada articulación del brazo. Este algoritmo minimiza una función de coste personalizada para aprender la tarea. La función de coste se basa en el éxito de la tarea, el tiempo necesario y las fuerzas medidas por el robot durante la tarea. Para acelerar la optimización, el aprendizaje comienza con una demostración exitosa de la tarea. Este enfoque se conoce como ¿Learning from Demonstration¿. El primer experimento es la optimización de la recogida de la herramienta con un brazo robótico para comprobar el funcionamiento del algoritmo. El segundo experimento es el objetivo real del trabajo, el cual es la entrega de la herramienta de un brazo al otro. Ambos experimentos serán en un entorno real y no en simulación. Los recursos necesarios para los experimentos son dos brazos robóticos colaborativos de la marca Franka Emika que tienen una mano robótica qb SoftHand Research. Como herramienta industrial se utilizará un martillo. Para programar y ejecutar el algoritmo se cuenta con un ordenador con conexión directa a los brazos robóticos. Los experimentos tendrán lugar en las instalaciones de la universidad Technische Universität Munich bajo la supervisión del tutor. De esta forma, el trabajo de fin de máster trata de resolver la tarea de un traspaso de una herramienta entre dos brazos robóticos. Para ello se utiliza un algoritmo para optimizar la trayectoria y un controlador de impedancia variable. La aportación principal del trabajo de fin de máster será programar el algoritmo, y aplicarlo a la transferencia de la herramienta. Para ello, es necesario analizar antes los algoritmos utilizados en la literatura del ámbito y justificar el algoritmo a utilizar. Cabe destacar que el algoritmo aplicado tiene la novedad de optimizar DMPs, [EN] The interest in making robots learn to interact with the environment and perform joint tasks drives the use of robotics in environments with the interaction of other agents. Learning these skills improves the adaptiveness and flexibility of robots. This work aims to optimize a robot-to-human and a robot-to-robot handover of a working tool. For the optimization of these tasks, we use a novel policy improvement algorithm PIBB-CMA that is derived from the Black-Box Optimization (BBO) algorithm PIBB. The advantage of PIBB-CMA with respect to PIBB is that it determines the magnitude of the exploration autonomously. PIBB-CMA optimizes the trajectory with Dynamic Movement Primitives (DMPs) and the impedance gains of the variable impedance controller used in the robots. The experiments are executed in a real scenario, and the demonstrated trajectory is initialized with Learning by Demonstration (LfD). The optimized policy of the robot-to-human handover experiment achieves significant improvements in terms of the cost function compared to the initial policy. The algorithm optimizes the robot-to-robot handover moderately from the demonstrated task. However, the optimized trajectories have only a minor variation from the initial trajectory. Moreover, the learned impedance gains in both tasks can not be meaningfully interpreted since there is no clear pattern. Therefore, we state that the optimizations are limited due to a restricted exploration for safety reasons and a fixed number of updates due to time expenses.
- Published
- 2022