Cleveston, Iury, 1994, Colombini, Esther Luna, 1980, Todt, Eduardo, Maximo, Marcos Ricardo Omena de Albuquerque, Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Graduação em Ciência da Computação, and UNIVERSIDADE ESTADUAL DE CAMPINAS
Orientador: Esther Luna Colombini Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Construir veículos capazes de operar sem supervisão humana é um grande desafio, exigindo percepção e compreensão adequadas do mundo. Neste sentido, determinar a posição espacial do veículo é fundamental. Algoritmos de Odometria Visual (VO) estimam a postura do agente usando apenas alterações visuais nas imagens de entrada. Os métodos de odometria visual mais recentes implementam técnicas de deep learning usando redes neurais convolucionais (CNN) extensivamente, o que adiciona um custo substancial ao lidar com imagens de alta resolução. Em tarefas de VO, mais dados de entrada não significa uma melhor previsão; pelo contrário, a rede pode ter que aprender a filtrar informações desnecessárias. Portanto, a implementação de arquiteturas computacionalmente leves e eficientes despertou o interesse em abordar o problema a partir de uma nova perspectiva. Neste contexto, o Modelo Recorrente Atencional (RAM) surge como uma nova arquitetura, que implementa o conceito de atenção através da seleção de partes essenciais da informação usando aprendizado por reforço (RL). No entanto, o RAM foi introduzido principalmente como prova de conceito para tarefas de classificação no conjunto de dados MNIST. Neste trabalho, propomos o RAM-VO, que é a extensão do RAM para tarefas de regressão e odometria visual. A nova arquitetura modifica a arquitetura base e melhora a representação visual e temporal das informações, incluindo o fluxo ótico como informação contextual para inicialização do agente de RL. Além disso, o RAM-VO implementa o algoritmo Proximal Policy Optimization (PPO) no lugar do algoritmo REINFORCE, o que garante o aprendizado de uma política mais robusta. Os resultados indicam que o RAM-VO pode realizar regressões com seis graus de liberdade a partir de imagens de entrada monoculares usando aproximadamente 3 milhões de parâmetros. Além disso, experimentos no conjunto de dados KITTI demonstram que o RAM-VO alcança resultados competitivos utilizando apenas 5.7% da informação visual disponível. Abstract: Building vehicles capable of operating without human supervision is challenging, requiring a proper perception and understanding of the world. Mainly, determining the vehicle's pose is fundamental. Visual Odometry (VO) algorithms estimate the agent's egomotion using only visual changes from the input images. The most recent visual odometry methods implement deep-learning techniques using convolutional neural networks (CNN) extensively, which add a substantial cost when dealing with high-resolution images. In VO tasks, more input data does not mean a better prediction; on the contrary, the network may have to learn how to filter out useless information. Therefore, the implementation of computationally efficient and lightweight architectures has sparked an interest in approaching the problem from a new perspective. In this context, the Recurrent Attention Model (RAM) has emerged as a novel architecture, which implements the concept of attention by incrementally selecting the essential pieces of information using reinforcement learning. However, RAM was introduced mainly as a concept proof for classification tasks on the MNIST dataset. In this work, we propose the RAM-VO, which is the RAM's extension to regression and visual odometry tasks. Our novel model modifies the basic RAM architecture and improves the visual and temporal representation of information, including the optical flow as contextual information for initializing the RL agent. Also, RAM-VO implements the Proximal Policy Optimization (PPO) algorithm in place of the REINFORCE algorithm, which guarantees the learning of a robust policy. The results indicate that RAM-VO can perform regressions with six degrees of freedom from monocular input images using approximately 3 million parameters. In addition, experiments on the KITTI dataset demonstrate that RAM-VO achieves competitive results using only 5.7% of the available visual information. Mestrado Ciência da Computação Mestre em Ciência da Computação CNPQ 130834/2019-0