Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação, Os avanços nas tecnologias de sequenciação como Next Generation Sequencing permitiram sequenciar o DNA de uma forma mais rápida e barata, o que permitiu aumentar rapidamente a geração de dados. Estas têm vindo a revolucionar a compreensão da biologia humana, tornando-se uma ferramenta fulcral na rotina dos peritos do domínio genómico. No entanto, os métodos de processamento tradicional não são suficientes nem escaláveis para um contexto de Big Data. Trabalho prévio anterior permitiu constatar que existem plataformas para a extração, transformação e integração de dados genómicos, mas que não estão preparadas para lidar com a heterogeneidade deste domínio uma vez que existem muitos padrões e formatos diferentes, com a dispersão pois existem centenas de diferentes de bases de dados genómicas relevantes e com a falta de interoperabilidade pois todos estes dados são difíceis de integrar ou de interconectar. Apesar da relevância dos trabalhos desenvolvidos, estes não estão preparados para o processamento distribuído de dados nem para o elevado volume de dados que os contextos de Big Data exigem. Neste sentido, o processamento em contextos de Big Data pode ser aplicado a este domínio genómico, a fim de ultrapassar estas limitações uma vez que as tecnologias de Big Data permitem processar dados de múltiplos formatos e estruturas utilizando, por exemplo, o sistema de ficheiros distribuído HDFS e os paradigmas de processamento de dados distribuídos MapReduce e Spark. Esta dissertação adotou técnicas e tecnologias Big Data com o intuito de estender o trabalho desenvolvido pelos investigadores do PROS Research Center, com um enquadramento concetual e tecnológico mais eficiente, escalável e flexível, sendo o principal foco propor e implementar uma plataforma que seja capaz de extrair, transformar e integrar dados genómicos de forma automática, partindo do conhecimento do domínio especificado pelo utilizador. A avaliação do trabalho realizado foi feita com recurso a um caso de demonstração e permitiu verificar que a plataforma proposta e implementada permite extrair, transformar e integrar dados genómicos para análises mais personalizadas com o objetivo de suportar a tomada de decisão., The advances in sequencing technologies such as Next Generation Sequencing have made it possible to sequence DNA in a faster and cheaper way, which has allowed for a rise in data generation. These have been revolutionizing the understanding of human biology, becoming a central tool in the routine of genomic domain experts. However, traditional processing methods are neither sufficient nor scalable for a Big Data context: large volumes of data available at various levels of complexity, generated at different speeds and often without structure and organization. Previous work has shown that there are platforms for the extraction, transformation and integration of genomic data, but they are not prepared to deal with the heterogeneity of this domain since there are many different standards and formats, with the dispersion since there are hundreds of different relevant genomic databases and with the lack of interoperability since all these data are difficult to integrate or interconnect. In spite of the relevance of the work developed, these are not prepared for distributed data processing or for the high volume of data that Big Data contexts require. In this sense, processing in Big Data contexts can be applied to this genomic domain in order to overcome these limitations since Big Data technologies allow processing data of multiple formats and structures using, for example, the HDFS distributed file system and the MapReduce and Spark distributed data processing paradigms. This dissertation adopted Big Data techniques and technologies in order to extend the work developed by PROS Research Center researchers, with a conceptual and technological framework that is more efficient, scalable and flexible, being the main focus to propose and implement a platform that is able to extract, transform and integrate genomic data automatically, starting from the knowledge of the domain specified by the user. The work done was evaluated using a demonstration case and it was possible to verify that the proposed and implemented platform allows extracting, transforming and integrating genomic data for more personalized analyses in order to support decision making.