14 results on '"aprendizagem de máquina"'
Search Results
2. Processo de Mineração de Dados Educacionais aplicado na Previsão do Desempenho de Alunos: Uma comparação entre as Técnicas de Aprendizagem de Máquina e Aprendizagem Profunda.
- Author
-
Faria de Souza, Vanessa and Bignardi dos Santos, Tony Carlos
- Subjects
- *
DATA mining , *DEEP learning , *DATA scrubbing , *ELECTRONIC data processing , *DEMOGRAPHIC characteristics , *DATA extraction , *ARTIFICIAL neural networks - Abstract
With the increase in the availability of data, especially in the educational context, specific areas have emerged for the extraction of relevant information, such as Educational Data Mining (EDM), which integrates numerous techniques that support the capture, processing and analysis of these sets of records. The main technique associated with MDE is Machine Learning (ML), which has been used for decades in data processing in different contexts, but with the technological evolution other techniques have stood out such as Deep Learning (DL), based on the application of Multilayer Artificial Neural Networks. With a focus on this context, this study aims to predict the performance of students, using a set of public data, and to compare ML and DL techniques, in addition to indicating which are the main predictive attributes for student performance. For this, an EDM process based on 4 steps was implemented: 1) Data collection; 2) Resource extraction and data cleaning (pre-processing and transformation); 3) Analytical processing and algorithms; and 4) Analysis and interpretation of results. As a result, it was identified that the models generated from the traditional ML algorithms have a good performance, but inferior to the DL model, which had an accuracy of 94%, and it was found that attributes related to school activities are more predictive for the performance of students. students than data on demographic and socioeconomic characteristics. [ABSTRACT FROM AUTHOR]
- Published
- 2021
- Full Text
- View/download PDF
3. Development of a deep learning-based computational framework for the classification of protein sequences
- Author
-
Barros, Miguel Ângelo Pereira, Rocha, Miguel, Dias, Oscar, and Universidade do Minho
- Subjects
Computational biology ,Protein classification ,Aprendizagem de máquina ,Machine learning ,Engenharia e Tecnologia::Outras Engenharias e Tecnologias ,Deep learning ,Aprendizagem profunda ,Classificação de proteínas ,Biologia computacional - Abstract
Dissertação de mestrado em Bioinformatics, Proteins are one of the more important biological structures in living organisms, since they perform multiple biological functions. Each protein has different characteristics and properties, which can be employed in many industries, such as industrial biotechnology, clinical applications, among others, demonstrating a positive impact. Modern high-throughput methods allow protein sequencing, which provides the protein sequence data. Machine learning methodologies are applied to characterize proteins using information of the protein sequence. However, a major problem associated with this method is how to properly encode the protein sequences without losing the biological relationship between the amino acid residues. The transformation of the protein sequence into a numeric representation is done by encoder methods. In this sense, the main objective of this project is to study different encoders and identify the methods which yield the best biological representation of the protein sequences, when used in machine learning (ML) models to predict different labels related to their function. The methods were analyzed in two study cases. The first is related to enzymes, since they are a well-established case in the literature. The second used transporter sequences, a lesser studied case in the literature. In both cases, the data was collected from the curated database Swiss-Prot. The encoders that were tested include: calculated protein descriptors; matrix substitution methods; position-specific scoring matrices; and encoding by pre-trained transformer methods. The use of state-of-the-art pretrained transformers to encode protein sequences proved to be a good biological representation for subsequent application in state-of-the-art ML methods. Namely, the ESM-1b transformer achieved a Mathews correlation coefficient above 0.9 for any multiclassification task of the transporter classification system., As proteínas são estruturas biológicas importantes dos organismos vivos, uma vez que estas desempenham múltiplas funções biológicas. Cada proteína tem características e propriedades diferentes, que podem ser aplicadas em diversas indústrias, tais como a biotecnologia industrial, aplicações clínicas, entre outras, demonstrando um impacto positivo. Os métodos modernos de alto rendimento permitem a sequenciação de proteínas, fornecendo dados da sequência proteica. Metodologias de aprendizagem de máquinas tem sido aplicada para caracterizar as proteínas utilizando informação da sua sequência. Um problema associado a este método e como representar adequadamente as sequências proteicas sem perder a relação biológica entre os resíduos de aminoácidos. A transformação da sequência de proteínas numa representação numérica é feita por codificadores. Neste sentido, o principal objetivo deste projeto é estudar diferentes codificadores e identificar os métodos que produzem a melhor representação biológica das sequências proteicas, quando utilizados em modelos de aprendizagem mecânica para prever a classificação associada à sua função a sua função. Os métodos foram analisados em dois casos de estudo. O primeiro caso foi baseado em enzimas, uma vez que são um caso bem estabelecido na literatura. O segundo, na utilização de proteínas de transportadores, um caso menos estudado na literatura. Em ambos os casos, os dados foram recolhidos a partir da base de dados curada Swiss-Prot. Os codificadores testados incluem: descritores de proteínas calculados; métodos de substituição por matrizes; matrizes de pontuação específicas da posição; e codificação por modelos de transformadores pré-treinados. A utilização de transformadores de última geração para codificar sequências de proteínas demonstrou ser uma boa representação biológica para aplicação subsequente em métodos ML de última geração. Nomeadamente, o transformador ESM-1b atingiu um coeficiente de correlação de Matthews acima de 0,9 para multiclassificação do sistema de classificação de proteínas transportadoras.
- Published
- 2022
4. Monitoring of invasive vegetation through times with UAV and Deep Learning
- Author
-
Camargo, Charles Pires de and Vivaldini, Kelen Cristiane Teixeira
- Subjects
Aprendizagem de máquina ,UAV ,Deep learning ,Semantic segmentation ,CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Segmentação semântica - Abstract
Não recebi financiamento Species originating from one biome are often irregularly introduced in other biomes, even if unintentionally, with the sole desire of their own consumption or for ornamental purposes. However, these species can end up becoming invasive and subjugating native vegetation. In this scenario, we have characterized biological invasion, which can cause irreversible negative impacts on biodiversity and affect economic productivity in sectors such as fisheries, forestry and agriculture. Furthermore, many species are vectors of human diseases, making biological invasions a major problem. With many closed forests, regions such as the mountains of the sea, and other places that are difficult to access, monitoring the Brazilian territory becomes very difficult and requires many resources for your care, whether human or financial. Remotely and automatically detecting invasive vegetation in large regions or areas of difficult physical access can be a very positive factor for conservation work. Through this monitoring, concrete actions can be taken in favor of the environment and irreversible damage to the ecosystem can be avoided. Making use of Deep Learning models for the detection of the invasive species Hedychium coronarium in images obtained through remote sensing, this master's project proposes a methodology for the monitoring over time of the area invaded by Hedychium coronarium in order to help specialists in answers to questions ecological Espécies originárias de um bioma, por muitas vezes são introduzidas irregularmente em outros, mesmo que de forma não intencional, apenas com o desejo de consumo próprio ou para fins ornamentais. Essas espécies, podem acabar se tornando invasoras e subjugando a vegetação nativa. Neste cenário, temos caracterizada a invasão biológica, podendo ocasionar em impactos negativos irreversíveis na biodiversidade e afetar a produtividade econômica em setores como o pesqueiro, florestal e a agricultura. Além disso, muitas espécies são vetores de doenças humanas, fazendo das invasões biológicas um grande problema. Com muitas matas fechadas em regiões como a Serra do Mar e outros locais de difícil acesso, o monitoramento do território brasileiro se torna muito difícil e demanda muitos recursos para o seu cuidado, sejam eles humanos ou financeiros. Detectar remotamente e de forma automática as vegetações invasoras em grandes regiões ou áreas de difícil acesso físico, pode ser um fator muito positivo para o trabalho de conservação. Através deste monitoramento, ações concretas poderiam ser tomadas em prol do meio ambiente e danos irreversíveis ao ecossistema podem ser evitados. Fazendo uso modelos de Deep Learning para a detecção da espécie invasora Hedychium coronarium em imagens obtidas através de sensoriamento remoto, este projeto de mestrado propõe uma metodologia para o monitoramento ao longo do tempo da área invadida por Hedychium coronarium visando auxiliar os especialistas em respostas para questões ecológicas
- Published
- 2022
5. A criação de um modelo de Natural Language Processing para extração de habilidades técnicas na área de Ciência de Dados
- Author
-
Araújo, Rennan Valadares Ornelas and Castelli, Mauro
- Subjects
Aprendizagem Profunda ,Machine Learning ,Habilidades Técnicas ,Deep Learning ,Artificial Intelligence ,Skills ,Technical Skills ,Habilidades ,Inteligência Artificial ,Aprendizagem de Máquina - Abstract
Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data Science O trabalho surgiu da necessidade do homem de suprir suas necessidades básicas. Na antiguidade, época de Gregos e Romanos, era ensinado a prole como cuidar da terra e esse conhecimento era passado por gerações. Com a chegada da primeira revolução industrial e posteriormente com a popularização dos computadores, o trabalho se tornou o que conhecemos hoje. A forma de contratação mudou ao longo dos anos e com a chegada da tecnologia mais do que nunca, o mercado de trabalho está em constante mudança e como consequência disto as habilidades necessárias para estes trabalhos também seguem esta mudança. Grande parte das vagas de trabalho hoje estão anunciadas em sites de buscas de emprego como Indeed, Glassdoor e Linkedin. Um grande desafio atual, é prever as mudanças e tendências do mercado de trabalho em termos de habilidades, e a analise textual pode gerar uma vantagem competitiva neste sentido. A proposta deste trabalho é analisar através de técnicas de Natural Language Processing (NLP) diferentes oportunidades de emprego da área de Data Science a fim de obter um modelo que possa ser utilizado para extrair as habilidades requisitadas para esta área. Para alcançar este objetivo primeiro é feita uma revisão dos conceitos de Aprendizado de Máquina, Natural Language Processing, Transfer Learning e das técnicas de preparação de dados, e em seguida será apresentada a metodologia utilizada. Depois, são destacadas as técnicas que funcionam melhor para extração de habilidades, a escolha e criação do modelo, e por fim a apresentação de resultados. The work originated from man's need to meet his basic needs. In ancient times, the times of the Greeks and Romans, offspring were taught how to take care of the land and this knowledge was passed on for generations. With the arrival of the first industrial revolution and later with the popularization of computers, work became what we know today. The way of hiring has changed over the years and with the arrival of technology more than ever, the job market is constantly changing, and consequently, the skills needed for these jobs also follow this change. A large part of job vacancies today is advertised on job search sites such as Indeed, Neuvoo, and Linkedin. A big challenge today is to predict the changes and trends in the job market in terms of skills and textual analysis can generate a competitive advantage in this sense. The purpose of this work is to analyze through Natural Language Processing (NLP) techniques different job opportunities in the Data Science area to obtain a model that can be used to extract the required skills for this area. To achieve this goal first a review of the concepts of Machine Learning, Natural Language Processing, Transfer Learning, and data preprocessing, then the methodology used is presented. Next, the techniques that work best for skill extraction is highlighted, the choice and creation of the model, and finally the presentation of results.
- Published
- 2022
6. Classification of tumor epithelial tissues using hyperspectral and short wave infrared imaging
- Author
-
Lucena, Daniel Vitor de, Soares, Anderson da Silva, Coelho, Clarimar José, Wastowski, Isabela Jubé, Laureano, Gustavo Teodoro, and Soares, Fabrízzio Alphonsus Alves de Melo Nunes
- Subjects
Hyperspectral imaging ,Dysplastic nevus and melanoma ,Aprendizagem de máquina ,Nevo displásico e melanoma ,Short-wave infrared ,Skin lesions ,Machine learning ,Espectroscopia de infravermelho de ondas curtas ,Deep learning ,Aprendizagem profunda ,CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Imagem hiperespectral - Abstract
Imagem hiperespectral (HSI) é um novo conceito de diagnóstico de doenças por análise de imagens. Embora existam muitas abordagens para a análise de imagens HSI, a classificação das informações espaciais para a classificação do tumor ainda é limitada. Nesta tese é proposta a construção de um novo método de análise e classificação de objetos presentes em HSI baseado em técnicas de aprendizado de máquina para entender o comportamento vibracional molecular de tecido epitelial humano sadio e tumoral por meio de espectroscopia de infravermelho de ondas curtas (SWIR). No estudo experimental são analisadas amostras de Melanoma, Nevo Displásico e Pele Saudável. Os resultados mostram que o tecido epitelial humano é sensível ao SWIR a ponto de possibilitar a diferenciação entre tecidos saudáveis e tumorais. Conclui-se que o HSI-SWIR pode ser utilizado para construir novos métodos de classificação tumoral. Hyperspectral Imaging (HSI) is a new concept of disease diagnosis by image analysis. Although there are many approaches for HSI image analysis, the classification of spatial informations to tumor classification is still limited. In this thesis is proposed the building of a new method of analysis and classification of present objects in HSI based on techniques of machine learning to understand the molecular vibrational behavior of healthy and tumoral human epithelial tissue by means of short-wave infrared (SWIR) spectroscopy. In the experimental study is analyzed samples of Melanoma, Dysplastic Nevus and healthy skin. Results show that human epithelial tissue is sensitive to SWIR to the point of making possible the differentiation between healthy and tumor tissues. It can be concluded that HSI-SWIR can be used to build new methods for tumor classification. Fundação de Amparo à Pesquisa do Estado de Goiás
- Published
- 2021
7. Modelo de classificação automática de sinais fisiológicos para identificação de estresse
- Author
-
Rodrigues, Clarissa Almeida and Rigo, Sandro José
- Subjects
Estresse ,Wearables ,Aprendizagem de máquina ,Machine learning ,Sinais fisiológicos ,Physiological signs ,Pattern classification ,Deep learning ,Ciências Exatas e da Terra::Ciência da Computação [ACCNPQ] ,Aprendizagem profunda ,Stress ,Classificação de padrões - Abstract
Submitted by Anna Barbara Alves Beraldine (annabarbara@unisinos.br) on 2021-06-08T16:39:20Z No. of bitstreams: 1 Clarissa Almeida Rodrigues_.pdf: 1667038 bytes, checksum: a5724ba82c6665ba4616e6f0f12e1e30 (MD5) Made available in DSpace on 2021-06-08T16:39:20Z (GMT). No. of bitstreams: 1 Clarissa Almeida Rodrigues_.pdf: 1667038 bytes, checksum: a5724ba82c6665ba4616e6f0f12e1e30 (MD5) Previous issue date: 2021-04-09 Nenhuma O estresse tem se tornado uma doença relevante na sociedade atual, devido a uma série de fatores ligados ao contexto da vida contemporânea. Esse desequilíbrio impacta tanto a esfera pessoal como profissional dos indivíduos por estar associado ao desenvolvimento de diversas patologias. A evidência do estado de estresse pode ser identificada através de diferentes alterações fisiológicas, podendo ser utilizados sensores vestíveis para a medição desses sinais automaticamente. Abordagens de Aprendizagem de máquina vêm sendo usadas para a identificação automática de padrões de estresse a partir do uso de dados gerados por sensores vestíveis monitorando sinais fisiológicos. Apesar de resultados positivos, essas iniciativas apresentam uma lacuna no uso combinado de diversos sinais fisiológicos e no uso de marcadores biológicos para anotação dos dados. Com o objetivo de explorar possibilidades para descrever um modelo para classificação de estresse com múltiplos sinais fisiológicos, foram desenvolvidos experimentos com diferentes combinações de sinais (EMG, EDA e ECG) usando diferentes algoritmos de aprendizado de máquina, usando três diferentes datasets (BeWell, WESAD e Training2017). Segundo os experimentos realizados no contexto de multisinais, o melhor resultado foi utilizando ECG e EMG quando processado com Gaussian Naïve Bayes, obtendo precisão de 90%. Stress has become a relevant disease in today's society, due to a number of factors linked to the context of contemporary life. This imbalance impacts both the personal and professional spheres of individuals because it is associated with the development of several pathologies. The evidence of the state of stress can be identified through different physiological changes, and wearable sensors can be used to measure these signals automatically. Machine Learning approaches have been used for the automatic identification of stress patterns based on the use of data generated by wearable sensors monitoring physiological signals. Despite positive results, these initiatives present a gap in the combined use of several physiological signals and in the use of biological markers for the annotation of data. In order to explore possibilities to describe a model for classifying stress with multiple physiological signals, experiments were developed with different signal combinations (EMG, EDA and ECG) using different machine learning algorithms, using three different datasets (BeWell, WESAD and Training2017). According to experiments carried out in the context of multisignals, the best result was using ECG and EMG when processed with Gaussian Naïve Bayes, obtaining an accuracy of 90%.
- Published
- 2021
8. Exploring text classification methods in oncological medical notes using machine learning and deep learning
- Author
-
Schwertner, Marco Antonio and Rigo, Sandro José
- Subjects
Artificial intelligence ,Oncologia ,Oncology ,Aprendizagem de máquina ,Machine learning ,Healthcare ,Deep learning ,Ciências Exatas e da Terra::Ciência da Computação [ACCNPQ] ,Aprendizagem profunda ,Inteligência artificial ,Saúde - Abstract
Submitted by Tatiane Vieira da Costa (tatianec) on 2020-11-25T17:48:54Z No. of bitstreams: 1 Marco Antônio Schwertner_.pdf: 4127467 bytes, checksum: c6e7aeeba688e0b908c7a977d0736822 (MD5) Made available in DSpace on 2020-11-25T17:48:54Z (GMT). No. of bitstreams: 1 Marco Antônio Schwertner_.pdf: 4127467 bytes, checksum: c6e7aeeba688e0b908c7a977d0736822 (MD5) Previous issue date: 2020-08-24 Nenhuma Com os avanços na medicina preventiva e personalizada, e as melhorias tecnológicas permitindo melhor interação do paciente com suas informações de saúde, o volume coletado de dados de saúde tem aumentado. Uma parte importante desses dados é armazenada em formato não estruturado em texto livre em linguagem natural, dificultando o processamento desses dados pelos Sistemas de Apoio à Decisão Clínica (SADC). Consequentemente, os profissionais de saúde ficam sobrecarregados tentando manter-se atualizados com as informações de saúde dos seus pacientes porque precisam de mais tempo para coletar e analisar esses dados manualmente. Definir um diagnóstico e tratamento oncológico é um processo de tomada de decisão complexo, pois é afetado por uma ampla gama de parâmetros. Para ajudar neste processo de tomado de decisão, esta pesquisa possui como principal objetivo aplicar diversos métodos de classificação de textos em corpora com registros médicos não sintéticos, para aprender e sugerir o diagnóstico baseado no histórico clínico do paciente. Primeiro, os corpora foram obtidos de um S-RES (Sistema de Registro Eletrônico em Saúde) Oncológico de três diferentes clínicas de oncologia. Foram criadas duas versões dos corpora: a versão por-evento-clínico com um registro médico de paciente por registro; e a versão porpaciente com um registro por paciente com seus registros médicos. Então, os corpora foram pré-processados para alavancar o desempenho dos classificadores. Por fim, diversos métodos de classificação de texto de aprendizagem de máquina e aprendizagem profunda foram treinados utilizando os corpora junto com o diagnóstico de cada paciente como dados enriquecidos. Diversos experimentos foram realizados, avaliando os seguintes métodos de classificação de textos de aprendizagem de máquina e de aprendizagem profunda: Multilayer Perceptron (MLP) neural network, Logistic Regression, Decision Tree classifier, Random Forest classifier, K-nearest neighbors (KNN) classifier, and Long-Short Term Memory (LSTM). Um experimento adicional com um classificador MLP foi realizado para avaliar a influência da etapa de pré-processamento nos resultados, e foi encontrado que a acurácia média do classificador foi alavancada de 26,1% para 86,7% com o uso do corpus por-evento-clínico, e 93,9% com o corpus por-paciente. O classificador com melhor desempenho foi o MLP com duas camadas ocultas (800 e 500 neurônios), que atingiu 93,90% de acurácia, um escore Macro F1 de 93,61%, e um escore Weighted F1 de 93,99%. Os experimentos foram realizados num conjunto de dados com 3.308 registros médicos de uma clínica de oncologia pequena. With the preventive and personalized medicine advances, and technological improvements enabling better interaction from patients with their healthcare information, the volume of healthcare data gathered has increased. A relevant part of these data is recorded as an unstructured format in natural language free-text, making it harder for Clinical Decision Support Systems (CDSS) to process these data. Consequently, healthcare professionals get overwhelmed keeping themselves updated with the patient’s healthcare information because they need more time to gather and analyze it manually. Furthermore, to define an oncology diagnosis and its treatment plan is a complex decision-making process because it is affected by a broad range of parameters. This research’s main objective is to apply several text classification methods in non-synthetic oncology clinical notes corpora to help with this decision-making process. First, the corpora were obtained from an Oncology EHR system from three different oncology clinics. Two corpora versions were created: the per-clinical-event version with each patient’s medical note per record; and the per-patient version with one record per patient with his or her medical notes. Then, these corpora were preprocessed to leverage the performance of the classifiers. As the last step, several machine learning and one deep learning text classification methods were trained using these corpora with each patient’s diagnosis as enriched data. The following machine learning and deep learning classification methods were applied: Multilayer Perceptron (MLP) neural network, Logistic Regression, Decision Tree classifier, Random Forest classifier, K-nearest neighbors (KNN) classifier, and Long-Short Term Memory (LSTM). An additional experiment with an MLP classifier was performed to evaluate the preprocessing step’s influence on the results, and it found that the classifier’s mean accuracy was leveraged from 26.1% to 86.7% with the per-clinical-event corpus, and 93.9% with the perpatient corpus. The classifier that best performed was the MLP with 2 hidden layers (800 and 500 neurons), which achieved 93.90% accuracy, a Macro F1 score of 93.61%, and a Weighted F1 score of 93.99%. The experiments were performed in a dataset with 3,308 medical notes from a small oncology clinic.
- Published
- 2020
9. Criação e validação de uma base de dados com elementos do Transito brasileiro para Veículos autônomos / Creation and validation of a database with elements of the Brazilian traffic to Automobile vehicles
- Author
-
Campos, Diego Haji Carvalho, Rodrigues, Elder de Oliveira, and Campos, Erick Carvalho
- Subjects
Deep Learning ,Yolo-v3 ,Base de Dados ,Aprendizagem de Máquina ,Veículos Autônomos ,Redes Neurais Artificiais - Abstract
A aprendizagem de máquina vem possibilitando o surgimento de novos produtos e recursos revolucionários, como veículos autônomos. Graças às redes neurais artificiais aplicadas à visão computacional, os sistemas conseguem reconhecer padrões de forma próxima à visão humana. Para o treinamento de redes neurais profundas (Deep Learning) é necessária uma base de dados numerosa para a compreensão de padrões visuais. Visando contribuir com as aplicações para veículos autônomos, este trabalho cria uma base de dados com alguns elementos do trânsito brasileiro. Para a validação e treinamento da base de dados foi utilizada a rede Solo- v3 e realizados testes em diversos cenários, avaliando critérios como a quantidade de objetos detectados e a capacidade de identificação correta do tipo de objeto. Como resultado, para o ambiente virtual houve detecções de 21,5% de objetos, com 83% classificados corretamente. E para os cenários reais houve detecções de 61,8% de objetos, com 88% classificados corretamente.
- Published
- 2020
- Full Text
- View/download PDF
10. Modeling high frequency intraday discrete returns
- Author
-
Morier, Bruno do Nascimento, Escolas::EESP, Fernandes, Marcelo, Hotta, Luiz Koodi, Medeiros, Marcelo C., Christian, Zimmer, and Pereira, Pedro L. Valls
- Subjects
Importance sampling ,Redes neurais ,Volatilidade (Finanças) ,Redes neurais (Computação) ,Aprendizagem de máquina ,Dados em alta frequência ,Retornos discretos ,Deep learning ,Aprendizado do computador ,Economia ,Modelos de série de tempo não gaussianos ,Discrete price changes ,Volatility models ,NAIS ,Modelos de score ,High frequency data ,Ações (Finanças) - Preços - Previsão ,Modelos de volatilidade ,Non-Gaussian time series models ,Score driven models ,Neural networks ,Time-varying copulas ,Dynamic discrete data ,Análise de séries temporais ,Skellam - Abstract
Esta tese inclui três artigos sobre o tópico de modelagem de retornos intradiários discretos em alta-frequencia. Em todos os artigos nós conduzimos a tarefa de modelar a distribuição condicional discreta das mudanças de preço, propomos novos modelos de previsão e conduzimos exercícios de estimação e previsão em larga escala para comparar os novos modelos com os modelos existentes na literatura. No primeiro artigo nós estendemos o modelo de espaço de estados univariado, não-linear e não-gaussiano de Koopman, Lit and Lucas (2017) incluindo uma especificação para a média condicional. No segundo artigo nós propomos um novo modelo para a distribuição condicinal bivariada usando cópulas gaussianas dinâmicas e modelando o coeficiente de correlação com um modelo em espaço de estados não-linear e não-gaussiano. No último artigo nós propomos um novo modelo para a distribuição univariada condicional onde a volatilidate condicional é prevista por uma rede neural feedforward. Nós tambem incorporamos três novas variaveis para o modelos de previsão de volatilidade em alta frequência com preços discretos: o spread de compra e venda, o spread entre o preço maximo e preço mínimo e o volume transacionado. Em todos os três artigos os novos modelos mostraram melhor performance nos exercícios de previsão de densidade condicional quando comparados a modelos recentes da literatura. This thesis encompasses three papers on the subject of modelling high-frequency intraday discrete price changes. In all papers we consider the task of modelling the discrete conditional distribution of price changes, propose new models and conduct large scale estimation and forecasting exercises in order to compare the models with existing models in the literature. In the first paper we extend the univariate non-linear non-Gaussian state space model of Koopman, Lit and Lucas (2017) by including a specification for the conditional mean. In the second paper we propose a new model for the bi-variate conditional distribution by using Gaussian copulas and by modelling the correlation coefficient dynamics by using a non-linear, non-Gaussian state space model. On the last paper we propose a new model for the univariate conditional distribution where the conditional volatility is predicted by a deep feedforward neural network. We also incorporate three new variables for predicting the discrete price high-frequency volatility: the bid-ask spread, high-low interval spread and the volume traded. In all the three papers the new models outperformed recent literature models considered at the conditional density forecasting exercises conducted.
- Published
- 2020
11. American put option pricing : a comparison between neural networks and least-square Monte Carlo method
- Author
-
Sequeira, Bernardo Pinto Machado Portugal, Gaspar, Raquel, and Lopes, Sara
- Subjects
Aprendizagem Profunda ,Machine Learning ,Deep Learning ,Neural Networks ,Pricing Methods ,American Options ,Aprendizagem de Máquina ,Option Pricing ,Valorização de Opções ,Redes Neurais Artificiais ,Métodos de Valorização ,Opções Americanas - Abstract
Mestrado em Mathematical Finance Esta tese compara dois métodos de pricing de opções de venda Americanas. Os métodos estudados são redes neurais (NN), um método de Machine Learning, e Least-Square Monte Carlo Method (LSM). Em termos de redes neurais foram desenvolvidos dois modelos diferentes, um modelo mais simples, Model 1, e um modelo mais complexo, Model 2. O estudo depende dos preços das opões de 4 gigantes empresas norte-americanas, de Dezembro de 2018 a Março de 2019. Todos os métodos mostram uma precisão elevada, no entanto, uma vez calibradas, as redes neuronais mostram um tempo de execução muito inferior ao LSM. Ambos os modelos de redes neurais têm uma raiz quadrada do erro quadrático médio (RMSE) menor que o LSM para opções de diferentes maturidades e preço de exercício. O Modelo 2 supera substancialmente os outros modelos, tendo um RMSE ca. 40% inferior ao do LSM. O menor RMSE é consistente em todas as empresas, níveis de preço de exercício e maturidade. This thesis compares two methods to evaluate the price of American put options. The methods are the Least-Square Monte Carlo Method (LSM) and Neural Networks, a machine learning method. Two different models for Neural Networks were developed, a simple one, Model 1, and a more complex model, Model 2. It relies on market option prices on 4 large US companies, from December 2018 to March 2019. All methods show a good accuracy, however, once calibrated, Neural Networks show a much better execution time, than the LSM. Both Neural Network end up with a lower Root Mean Square Error (RMSE) than the LSM for options of different levels of maturity and strike. Model 2 substantially outperforms the other models, having a RMSE ca. 40% lower than that of LSM. The lower RMSE is consistent across all companies, strike levels and maturities. info:eu-repo/semantics/publishedVersion
- Published
- 2019
12. Detection of biological invasion on cerrado using deep learning
- Author
-
Santos, Igor Araujo Dias and Vivaldini, Kelen Cristiane Teixeira
- Subjects
CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Data augmentation ,Aprendizagem de máquina ,UAV ,Vegetação ,Cerrado ,Deep learning ,Fully convolutional networks ,Autoencoders ,U-Net ,Semantic segmentation ,Segmentação semântica ,Drone - Abstract
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) The Cerrado represents an important reserve of natural resources, with biodiversity representativity worldwide. On the other hand, biological invasions can threaten the balance and put in risk local species, in this way making it urgent to elaborate technological resources that may cooperate in the natural preservation and conservation process. The present study intends to use images from visual spectrum areas (RGB) collected by an UAV for autonomous detection of biological invasions in Cerrado, adopting techniques from Deep Learning. For getting the images, the UAV (Quadcopter) and the attached RGB sensor were chosen from their greatest accessibility and resulting reproducibility. The Convolutional AutoEncoder (CAE) and U-Net networks were adopted for being widely used in Dataset with a few samples, because of its capacity of generalizing, despite having few examples for the training. Therefore, an original Dataset was created from the study area using manual delineation and later the same basis was broadened with Data Augmentation technique. For analyzing the unchanged database, the Convolutional AutoEncoder network overcome the U-net one with an 88% F-score against 84%. With the second DataSet with Data Augmentation, the results were even better, with an 93% CAE F-score, compared with 84% from U-net and superior Precision on both scenarios (85.4% CAE and 82% U-net for original DataSet and 93% CAE and 84% with Data Augmentation). Those differences are relevant because of the necessity of precision in the results to correctly direct teams on their search tasks for biological invasions through the wide Cerrado territory. It also emphasizes CAE characteristics considering its smallest size, with a small number of layers and neurons, and with higher metrics for this application. Thus, it was possible to note that the predictive model generated by AutoEncoder Network can be used efficiently, with great potential for other databases. Finally, it is concluded that this paper represents the Machine Learning progress and its capacity of assisting daily life, expanding the possibilities of future works. O Cerrado representa uma importante reserva de riquezas naturais, com biodiversidade representativa a nível mundial. Por outro lado, invasões biológicas podem ameaçar o equilíbrio e por em risco espécies locais, dessa forma faz com que seja urgente elaborar recursos tecnológicos que possam colaborar no processo de preservação e conservação natural. O presente trabalho pretende utilizar imagens áreas de espectro visível (RGB) coletadas por um UAV para detecção autônoma de invasões biológicas no Cerrado adotando técnicas de Deep Learning. Para a aquisição de imagens, o UAV (Quadricóptero) e o sensor RGB acoplado, foram escolhidos pela sua maior acessibilidade e consequente reprodutibilidade. As redes Convolutional AutoEncoder (CAE) e U-Net} foram adotadas por serem muito utilizadas em DataSet com pequeno número de amostras, visto sua capacidade de generalização apesar de poucos exemplos para o treinamento. Desta forma foi criado um DataSet original da área de estudo utilizando delineamento manual e depois esta mesma base foi ampliada utilizando técnica de Data Augmentation. Para a análise do banco de dados inalterado, a rede Convolutional AutoEncoder superou a U-net com F-score de 88% contra 84%. Já com o segundo DataSet com Data Augmentation, os resultados foram melhores, com F-score de 93% do CAE, comparado com 84% da U-net e Precision superior em ambos os cenários (85,4% CAE e 82% U-net para o DataSet original e 93% CAE e 84% com Data Augmentation). Essas diferenças são relevantes visto a necessidade de precisão dos resultados para direcionar corretamente equipes em suas tarefas de busca por invasões biológicas pelo território extenso do Cerrado. Também se destacam as características do CAE levando em consideração seu menor tamanho, com menor número de camadas e neurônios, e com métricas superiores para essa aplicação. Dessa forma, foi possível observar que o modelo preditivo gerado pela Rede AutoEncoder pode ser utilizado de forma eficiente, com grande potencial para outros bancos de dados. Por fim conclui-se que o trabalho representa os avanços de Aprendizagem de Máquina e sua capacidade de auxiliar no cotidiano, ampliando as possibilidades de trabalhos futuros. CNPq 133483/2018-5.
- Published
- 2019
13. An intelligent system that forecasting the cotton yield in commercial fields images
- Author
-
Oliveira, Danilo Tedesco de, Universidade Estadual Paulista (Unesp), and Silva, Rouverson Pereira da [UNESP]
- Subjects
Deep Learning ,Aprendizagem de máquina ,Detecção de objetos ,Tendências para colheita inteligente ,Previsão de produtividade - Abstract
Submitted by Danilo Tedesco de Oliveira (danilo.tedesco@unesp.br) on 2019-04-24T19:58:51Z No. of bitstreams: 1 Dissertação_Danilo_Tedesco.pdf: 1445381 bytes, checksum: 6f583321b60356da1da852c9e78746e5 (MD5) Rejected by Neli Silvia Pereira null (nelisps@fcav.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo: 1 - O agradecimento à CAPES deve ter a seguinte redação: O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001 Abaixo segue a portaria que regulamenta. 2 - Falta o abstract (resumo em inglês) no repositório. 3 - Na ficha catalográfica, a entrada está por Oliveira e no repositório por Tedesco Oliveira. As entradas não podem ser diferentes, ou é uma, ou outra. Agradecemos a compreensão. PORTARIA Nº 206, DE 4 DE SETEMBRO DE 2018 Dispõe sobre obrigatoriedade de citação da CAPES O PRESIDENTE DA COORDENAÇÃO DE APERFEIÇOAMENTO DE PESSOAL DE NÍVEL SUPERIOR, no uso das atribuições que lhe foram conferidas pelo art. 26 do (a) Estatuto, aprovado (a) pelo Decreto nº 8977, de 30/01/2017, e CONSIDERANDO o indicado nos Editais da CAPES, nos Termos de Compromisso de Bolsista, nos regulamentos de bolsas no exterior e de bolsas no país, no Manual de AUXPE, e no termo de adesão ao Portal de Periódicos; CONSIDERANDO o constante dos autos do processo nº 23038.013648/2018-51, resolve: Art. 1º Os trabalhos produzidos ou publicados, em qualquer mídia, que decorram de atividades financiadas, integral ou parcialmente, pela CAPES, deverão, obrigatoriamente, fazer referência ao apoio recebido. Art. 2º Para fins de identificação da fonte de financiamento fica autorizada a utilização do código 001 para todos os financiamentos recebidos. Art. 3º Deverão ser usadas as seguintes expressões, no idioma do trabalho: "O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001 "This study was financed in part by the Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Finance Code 001" Art. 4º Fica o pró-reitor de pós-graduação ou congênere, responsável pela divulgação e aplicação da regra dentro das Instituições de Ensino Superior que recebem apoio da CAPES. Art. 5º A falha em obedecer esta norma implicará em mudanças eventuais nos apoios da CAPES para as instituições e pesquisadores envolvidos, a partir de 2020. Art. 6º Esta Portaria entra em vigor na data de sua publicação. ABILIO A. BAETA NEVES Fonte: CAPES Diário Oficial da União: http://pesquisa.in.gov.br/imprensa/jsp/visualiza/index.jsp?data=05/09/2018&jornal=515&pagina=22 on 2019-04-25T12:58:19Z (GMT) Submitted by Danilo Tedesco de Oliveira (danilo.tedesco@unesp.br) on 2019-04-25T13:33:42Z No. of bitstreams: 1 Dissertação_Danilo_Tedesco.pdf: 1477295 bytes, checksum: 45f613d2d6f945498beedac60cad5ddf (MD5) Approved for entry into archive by Tatiana Camila Gricio (tatiana.gricio@unesp.br) on 2019-04-25T18:12:33Z (GMT) No. of bitstreams: 1 oliveira_dt_me_jabo.pdf: 1477295 bytes, checksum: 45f613d2d6f945498beedac60cad5ddf (MD5) Made available in DSpace on 2019-04-25T18:12:33Z (GMT). No. of bitstreams: 1 oliveira_dt_me_jabo.pdf: 1477295 bytes, checksum: 45f613d2d6f945498beedac60cad5ddf (MD5) Previous issue date: 2019-03-01 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) Uma maneira de melhorar a qualidade da operação de colheita mecanizada do algodão é alterar as configurações e regulagens de colhedora ao longo do processo de acordo com informações que podem ser adquiridas durante a própria colheita. Acreditamos que a previsão da produtividade pode se tornar uma informação de grande importância no gerenciamento da qualidade da operação, visando ao aumento da eficiência e redução das perdas no processo. Portanto, nessa pesquisa apresentamos o desenvolvimento de um sistema inteligente capaz de prever a produtividade do algodão em imagens coloridas, adquiridas por um dispositivo mobile simples. Propomos uma abordagem robusta às condições ambientais, treinando algoritmos de detecção com imagens adquiridas em diferentes horários ao longo do dia. Os resultados experimentais para o modelo SSD Mobilenet V1 indicaram que é possível realizar a contagem dos capulhos presentes nas imagens adquiridas em diferentes horários ao longo do dia, com erros médios de 8.84% (~5 capulhos). Além disso, avaliando a previsão da produtividade em 205 imagens do conjunto de dados de teste, o erro foi igual à 17.86%. Esse valor representa variações de até 19.14 gramas entre cada previsão. One way to improve the quality of the mechanized cotton harvesting operation is to change settings and adjustments of the harvester throughout the process according to information acquired during the operation. We believe that yield prediction can become important information in managing the quality of the operation aiming at increasing efficiency and reducing losses in the process. Therefore, we present in this research the development of an intelligent system capable of predicting cotton yield from color images acquired by a simple mobile device. We propose a robust approach to environmental conditions, training detection algorithms with images acquired at different times throughout the day. The experimental results for the SSD MobileNet V1 model indicated the possibility of counting bolls present in the images acquired at different times throughout the day, with mean errors of 8.84% (~5 bolls). Also, the error was equal to 17.86% when evaluating yield prediction on 205 images from the test dataset. This value represents variations of up to 19.14 grams between each prediction. Código de financiamento 001
- Published
- 2019
14. Gesture recognition using deep neural networks
- Author
-
Brás, André Filipe Pereira and Neto, Pedro Mariano Simões
- Subjects
Redes Neuronais Artificiais ,Gesture recognition ,Aprendizagem de máquina ,Machine learning ,Convolutional Neural Networks ,Redes Neuronais Convolucionais ,Deep learning ,Aprendizagem profunda ,Reconhecimento de gestos ,Artificial Neural Networks - Published
- 2017
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.