13 results on '"Gonzalez Osorio, Fabio Augusto"'
Search Results
2. SOPHIA: System for Ophthalmie Image Acquisition, Transmission, and Intelligent Analysis/SOPHIA: Sistema para adquisicion, transmision, y analisis inteligente de imagenes oftalmicas/SOPHIA: Sistema para aquisicao, transmissao e analise inteligente de imagens oftalmicas
- Author
-
Perdomo-Charry, Oscar-Julian, Perez, Andres-Daniel, de-la-Pava-Rodriguez, Melissa, Rios-Calixto, Hernan-Andres, Arias-Vanegas, Victor-Alfonso, Lara-Ramirez, Juan-Sebastian, Toledo-Cortes, Santiago, Camargo-Mendoza, Jorge-Eliecer, Rodriguez-Alvira, Francisco-Jose, and Gonzalez-Osorio, Fabio-Augusto
- Published
- 2020
- Full Text
- View/download PDF
3. Mining Candlesticks Patterns on Stock Series: A Fuzzy Logic Approach
- Author
-
Vásquez, Mario Linares, González Osorio, Fabio Augusto, Hernández Losada, Diego Fernando, Hutchison, David, Series editor, Kanade, Takeo, Series editor, Kittler, Josef, Series editor, Kleinberg, Jon M., Series editor, Mattern, Friedemann, Series editor, Mitchell, John C., Series editor, Naor, Moni, Series editor, Nierstrasz, Oscar, Series editor, Pandu Rangan, C., Series editor, Steffen, Bernhard, Series editor, Sudan, Madhu, Series editor, Terzopoulos, Demetri, Series editor, Tygar, Doug, Series editor, Vardi, Moshe Y., Series editor, Weikum, Gerhard, Series editor, Goebel, Randy, editor, Siekmann, Jörg, editor, Wahlster, Wolfgang, editor, Huang, Ronghuai, editor, Yang, Qiang, editor, Pei, Jian, editor, Gama, João, editor, Meng, Xiaofeng, editor, and Li, Xue, editor
- Published
- 2009
- Full Text
- View/download PDF
4. Deep learning model to quantify the damage caused by Glaucoma in the optic nerve
- Author
-
Beltrán Barrera, Lillian Daniela, Perdomo Charry, Oscar Julian, Gonzalez Osorio, Fabio Augusto, and Mindlab
- Subjects
Segmentation model ,Modelo de simulación ,Glaucoma ,Simulation models ,Transfer learning ,Enfermedades del Nervio Óptico ,RDR ,006 - Métodos especiales de computación [000 - Ciencias de la computación, información y obras generales] ,Redes neuronales convolucionales ,Optic Nerve Diseases ,Escala DDLS ,Modelo de segmentación ,YOLO ,Convolutional neural networks ,Classification model ,Modelo de clasificación ,DDLS scale ,Aprendizaje por transferencia - Abstract
ilustraciones, fotografías, graficas El glaucoma es una de las enfermedades de mayor prevalencia y gravedad en el mundo, se caracteriza por provocar una pérdida gradual de la visión periférica, que si no se trata a tiempo, puede ser irreversible y conducir a la pérdida total de la visión. Con el objetivo de facilitar la detección temprana de esta enfermedad, se han propuesto diversos modelos basados en aprendizaje profundo y redes neuronales convolucionales que permiten un diagnóstico automatizado. A pesar de su utilidad, estos modelos presentan algunas limitaciones, como la evaluación del ancho del borde neurorretiniano solamente de forma vertical y la asignación de una clasificación binaria para denotar la presencia o ausencia de la enfermedad, lo que dificulta la identificación de su estadio y del avance de la enfermedad en múltiples direcciones. Por tal motivo, este trabajo presenta un enfoque basado en aprendizaje profundo que toma como referencia la escala DDLS (Disc Damage Likelihood Scale) para detectar y conocer el avance del glaucoma en los pacientes. Para ello, se utilizó como insumo el conjunto de imágenes REFUGE (Retinal Fundus Glaucoma Challenge), identificando la región de interés (ROI por sus siglas en inglés) mediante el algoritmo de detección de objetos YOLO (You Only Look Once).Después de esto, se procedió a realizar la medición del RDR (Rim-to-Disc Ratio) en cada grado en las imágenes segmentadas utilizando dos modelos previamente entrenados: uno para el disco y otro para la copa ocular. De esta manera, se logró asignar nuevas etiquetas a las imágenes con base la escala DDLS. Luego, se entrenó un modelo base con las etiquetas originales, el cual se comparó con tres modelos entrenados mediante aprendizaje por transferencia con las etiquetas construidas. Estos modelos utilizaron diferentes técnicas para el procesamiento de las imágenes, incluyendo la conversión de coordenadas cartesianas a polares y el recorte de las imágenes en estéreo centradas en el nervio óptico a una dimensión de 224 × 224 píxeles para contar con mayor información de la imagen. Los mejores resultados fueron obtenidos por el modelo entrenado con las imágenes convertidas a coordenadas polares. (Texto tomado de la fuente) Glaucoma is one of the most prevalent and severe diseases in the world, characterized by a gradual loss of peripheral vision that, if not treated in time, can be irreversible and lead to total vision loss. In order to facilitate early detection of this disease, various models based on deep learning and convolutional neural networks have been proposed, which allow for automated diagnosis. Despite their usefulness, these models present some limitations, such as the evaluation of neuroretinal border width only vertically and the assignment of a binary classification to denote the presence or absence of the disease, which makes it difficult to identify its stage and the progression of the disease in multiple directions. For this reason, this work presents a deep learning-based approach that uses the DDLS (Disc Damage Likelihood Scale) scale to detect and understand the progression of glaucoma in patients. For this purpose, the REFUGE (Retinal Fundus Glaucoma Challenge) image set was used as input, identifying the region of interest (ROI) using the YOLO (You Only Look Once) object detection algorithm. After this, the RDR (Rim-to-Disc Ratio) was measured at each degree in the segmented images using two previously trained models: one for the disc and one for the optic cup. In this way, new labels were assigned to the images based on the DDLS scale. Then, a baseline model was trained with the original labels, which was compared with three models trained by transfer learning with the constructed labels. These models used different techniques for image processing, including the conversion of Cartesian coordinates to polar coordinates and the cropping of stereo images centered on the optic nerve to a dimension of 224 × 224 pixels to obtain more information from the image. The best results were obtained by the model trained with images converted to polar coordinates. Maestría Magíster en Ingeniería - Ingeniería de Sistemas y Computación
- Published
- 2023
5. Calibration analysis in quantum machine learning models
- Author
-
Amaya Cruz, Glenn Harry, Gonzalez Osorio, Fabio Augusto, Toledo Cortés, Santiago, and Mindlab
- Subjects
Calibración ,Aprendizaje de máquina cuántico ,629 - Otras ramas de la ingeniería [620 - Ingeniería y operaciones afines] ,Teoría del campo cuántico ,Confident analysis ,Evaluación de riesgos ,Quantum field theory ,Machine learning ,Calibration ,Aprendizaje de máquina ,Análisis de confianza ,621 - Física aplicada [620 - Ingeniería y operaciones afines] ,Quantum machine learning ,Risk assessment - Abstract
El análisis de calibración de modelos de aprendizaje de máquina cobra gran importancia en distintos contextos como evaluación del riesgo, diagnósticos y sistemas críticos para la seguridad, donde hay decisiones influenciadas por las predicciones de los modelos. El área del aprendizaje de máquina cuántico ha recibido una mayor atención en los últimos años, en particular, se han desarrollado modelos que obtienen resultados competitivos en tareas de clasificación y regresión a comparación con métodos ampliamente utilizados. No obstante, las propiedades de este tipo de clasificadores en términos de calibración no han sido exploradas en la literatura. Por esta razón, en el presente trabajo se realiza un estudio de las propiedades de calibración que tienen algunos modelos de aprendizaje de máquina cuántico frente a modelos ampliamente usados en la literatura como máquinas de soporte vectorial, árboles de decisión, regresión logística, entre otros para tareas de clasificación binaria y de múltiples clases. Adicionalmente, se realiza un experimento para explorar el efecto de algunos clasificadores cuánticos en combinación con una red neuronal. Los resultados experimentales muestran que algunos de los clasificadores cuánticos analizados tienen un rendimiento competitivo e incluso mejor en métricas de calibración y las tareas de clasificación. (texto tomado de la fuente) Calibration of machine learning models is of great importance in different contexts such as risk assessment, diagnostics, and safety-critical systems, in which decisions are influenced by model predictions. The area of quantum machine learning has received an increased attention in recent years, in particular, models have been developed that obtain competitive results in classification and regression tasks compared to widely used methods. However, the properties of this type of classifiers in terms of calibration have not been explored in the literature. As a result, in this work a study of the properties of calibration is conducted for recent quantum machine learning models in comparison to state-of-the-art models such as support vector machines, decisions trees, logistic regression, and others for binary and multiclass classification tasks. Moreover, an experiment to explore the effect of some quantum classifiers in combination with a neural network is made. The experimental results show that some of the analyzed quantum classifiers have competitive and even better performance in calibration metrics and the classification tasks. Maestría Magíster en Ingeniería - Ingeniería de Sistemas y Computación Sistemas Inteligentes
- Published
- 2023
6. Deep learning for weed mapping using multispectral drone Acquired imagery
- Author
-
Arias VAnegas, Victor Alfonso, Gonzalez Osorio, Fabio Augusto, and Machine Learning Perception and Discovery Lab (MindLab)
- Subjects
631 - Técnicas específicas, aparatos, equipos, materiales [630 - Agricultura y tecnologías relacionadas] ,Aprendizaje Profundo ,Vehículo Aéreo No Tripulado ,004 - Procesamiento de datos Ciencia de los computadores [000 - Ciencias de la computación, información y obras generales] ,Segmentación Semántica ,Weed control - research ,Aprendizaje Automático En Producción ,Weed control ,Redes Neuronales Convolucionales ,Control de maleza ,imágenes Multiespectrales ,Mapeo de Maleza ,Control de maleza - investigaciones ,632 - Lesiones, enfermedades, plagas vegetales ,Clasificación Por Píxeles - Abstract
ilustraciones, fotografías a color, gráficas La maleza o malas hierbas se define como una planta que crece de forma silvestre en un lugar indeseable para la actividad agrícola. Esto es debido a que compite por los recursos limitados disponibles en un sector previamente destinado y acondicionado a la producción de alimentos u otras actividades específicas, disminuyendo su rendimiento. Tradicionalmente los granjeros aplican la escarda o eliminación de malas hierbas con herramientas manuales, haciendo de este un proceso lento y costoso debido a la gran cantidad de mano de obra necesaria. Con el fin de reducir el número de trabajadores en la labor, agentes químicos de acción selectiva son usados directamente sobre el cultivo para matar la planta invasora, sin embargo, en grandes extensiones de terreno es difícil conocer previamente la distribución espacial de la maleza, por lo que la aplicación del agente se hace de manera uniforme en toda la plantación, llevando a un mayor desperdicio del producto y por ende un incremento en los costos. En este documento se propone una estrategia para la detección automática de la distribución espacial de la maleza en un terreno cultivado usando algoritmos de aprendizaje profundo (DL) en imágenes multiespectrales. Para probar el desempeño de la estrategia se utilizó una base de datos de imágenes recolectada por un vehículo aéreo no tripulado (VANT). Las bases de datos empleadas proporcionan las imágenes multiespectrales y su respectiva máscara, esta última representa la información semántica de cada uno de los pixeles de la imagen, la información semántica se constituye a partir de tres colores cada uno de ellos pertenecientes a una clase de interés: el rojo representa la maleza, el verde representa el cultivo y el negro representa el fondo o todo aquello que no es vegetal en el mapa. Adicionalmente, el problema se abordó como un problema de segmentación semántica y la estrategia de solución fue un algoritmo de DL. Al aplicar la solución a las imágenes se evidencia una mejora en las diferentes métricas usadas en la literatura para estas bases de datos tales como el AUC y el F1-score, además se evidencia excelentes resultados en las máscaras predichas para los datos de prueba. Por último, se analiza el aporte de los diferentes canales multiespectrales y de técnicas clásicas de preprocesamiento de imágenes a las métricas del modelo, además de la capacidad de este por generar buenas representaciones semánticas del terreno captado por el sensor.(Texto tomado de la fuente) A weed is defined as a plant that grows wild in a place undesirable for agricultural crops. This is because it competes for the limited resources available in a sector previously destined and conditioned for food production or other specific activities, decreasing its yield. Traditionally farmers apply weeding or weed removal with hand tools, making this a slow and costly process due to the large amount of labor required. In order to reduce the number of workers involved, selective action chemical agents are used directly on the crop to kill the invasive plant, however, in large extensions of land it is difficult to know the spatial distribution of the weeds beforehand, so the application of the agent is done uniformly throughout the plantation, leading to a greater waste of the product and therefore an increase in costs. This thesis presents a strategy for automatic detection of the spatial distribution of weeds in a cultivated field using deep learning (DL) algorithms on multispectral images is proposed. An image database collected by an unmanned aerial vehicle (UAV) was used to test the performance of the strategy. The databases used provide the multispectral images and their respective mask, the latter represents the semantic information of each of the pixels of the image, the semantic information is represented using three colors, each one belonging to a class of interest: red represents the weeds, green represents the crop and black represents the background or everything that is not vegetation on the map. Additionally, the problem was approached as a semantic segmentation problem and the solution strategy was a DL algorithm. By applying the solution to the images, an improvement in the different metrics used in the literature for these databases such as AUC and F1-score is evidenced, in addition to excellent results in the predicted masks for the test data. Finally, the contribution of the different multispectral channels and classical image preprocessing techniques to the model metrics is analyzed, as well as the model’s ability to generate good semantic representations of the terrain captured by the sensor. Colciencias Maestría Magíster en Ingeniería - Ingeniería de Sistemas y Computación Procesamiento digital de imágenes.
- Published
- 2022
7. Métodos de kernel escalables utilizando álgebra lineal numérica aleatorizada
- Author
-
Castellanos Martinez, Ivan Yesid, Gonzalez Osorio, Fabio Augusto, and MindLab
- Subjects
Machine Learning ,Budget Method ,Kernel Methods ,Métodos de kernel ,Approximated Methods ,Algebra Lineal Numérica Aleatorizada ,Randomized Numerical Linear Algebra ,Distance Based Hashing ,Hashing basado en distancias ,Método de budget ,Métodos Aproximados ,000 - Ciencias de la computación, información y obras generales ,Aprendizaje maquinal - Abstract
Documento de tesis de maestria ilustraciones, tablas Los métodos de kernel corresponden a un grupo de algoritmos de aprendizaje maquinal que hacen uso de una función de kernel para representar implicitamente datos en un espacio de alta dimensionalidad, donde sistemas de optimización lineal guíen a relaciones no lineales en el espacio original de los datos y por lo tanto encontrando patrones complejos dento de los datos. La mayor desventaja que tienen estos métodos es su pobre capacidad de escalamiento, pues muchos algoritmos basados en kernel requiren calcular una matriz de orden cuadrática respecto al numero de ejemplos en los datos, esta limitación ha provocado que los metodos de kernel sean evitados en configuraciones de datos a gran escala y utilicen en su lugar tecnicas como el aprendizaje profundo. Sin embargo, los metodos de kernel todavía son relevantes para entender mejor los métodos de aprendizaje profundo y ademas pueden mejorarlos haciendo uso de estrategias híbridas que combinen lo mejor de ambos mundos. El principal objetivo de esta tesis es explorar maneras eficientes de utilizar métodos de kernel sin una gran pérdida en precisión. Para realizar esto, diferentes enfoque son presentados y formulados, dentro de los cuales, nosotros proponemos la estrategía de aprendizaje utilizando budget, la cual es presentada en detalle desde una perspectiva teórica, incluyendo un procedimiento novedoso para la selección del budget, esta estrategia muestra en la evaluación experimental un rendimiento competitivo y mejoras respecto al método estandar de aprendizaje utilizando budget, especialmente cuando se seleccionan aproximaciones mas pequeñas, las cuales son las mas útiles en ambientes de gran escala. (Texto tomado de la fuente) Kernel methods are a set of machine learning algorithms that make use of a kernel function in order to represent data in an implicit high dimensional space, where linear optimization systems lead to non-linear relationships in the data original space and therefore finding complex patterns in the data. The main disadvantage of these methods is their poor scalability, as most kernel based algorithms need to calculate a matrix of quadratic order regarding the number of data samples. This limitation has caused kernel methods to be avoided for large scale datasets and use approaches such as deep learning instead. However, kernel methods are still relevant to better understand deep learning methods and can improve them through hybrid settings that combine the best of both worlds. The main goal of this thesis is to explore efficient ways to use kernel methods without a big loss in accuracy performance. In order to do this, different approaches are presented and formulated, from which, we propose the learning-on-a-budget strategy, which is presented in detail from a theoretical perspective, including a novel procedure of budget selection. This strategy shows, in the experimental evaluation competitive performance and improvements to the standard learning-on-a-budget method, especially when selecting smaller approximations, which are the most useful in large scale environments. Maestría Magíster en Ingeniería - Ingeniería de Sistemas y Computación Ciencias de la computación
- Published
- 2021
8. Large-scale non-linear multimodal semantic embedding
- Author
-
Vanegas Ramírez, Jorge Andrés, Escalante Balderas, Hugo Jair (Thesis advisor), and Gonzalez Osorio, Fabio Augusto
- Subjects
0 Generalidades / Computer science, information and general works ,Kernel methods ,Multi-modal information ,Análisis de datos multimodales ,Multimodal Data Analysis ,Latent semantic embedding ,Machine Learning ,Métodos del kernel ,Información multimodal ,Indexación semántica latente ,Conjuntos de datos a gran escala ,62 Ingeniería y operaciones afines / Engineering ,Large-scale datasets ,Aprendizaje de máquina - Abstract
The main goal of this thesis is to investigate effective and efficient methods to combine complementary evidence, and model the relationships between multiple modalities of multimedia data in order to improve the access and analysis of the information, to finally obtain valuable insights about the data. In this thesis is proposed to use multimodal latent semantic as the strategy that allows us to combine and to exploit the different views from this heterogeneous source of knowledge, by modeling relations between the different modalities and finding a new common low-dimensional semantic representation space. For a richer modeling, it is proposed the usage of kernel-based methods that usually present accurate and robust results. Unfortunately, kernel-based methods present a high computational complexity that makes them infeasible for large data collections. This drawback implies one of the most important challenges addressed in this thesis, which was to investigate alternatives to handle large-scale datasets with modest computational architectures. In this thesis, several kernelized semantic embedding methods based on matrix factorization have been proposed, developed and evaluated. Thanks to the non-linear capabilities of the kernel representations, the proposed methods can model the complex relationships between the different modalities, allowing to construct a richer multimodal representation even when one of the modalities presents incomplete data. Besides, the proposed methods have been designed under a scalable architecture based on two main strategies: online learning and learning-in-a-budget that allow preserving low computational requirements in terms of memory usage and processing time. An extended experimental evaluation shows that the proposed multimodal strategies achieve the state-of-the-art in several data analysis tasks, such as multi-labeling and multi-class classification and cross-modal retrieval and under different learning setups, such as supervised, semi-supervised, and transductive learning. Furthermore, thanks to the online learning and learning-in-a-budget strategies proposed in this thesis, the scalability capabilities are preserved allowing to deal with large-scale multimodal collections. Resumen: El objetivo principal de esta tesis es investigar m´etodos eficaces y eficientes para combinar evidencia complementaria de múltiples modalidades de información multimedia y modelar las relaciones entre éstas, con el fin de mejorar el acceso y el análisis de los datos contenidos. En esta tesis se pretende utilizar la estrategia de semántica latente multimodal, la cual permite combinar y explotar las diferentes vistas de esta fuente de información heterogénea, modelando las relaciones entre las diferentes modalidades y encontrando un nuevo espacio com´un de representación semántica de baja dimensionalidad. Para un modelado más rico, se propone el uso de métodos basados en kernel los cuales usualmente presentan resultados precisos y robustos. Desafortunadamente, los métodos basados en kernel presentan una alta complejidad computacional que los hace inviables para grandes colecciones de datos. Este inconveniente implica uno de los desafíos más importantes abordados en esta tesis, que fue investigar alternativas para manejar conjuntos de datos de gran escala con modestas arquitecturas computacionales. En esta tesis, han sido propuestos, desarrollados y evaluados varios métodos kernelizados de semántica latente basados en factorización de matrices, donde, gracias a las capacidades no lineales de las representaciones basadas en kernels, los métodos propuestos pueden modelar las relaciones complejas entre las diferentes modalidades, lo que permite construir una representación multimodal enriquecida, incluso cuando una de las modalidades presenta datos incompletos. Además, los métodos propuestos han sido diseñaados bajo una arquitectura escalable basada en dos estrategias principales: el aprendizaje en línea y el aprendizaje bajo presupuesto que permiten preservar bajos requerimientos computacionales en términos de uso de memoria y tiempo de procesamiento. Una extensiva evaluación experimental muestra que las estrategias multimodales propuestas logran el estado del arte en varias tareas de análisis de datos, tales como la anotación multi-etiqueta y la clasificación multi-clase, así como la búsqueda y recuperación intermodal, y bajo diferentes configuraciones de aprendizaje, tales como aprendizaje supervisado, semisupervisado y transductivo. Además, gracias a las estrategias de aprendizaje en línea y de aprendizaje bajo presupuesto propuestas en esta tesis, se preservan las capacidades de escalabilidad, lo que permite tratar con colecciones multimodales de gran escala. Doctorado
- Published
- 2018
9. Robust unsupervised learning using kernels
- Author
-
Gallego Mejia, Joseph Alejandro, Gonzalez Osorio, Fabio Augusto (Thesis advisor), and Ovalle Carranza, Demetrio Arturo (Thesis advisor)
- Subjects
Machine Learning ,Kernel Learning Approach ,Reducción de la dimensionalidad ,Aprendizaje con métodos de Kernel ,Estadística robusta ,62 Ingeniería y operaciones afines / Engineering ,Welsch Estimator ,Eestimadorde Welsch ,Unsupervised Learning ,Aprendizaje de máquina ,Robust Statistics ,Dimensionality Reduction - Abstract
This thesis aims to study deep connections between statistical robustness and machine learning techniques, in particular, the relationship between some particular kernel (the Gaussian kernel) and the robustness of kernel-based learning methods that use it. This thesis also presented that estimating the mean in the feature space with the RBF kernel, is like doing robust estimation of the mean in the data space with the Welsch M-estimator. Based on these ideas, new robust kernel to machine learning algorithms are designed and implemented in the current thesis: Tukey’s, Andrews’ and Huber’s robust kernels which each one corresponding to Tukey’s, Andrews’ and Huber’s M-robust estimator, respectively. On the one hand, kernel-based algorithms are an important tool which is widely applied to different machine learning and information retrieval problems including: clustering, latent topic analysis, recommender systems, image annotation, and contentbased image retrieval, amongst others. Robustness is the ability of a statistical estimation method or machine learning method to deal with noise and outliers. There is a strong theory of robustness in statistics; however, it receives little attention in machine learning. A systematic evaluation is performed in order to evaluate the robustness of kernel-based algorithms in clustering showing that some robust kernels including Tukey’s and Andrews’ robust kernels perform on par to state-of-the-art algorithms Resumen: Esta tesis apunta a mostrar la profunda relación que existe entre robustez estadística y técnicas de aprendizaje de maquina, en particular, la relación entre algunos tipos de kernels (kernel Gausiano) y la robustez de los métodos basados en kernels. Esta tesis también presenta que la estimación de la media en el espacio de características con el kernel rbf, es como hacer estimación de la media en el espacio de los datos con el m-estimador de Welsch. Basado en las ideas anteriores, un conjunto de nuevos kernel robustos son propuestos y diseñdos: Tukey, Andrews, y Huber kernels robustos correspondientes a los m-estimadores de Tukey, Andrews y Huber respectivamente. Por un lado, los algoritmos basados en kernel es una importante herramienta aplicada en diferentes problemas de aprendizaje automático y recuperación de información, incluyendo: el agrupamiento, análisis de tema latente, sistemas de recomendación, anotación de imágenes, recuperación de informacion, entre otros. La robustez es la capacidad de un método o procedimiento de estimación aprendizaje estadístico automatico para lidiar con el ruido y los valores atípicos. Hay una fuerte teoría de robustez en estadística, sin embargo, han recibido poca atención en aprendizaje de máquina. Una evaluación sistemática se realiza con el fin de evaluar la robustez de los algoritmos basados en kernel en tareas de agrupación mostrando que algunos kernels robustos incluyendo los kernels de Tukey y de Andrews se desempeñan a la par de los algoritmos del estado del arte. Maestría
- Published
- 2017
10. Source code analysis on student assignments using machine learning techniques
- Author
-
Castellanos Morales, Hugo Armando, Gonzalez Osorio, Fabio Augusto (Thesis advisor), and Restrepo Calle, Felipe
- Subjects
Motivation ,0 Generalidades / Computer science, information and general works ,Machine learning ,Self-regulation ,37 Educación / Education ,Source code analysis ,Learning strategies - Abstract
To increase the success in computer programming courses, it is important to understand the learning process and common difficulties faced by students. Although several studies have investigated possible relationships between students performance and self-regulated learning characteristics, little attention has been given the source code produced by students in this regard. Such source code might contain valuable information about their learning process, specially in a context where practical programming assignments are frequent and students write source code constantly during the course. This poses the following research questions: What is the relationship between the characteristics of students source code and their performance in a computer programming course?. What is the relationship between source code features and self-regulated learning characteristics (i.e., motivation and learning strategies) in a computer programming course?. How the source code and self-regulated features can predict the students' performance? In order to answer these questions, a strategy to support the correlation analysis among students performance, motivation, use of learning strategies, and source code metrics in computer programming courses is proposed. A comprehensive case study is presented to evaluate the strategy. Additionally, an automatic grading tool for programming assignments was used, which facilitated to obtain the source code of the participants for further automatic source code analysis. Moreover, self-regulated learning characteristics were collected using the Motivated Strategies for Learning Questionnaire (MSLQ). Results show that the main features from source code which are significantly related to students performance and self-regulated learning features are: length-related metrics, with mainly positive correlations; and Halstead complexity measures, correlated negatively. In the light of the findings of this study, it is possible to understand better students source code as an artifact that can be used to monitorize several characteristics related to self-regulated learning, course performance, and in general, their learning process. In this way, more research in the area is required to verify if these relationships could give to computing educators new ways to identify and help students with problems. Para mejorar el éxito de los estudiantes en los cursos de programación, es importante entender el proceso de aprendizaje y las dificultades comunes que enfrentan los estudiantes. Aunque muchos estudios han investigado las posibles relaciones entre el rendimiento de los estudiantes y aspectos de la auto-regulación del aprendizaje, poca atención se le ha dado al código fuente producido por los estudiantes. El cual puede contener información valiosa acerca de su proceso de aprendizaje. Esto es especialmente cierto en contextos donde las actividades prácticas de programación son frecuentes y los estudiantes escriben código fuente constantemente durante el desarrollo del curso. Lo anterior, plantea las siguientes preguntas de investigación: ¿Cuál es la relación entre las características del código fuente de los estudiantes y su rendimiento en un curso de programación de computadores?. ¿Cuál es la relación entre las características del código fuente y características de aprendizaje auto-regulado (motivación y estrategias de aprendizaje) en un curso de programación de computadores?. ¿Cómo el código fuente y las características de aprendizaje auto-regulado pueden predecir el rendimiento de los estudiantes? Para responder estas preguntas, se presenta una estrategia para realizar el análisis de correlaciones entre el rendimiento de los estudiantes, motivación, el uso de estrategias de aprendizaje, y las métricas de código fuente en cursos de programación de computadores. Un caso de estudio exhaustivo es presentado para evaluar la estrategia propuesta usando datos recolectados de estudiantes. Además se usaba una herramienta de calificación automática para evaluar las practicas, lo cual facilitaba la obtención de código fuente de estudiantes para su análisis posterior. Las características de aprendizaje auto-regulado fueron obtenidas usando el cuestionario: Motivated Strategies for Learning Questionnaire Colombia (MSLQColombia). Los resultados muestran que las principales características del código fuente que están relacionadas con el rendimiento de los estudiantes y características auto-reguladas son: las métricas de longitud, que se correlaciona positivamente; y las medidas de complejidad de Halstead, las cuales se correlacionan negativamente. Dados los resultados, es posible entender mejor el código fuente de los estudiantes como un artefacto que puede ser usado para monitorear características relacionadas con el aprendizaje auto-regulado, rendimiento en el curso, y en general, su proceso de aprendizaje. De esta forma, investigaciones adicionales son necesarias para verificar si dichas relaciones pueden dar a los educadores nuevas herramientas para identificar y ayudar a estudiantes con problemas. Maestría
- Published
- 2017
11. Robust automatic assignment of nuclear magnetic resonance spectra for small molecules
- Author
-
Castillo Robles, Andrés Mauricio, Gonzalez Osorio, Fabio Augusto (Thesis advisor), and Wist, Julien
- Subjects
hose ,molecule ,learning ,analysis ,spectra ,peak-picking ,prediction ,NMR ,RMN ,assignment ,62 Ingeniería y operaciones afines / Engineering ,61 Ciencias médicas ,Medicina / Medicine and health ,Predicción ,Asignación ,Similitud - Abstract
In this document we describe a fully automatic assignment system for Nuclear Magnetic Resonance (NMR) for small molecules. This system has 3 main features: 1. it uses as input raw NMR data. Which means it should be able to extract from them the information that is useful while ignores the noise; 2. it assigns the signals to atoms in the structure, and associates to each assignment a confidence value, which is used to sort all possible solutions; 3. it does not depend on chemical shifts predictions. So it can use the connectivity information observed in 2D NMR spectra and integrals to perform an assignment(coupling constants are also a possibility, but were not explored in this work). However, the system can use chemical shifts if available.; 4. it can learn in an unsupervised fashion, the relation between configurations of atoms and chemical shifts while solving assignment problems, which allows the system to improve while working. Analogous to the way a human works. This system is completely open source, as well as the data used in this work. En este trabajo describimos un sistema completamente automático de asignación de espectros de Resonancia Magnética Nuclear(RMN) para moléculas pequeñas. Este sistema tiene la siguientes características: 1. usa como entrada datos de RMN crudos. Lo que significa que debe ser capaz de extraer de ellos, la información que es útil y dejar de lado el ruido; 2. asigna las señales a átomos en la estructura, y asocia a cada asignación un valor de confianza, que es usado para ordenar todas las posibles soluciones; 3. no depende de predicciones de desplazamientos químicos, de forma que puede usar solo la información de conectividad observada en los espectros de RMN 2D y las integrales( las constantes de acople también son una posibilidad, pero no fueron exploradas en este trabajo). Sin embargo el sistema puede usar los desplazamientos químicos si están disponibles; 4. puede aprender de forma no supervisada, la relación entre configuraciones de átomos y desplazamientos químicos mientras resuelve problemas de asignación, lo que le permite mejorar mientras trabaja, de forma análoga a como lo hace un humano. Este sistema es completamente de código abierto, al igual que los datos que se usaron en este trabajo. Doctorado
- Published
- 2015
12. Medical Image Retrieval Using Multimodal Semantic Indexing
- Author
-
Vanegas Ramírez, Jorge Andrés and Gonzalez Osorio, Fabio Augusto (Thesis advisor)
- Subjects
Medical images ,62 Ingeniería y operaciones afines / Engineering ,0 Generalidades / Computer science, information and general works ,61 Ciencias médicas ,Medicina / Medicine and health ,Machine learning ,Information retrieval ,Computer vision ,Multimodal semantic indexing - Abstract
Large collections of medical images have become a valuable source of knowledge, taking an important role in education, medical research and clinical decision making. An important unsolved issue that is actively investigated is the efficient and effective access to these repositories. This work addresses the problem of information retrieval in large collections of biomedical images, allowing to use sample images as alternative queries to the classic keywords. The proposed approach takes advantage of both modalities: text and visual information. The main drawback of the multimodal strategies is that the associated algorithms are memory and computation intensive. So, an important challenge addressed in this work is the design of scalable strategies, that can be applied efficiently and effectively in large medical image collections. The experimental evaluation shows that the proposed multimodal strategies are useful to improve the image retrieval performance, and are fully applicable to large image repositories. Maestría
- Published
- 2013
13. Representation learning for histopathology image analysis
- Author
-
Arevalo Ovalle, John Edilson and Gonzalez Osorio, Fabio Augusto
- Subjects
62 Ingeniería y operaciones afines / Engineering ,0 Generalidades / Computer science, information and general works ,61 Ciencias médicas ,Medicina / Medicine and health ,Feature learning ,Histopathology ,Digital pathology ,Interpretability ,Image representation - Abstract
Nowadays, automatic methods for image representation and analysis have been successfully applied in several medical imaging problems leading to the emergence of novel research areas like digital pathology and bioimage informatics. The main challenge of these methods is to deal with the high visual variability of biological structures present in the images, which increases the semantic gap between their visual appearance and their high level meaning. Particularly, the visual variability in histopathology images is also related to the noise added by acquisition stages such as magnification, sectioning and staining, among others. Many efforts have focused on the careful selection of the image representations to capture such variability. This approach requires expert knowledge as well as hand-engineered design to build good feature detectors that represent the relevant visual information. Current approaches in classical computer vision tasks have replaced such design by the inclusion of the image representation as a new learning stage called representation learning. This paradigm has outperformed the state-of-the-art results in many pattern recognition tasks like speech recognition, object detection, and image scene classification. The aim of this research was to explore and define a learning-based histopathology image representation strategy with interpretative capabilities. The main contribution was a novel approach to learn the image representation for cancer detection. The proposed approach learns the representation directly from a Basal-cell carcinoma image collection in an unsupervised way and was extended to extract more complex features from low-level representations. Additionally, this research proposed the digital staining module, a complementary interpretability stage to support diagnosis through a visual identification of discriminant and semantic features. Experimental results showed a performance of 92% in F-Score, improving the state-of-the-art representation by 7%. This research concluded that representation learning improves the feature detectors generalization as well as the performance for the basal cell carcinoma detection task. As additional contributions, a bag of features image representation was extended and evaluated for Alzheimer detection, obtaining 95% in terms of equal error classification rate. Also, a novel perspective to learn morphometric measures in cervical cells based on bag of features was presented and evaluated obtaining promising results to predict nuclei and cytoplasm areas. Los métodos automáticos para la representación y análisis de imágenes se han aplicado con éxito en varios problemas de imagen médica que conducen a la aparición de nuevas áreas de investigación como la patología digital. El principal desafío de estos métodos es hacer frente a la alta variabilidad visual de las estructuras biológicas presentes en las imágenes, lo que aumenta el vacío semántico entre su apariencia visual y su significado de alto nivel. Particularmente, la variabilidad visual en imágenes de histopatología también está relacionada con el ruido añadido por etapas de adquisición tales como magnificación, corte y tinción entre otros. Muchos esfuerzos se han centrado en la selección de la representacion de las imágenes para capturar dicha variabilidad. Este enfoque requiere el conocimiento de expertos y el diseño de ingeniería para construir buenos detectores de características que representen la información visual relevante. Los enfoques actuales en tareas de visión por computador han reemplazado ese diseño por la inclusión de la representación en la etapa de aprendizaje. Este paradigma ha superado los resultados del estado del arte en muchas de las tareas de reconocimiento de patrones tales como el reconocimiento de voz, la detección de objetos y la clasificación de imágenes. El objetivo de esta investigación es explorar y definir una estrategia basada en el aprendizaje de la representación para imágenes histopatológicas con capacidades interpretativas. La contribución principal de este trabajo es un enfoque novedoso para aprender la representación de la imagen para la detección de cáncer. El enfoque propuesto aprende la representación directamente de una colección de imágenes de carcinoma basocelular en forma no supervisada que permite extraer características más complejas a partir de las representaciones de bajo nivel. También se propone el módulo de tinción digital, una nueva etapa de interpretabilidad para apoyar el diagnóstico a través de una identificación visual de las funciones discriminantes y semánticas. Los resultados experimentales mostraron un rendimiento del 92% en términos de F-Score, mejorando la representación del estado del arte en un 7%. Esta investigación concluye que el aprendizaje de la representación mejora la generalización de los detectores de características así como el desempeño en la detección de carcinoma basocelular. Como contribuciones adicionales, una representación de bolsa de caracteristicas (BdC) fue ampliado y evaluado para la detección de la enfermedad de Alzheimer, obteniendo un 95% en términos de EER. Además, una nueva perspectiva para aprender medidas morfométricas en las células del cuello uterino basado en BdC fue presentada y evaluada obteniendo resultados prometedores para predecir las areás del nucleo y el citoplasma. Maestría
- Published
- 2013
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.