1. Research of the efficiency of one-class classification and PU-learning algorithms
- Subjects
semi-supervised learning ,PU-обучение ,PU-learning ,machine learning ,одноклассовая классификация ,машинное обучение ,обучение с частичным привлечением учителя ,оne class classification - Abstract
В работе проведено сравнение эффективности алгоритмов одноклассовой классификации и PU-обучения (англ. Positive Unlabeled learning) на различных типах данных и при различных подходах к разыменованию исходных классов. Был выполнен обзор текущего состояния исследований в этой области и анализ сравниваемых методов. Предложены решения для текущих проблем сравнения алгоритмов. Проанализированы и выбраны специфические метрики для экспериментального сравнения. Для дальнейшего исследования реализован алгоритм PU-обучения Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) и алгоритм одноклассовой классификации Deep Support Vector Data Description (Deep SVDD). Выполнено экспериментальное исследование, обработка и анализ его результатов. По результатам исследования были сделаны следующие выводы. Показано, что в случаях, когда размер известной положительной выборки мал или в ней содержатся некорректно размеченные данные, эффективнее использовать алгоритм PU-обучения. В случаях сложного разыменования, с учетом входящих в отрицательные и положительные классы подклассов, алгоритмы показывают сравнимую эффективность. При работе с текстовыми и многомерными числовыми данными алгоритм PU-обучения показал лучшие результаты. При работе с наборами данных изображений результаты метрик эффективности для алгоритмов схожи. Также для изображений показана теоретическая вероятность улучшения общих результатов задачи при использовании комбинации алгоритмов одноклассовой классификации и PU-обучения. Приведены перспективы дальнейшей работы., The given work compares the effectiveness of the algorithms of one-class classification and PU-learning (eng. Positive Unlabeled learning) on different types of data and with different approaches to dereferencing of the original classes. A review of the current state of research in this area and an analysis of the compared methods were performed. Solutions were proposed for the current problems of comparing algorithms. Specific metrics for experimental comparison were analyzed and selected. For further research, the Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) PU-learning algorithm and the Deep Support Vector Data Description (Deep SVDD) one-class classification algorithm are implemented. Preformed an experimental study, results were processed and analyzed. According to the results of the study, the following conclusions were made. Shown that in cases where the size of the known positive sample is small or it contains incorrectly labeled data, it is more efficient to use the PU-learning algorithm. In cases of complex dereferencing, taking into account the subclasses that are part of the negative and positive classes, the algorithms show comparable efficiency. When working with textual and multidimensional numeric data, the PU-learning algorithm has shown advantages in efficiency. When working with image data sets, the results of the efficiency metrics for the algorithms are similar. Also, for images the theoretical probability of improving the overall results of the problem using a combination of classmate classification algorithms and PU learning is shown.
- Published
- 2020
- Full Text
- View/download PDF