25 results on '"Öznitelik seçimi"'
Search Results
2. Geleneksel Makine Öğrenmesi Yöntemleri ve Metasezgisel Yöntemlerle Öznitelik Seçim Yöntemlerinin Karşılaştırılması.
- Author
-
AÇAR, İsmail and AYDİLEK, İbrahim Berkan
- Abstract
Copyright of Dicle University Journal of Engineering / Dicle Üniversitesi Mühendislik Dergisi is the property of Dicle Universitesi and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
- Full Text
- View/download PDF
3. Improvement of Quality Performance in Mask Production by Feature Selection and Machine Learning Methods and An Application.
- Author
-
TEBRİZCİK, Semra, ERSÖZ, Süleyman, and AKTEPE, Adnan
- Subjects
FEATURE selection ,MACHINE learning ,MANUFACTURING defects ,EXTREME ultraviolet lithography ,MEDICAL masks ,MANUFACTURING processes ,MASKS - Abstract
Copyright of Journal of Defense Sciences / Savunma Bilmleri Dergisi is the property of Turkish Military Academy Defense Sciences Institute and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
- Full Text
- View/download PDF
4. Öznitelik Seçimi ile Desteklenen Makine Öğrenmesine Dayalı Göğüs Kanserinin Erken Tespiti ve Teşhisi.
- Author
-
AKYEL, Cihan, CİYLAN, Bünyamin, and POLAT, Hüseyin
- Abstract
Copyright of Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji is the property of Gazi University and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
- Full Text
- View/download PDF
5. INVESTIGATING THE EFFECT OF FEATURE SELECTION METHODS ON THE SUCCESS OF OVERALL EQUIPMENT EFFECTIVENESS PREDICTION
- Author
-
Özlem Kuvat and Ümit Yılmaz
- Subjects
feature selection ,machine learning ,overall equipment effectiveness ,öznitelik seçimi ,makine öğrenmesi ,toplam ekipman etkinliği ,Technology ,Engineering (General). Civil engineering (General) ,TA1-2040 - Abstract
Overall equipment effectiveness (OEE) describes production efficiency by combining availability, performance, and quality and is used to evaluate production equipment’s performance. This research’s aim is to investigate the potential of the feature selection techniques and the multiple linear regression method, which is one of the machine learning techniques, in successfully predicting the OEE of the corrugated department of a box factory. In the study, six different planned downtimes and information on seventeen different previously known concepts related to activities to be performed are used as input features. Moreover, backward elimination, forward selection, stepwise selection, correlation-based feature selection (CFS), genetic algorithm, random forest, extra trees, ridge regression, lasso regression, and elastic net feature selection methods are proposed to find the most distinctive feature subset in the dataset. As a result of the analyses performed on the data set consisting of 23 features, 1 output and 1204 working days of information, the elastic net - multiple linear regression model, which selects 19 attributes, gave the best average R2 value compared to other models developed. Occam's razor principle is taken into account since there is not a great difference between the average R2 values obtained. Among the models developed according to the principle, the stepwise selection - multiple linear regression model yielded the best R2 value among those that selected the fewest features.
- Published
- 2023
- Full Text
- View/download PDF
6. Hepatit hastalığının tespitinde bulanık mantık ve makine öğrenmesi yöntemlerinin karşılaştırılması.
- Author
-
Coşkun, Cengiz and Yüksek, Emre
- Abstract
Copyright of Dicle University Journal of Engineering / Dicle Üniversitesi Mühendislik Dergisi is the property of Dicle Universitesi and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2023
- Full Text
- View/download PDF
7. INVESTIGATING THE EFFECT OF FEATURE SELECTION METHODS ON THE SUCCESS OF OVERALL EQUIPMENT EFFECTIVENESS PREDICTION.
- Author
-
YILMAZ, Ümit and KUVAT, Özlem
- Subjects
- *
FEATURE selection , *MACHINE learning , *RANDOM forest algorithms , *GENETIC algorithms , *REGRESSION analysis , *SUCCESS - Abstract
Overall equipment effectiveness (OEE) describes production efficiency by combining availability, performance, and quality and is used to evaluate production equipment's performance. This research's aim is to investigate the potential of the feature selection techniques and the multiple linear regression method, which is one of the machine learning techniques, in successfully predicting the OEE of the corrugated department of a box factory. In the study, six different planned downtimes and information on seventeen different previously known concepts related to activities to be performed are used as input features. Moreover, backward elimination, forward selection, stepwise selection, correlation-based feature selection (CFS), genetic algorithm, random forest, extra trees, ridge regression, lasso regression, and elastic net feature selection methods are proposed to find the most distinctive feature subset in the dataset. As a result of the analyses performed on the data set consisting of 23 features, 1 output and 1204 working days of information, the elastic net - multiple linear regression model, which selects 19 attributes, gave the best average R² value compared to other models developed. Occam's razor principle is taken into account since there is not a great difference between the average R² values obtained. Among the models developed according to the principle, the stepwise selection - multiple linear regression model yielded the best R² value among those that selected the fewest features. [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
8. Filtre Tabanlı Öznitelik Seçim Yöntemleri Kullanılarak Metinlerde Duygu Sınıflandırması Üzerine Karşılaştırmalı Bir Çalışma.
- Author
-
SAĞBAŞ, Ensar Arif
- Abstract
Sentiment analysis as a text classification problem is a critical task of extracting subjective information from online text documents. An important problem of text classification is high dimensionality. Dimension reduction is an effective way to improve classification performance in machine learning. Reducing irrelevant features can reduce training time and improve classification accuracy. The performance of different feature selection methods may vary depending on the characteristics of different datasets. In this study, the performance of 6 different filter-based feature selection methods (Correlation-based feature selection, Chi-square, Gain ratio, Information gain, OneR, and Symmetric uncertainty coefficient) were tested and compared on 9 different datasets that are frequently used in sentiment classification. Filter scores were calculated for each feature selection method in all datasets. The obtained filter scores were sorted descendingly. New feature subsets were created and classified by adding features to the previous subset from the feature with the highest filter score to the feature with the lowest filter score. The computational results show that the proposed approach achieves average accuracy rates of 94.34% using the Multinomial Naive Bayes classifier for 9 general sentiment classification datasets. Considering the search space, it can be concluded that this approach can be improved and is competitive with existing approaches. [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
9. Rüzgar Gücü Tahmininde Genetik Algoritma ile Öznitelik Seçimi.
- Author
-
YAĞMUR, Ece and YAĞMUR, Sercan
- Published
- 2022
- Full Text
- View/download PDF
10. ANALYSIS OF THE FEATURES FOR AUTOMATIC CLASSIFICATION OF ACADEMIC PERFORMANCE.
- Author
-
EREN, Hakan Alp and GUNAL, Efnan SORA
- Subjects
COLLEGE teachers ,PERFORMANCE contracts in education ,DATA mining ,MACHINE learning ,FEATURE selection - Abstract
Copyright of Journal of Engineering & Architectural Faculty of Eskisehir Osmangazi University / Eskişehir Osmangazi Üniversitesi Mühendislik ve Mimarlık Fakültesi Dergisi is the property of Eskisehir Osmangazi University and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2022
- Full Text
- View/download PDF
11. Classification of the death ratio of COVID-19 Pandemic using Machine Learning Techniques.
- Author
-
Ulas, Efehan and Filiz, Enes
- Subjects
COVID-19 pandemic ,DEATH rate ,EPIDEMIOLOGICAL models ,MACHINE learning ,FEATURE selection - Abstract
Copyright of Erzincan University Journal of Science & Technology is the property of Erzincan Binali Yildirim Universitesi and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2022
- Full Text
- View/download PDF
12. Siber Saldırılar için Rastgele Orman Algoritması Kullanılarak Öznitelik Seçimi.
- Author
-
BİLEN, Abdulkadir and ÖZER, Ahmet Bedri
- Abstract
With the increase in data sizes, researchers needed various methods to make the analysis process easier. It is important to reduce the data size and increase the analysis accuracy. When analyzing data, it is necessary not to deal with unnecessary fields and to produce more accurate results with less input. It is one of the most important first steps in feature selection and data analysis. Various machine learning methods are used for feature selection. Univariate Feature Selection, Recursive Feature Elimination, Tree-Based Feature Selection and Principal Component Analysis methods were used in the study. With these methods, the most important ones among the 13 features in the data set were determined. The most important 6, 5, and 4 attributes were separately input, and the cyber-attack method was predicted with the Random Forest algorithm. When the number of features was reduced to 4, the highest accuracy rate of 97.24% was obtained. It has been concluded that the inclusion of related features in the estimation is important in terms of size and speed in this ratio feature selection. With the results obtained, the importance of feature selection on the data has been demonstrated once again. [ABSTRACT FROM AUTHOR]
- Published
- 2022
13. Türkiye Covid-19 günlük hasta sayısındaki değişimin sınıflandırılmasına yönelik tahmininin destek vektör makineleri ve k-en yakın komşu algoritmaları ile gerçekleştirilmesi.
- Author
-
FİLİZ, Enes
- Subjects
- *
COVID-19 pandemic , *K-nearest neighbor classification , *SUPPORT vector machines , *COVID-19 vaccines , *COVID-19 , *FEATURE selection - Abstract
Since December 2019, the Covid-19 virus afftected our lives and continues to affect the whole world significantly. The investigistion of the indicators of the Covid-19 virus and vaccination studies are of great interest to overcome the Covid- 19 pandemic based on the World health organization recommendations. In this context, many scientific studies have revealed valuable information for the future of the virus. In this study, estimation of the cOvid-19 cases and Classification of changes in the daily number of cases in Turkey was carried out by using support vector machine and k-nearest neighbor algorithms. The indicators that play a critical role in the estimation of the daily patient number classification have been determined as "positivity rate", "fillation rate", "workplace mobility" and "mobility in parks". It has been observed that the k-nearest neighbor algorithm (84.7%) is the most successful algorithm in the estimation of the daily number of cases when considering the highlighted features. [ABSTRACT FROM AUTHOR]
- Published
- 2022
- Full Text
- View/download PDF
14. Öznitelik Seçme Yöntemlerinin Makine Öğrenmesi Tabanlı Saldırı Tespit Sistemi Performansına Etkileri.
- Author
-
Emanet, Sura, Baydogmus, Gozde Karatas, and Demir, Onder
- Abstract
Copyright of Dicle University Journal of Engineering / Dicle Üniversitesi Mühendislik Dergisi is the property of Dicle Universitesi and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2021
- Full Text
- View/download PDF
15. Uyartım frekansının kestiriminde istatistiksel anlamlılığa dayalı olarak seçilen durağan durum görsel uyarılmış potansiyellere ait dalgacık özniteliklerinin değerlendirilmesi.
- Author
-
Sayılgan, Ebru, Yüce, Yılmaz Kemal, and İşler, Yalçın
- Subjects
- *
VISUAL evoked potentials , *FEATURE selection , *WAVELET transforms , *ELECTROENCEPHALOGRAPHY , *ENTROPY (Information theory) , *BRAIN-computer interfaces , *HILBERT-Huang transform , *WAVELETS (Mathematics) - Abstract
Electroencephalography (EEG) is a noninvasive method to record brain activities. Among different EEG recording methods, the recording, while a visual stimulation is shown to the subject, is one of the most popular methods. Recently, steady-state visually-evoked potentials (SSVEP) where visual objects are blinking at a fixed frequency have been commonly-used method in brain-computer interfaces. Although various features extracted from SSVEP records have been used, the use of features from wavelet transform should be preferred due to the nonstationary structure of these signals. In this study, the combination of mother wavelet and classifier, which gives the highest accuracy to determine the stimulating frequency, is examined by applying common wavelet features to inputs of classifiers. Features of energy, variance, and entropy were extracted for well-known five EEG frequency bands using six different mother wavelets. Then, classifier performances of six basic classifiers were compared. This study was run for both each subjects individually and all subjects together. Results showed that (i) ANOVA-based feature selection reduces the performances, (ii) there is no unique combination of classifier and mother wavelet while evaluating each subject individually, (iii) the highest performance was achieved by combination of ensemble learner and Reverse Biorthogonal wavelet while evaluating all subjects together. [ABSTRACT FROM AUTHOR]
- Published
- 2021
- Full Text
- View/download PDF
16. Makine Öğrenmesi ve Öznitelik Seçim Yöntemleriyle Saldırı Tespiti.
- Author
-
KAYNAR, Oğuz, ARSLAN, Halil, GÖRMEZ, Yasin, and IŞIK, Yunus Emre
- Abstract
Copyright of International Journal of InformaticsTechnologies is the property of Institute of Informatics, Gazi University and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2018
- Full Text
- View/download PDF
17. Büyük Dünya Endeksleri Kullanılarak BIST-100 Endeksi Değişim Yönünün Makine Öğrenmesi Algoritmaları ile Sınıflandırılması
- Author
-
Hasan Aykut Karaboğa, Serkan Akogul, and Enes Filiz
- Subjects
BIST-100 endeksi,Makine öğrenmesi,Öznitelik seçimi,Sınıflandırma algoritmaları ,Sınıflandırma algoritmaları BIST-100 index ,Classification algorithms ,Fen ,Science ,Machine learning ,Feature selection ,BIST-100 endeksi ,Öznitelik seçimi ,General Medicine ,Makine öğrenmesi - Abstract
Borsa İstanbul 100 (BIST-100) endeksi, diğer büyük dünya endeksleri ile birlikte finans piyasalarının küreselleşme değişiminin bir parçası olmuştur. Endeksler arasındaki ilişkinin analizi yatırımcılara büyük avantajlar sağlayacaktır. Bu durumdan yola çıkarak çeşitli makine öğrenmesi algoritmaları ile büyük dünya endeksleri ve bazı makroekonomik göstergeler kullanılarak BIST-100 endeksinin değişim yönünün (artış-azalış) sınıflandırılması amaçlanmıştır. Bu amaç doğrultusunda BIST-100 endeksinin değişim yönünün sınıflandırmasında etkin rol oynayan değişkenler belirlenmiş ve belirlenen bu değişkenler yardımıyla sınıflandırma başarılarında değişim olup olmadığı incelenmiştir. Tüm değişkenler ile yapılan sınıflandırmada lojistik regresyonun %70,6; öznitelik seçimi ile yapılan sınıflandırmada da Destek Vektör Makinesi PUK çekirdeği algoritmasının %71,9 daha doğru sınıflandırma başarısı gösterdiği belirlenmiştir. Böylelikle daha az sayıda değişken ile daha yüksek sınıflandırma başarısı elde edilmiştir.
- Published
- 2021
- Full Text
- View/download PDF
18. Öznitelik Seçiminde Genetik Algoritma Kullanılarak Kur’an-ı Kerim Ayetlerinin Otomatik Sınıflandırılması
- Author
-
MERT, Fatih, AYDIN, Muhammed Ali, and ORMAN, Zeynep
- Subjects
Engineering ,Quran ,Text Classification ,Genetic Algorithm ,Machine Learning ,Feature Selection ,Kur ,Metin Sınıflandırma ,Genetik Algoritma ,Makine Öğrenmesi ,Öznitelik Seçimi ,Mühendislik - Abstract
Text classification, also known as text tagging, is the process of dividing a given text into organized groups. Using Natural Language Processing methods, text classifiers can automatically analyze text and then assign a set of predefined tags or categories based on its content. If it is a verse of the Holy Qur'an, the main purpose of labeling is to determine the theme of the verse. However, current approaches to verse tagging depend primarily on the availability of scholars with deep expertise in the Arabic language and Qur'anic exegesis. In this study, it is suggested to automate the task of tagging Qur'anic verses using text classification algorithms. In the experiments we carried out with the classification algorithms, the 15 predefined categories to which the English translations of the verses belong were used as features. Unlike similar studies in the literature, Genetic Algorithm was used in the feature selection stage. Thus, it is aimed that this intermediate step will have a positive effect on the final performance. At the end of the study, the performance values of the classification models are given comparatively by using various performance evaluation metrics., Metin etiketleme olarak da bilinen metin sınıflandırması verilen bir metni organize gruplara ayırma işlemidir. Metin sınıflandırıcılar, Doğal Dil İşleme yöntemlerini kullanarak metni otomatik olarak analiz edebilir ve ardından içeriğine göre bir dizi önceden tanımlanmış etiket veya kategori ataması yapabilir. Söz konusu bir Kur'an ayeti ise, etiketlenmedeki temel amaç ayetin ilgili olduğu temanın belirlenmesidir. Ancak mevcuttaki ayet etiketleme yaklaşımları öncelikli olarak Arapça dilinde ve Kur'an tefsirinde derin uzmanlığa sahip alimlerin mevcudiyetine bağlıdır. Bu çalışmada metin sınıflandırma algoritmalarını kullanarak Kur'an ayetlerinin etiketlenmesi görevinin otomatikleştirilmesi önerilmektedir. Sınıflandırma algoritmaları ile gerçekleştirdiğimiz deneylerde ayetlerin İngilizce çevirilerinin ait oldukları önceden tanımlanmış 15 kategori öznitelik olarak kullanılmıştır. Literatürdeki benzer çalışmalardan farklı olarak öznitelik seçimi aşamasında Genetik Algoritma kullanılmıştır. Böylece gerçekleştirilen bu ara adımın nihai performansa olumlu etki etmesi amaçlanmıştır. Çalışmanın sonunda çeşitli performans değerlendirme metrikleri kullanılarak sınıflandırma modellerinin başarım değerleri karşılaştırılmalı olarak verilmiştir.
- Published
- 2022
19. Feature Selection by Genetic Algorithm for Wind Power Prediction
- Author
-
ÇETİN YAĞMUR, Ece and YAĞMUR, Sercan
- Subjects
Engineering ,Mühendislik ,Makine öğrenmesi ,Rüzgar gücü ,Yenilenebilir enerji ,Öznitelik seçimi ,Genetik algoritma ,Machine learning ,Wind power ,Renewable energy ,Feature selection ,Genetic algorithm - Abstract
Sürdürülebilir gelişim için yenilenebilir enerji kaynaklarına olan ihtiyaç her geçen gün artmaktadır. Bu kaynaklardan birisi de rüzgar enerjisidir. Rüzgarın stokastik yapısı nedeniyle rüzgar hızı ve rüzgar gücünün tahmini son yıllarda araştırmacılar tarafından oldukça ilgi çeken bir konu haline gelmiştir. Yapılan çalışmada Türkiye’de yer alan bir rüzgar türbini için 2018 yılı boyunca SCADA sistemi ile elde edilen veri seti ile aynı konum için NASA tarafından paylaşılan meteorolojik veri seti kullanılarak rüzgar gücü tahmini gerçekleştirilmiştir. Girdi değişkenleri olarak SCADA sisteminden çekilen rüzgar hızı, rüzgar yönü ve teorik güç eğrisi; NASA sisteminden çekilen meteorolojik parametreler ve rüzgar gücüne ait geçmiş veriler kullanılmıştır. Modelde yer alan ve hesaplama karmaşıklığına neden olan gereksiz öznitelikler model performansını artırmak amacıyla sarmal seçim yöntemi ile modelden çıkarılmıştır. Sarmal seçim yöntemi olarak Genetik Algoritma (GA) kullanılmıştır. Yapılan çalışmada hem farklı makine öğrenme algoritmalarının tahmin gücü, farklı performans ölçütlerine göre karşılaştırılmış hem de öznitelik seçiminin modele etkisi değerlendirilmiştir. GA ile önerilen nihai modelde değişken sayısı 47’den 9’a indirgenerek gereksiz değişkenler modelden uzaklaştırılmış ve en az sayıda değişken ile R2 değeri 0,98 olan güçlü bir tahmin modeli elde edilmiştir., The need for renewable energy sources for sustainable development has been increasing every day. One of these sources is wind energy. Due to the stochastic nature of the wind, the estimation of wind speed and wind power has been a subject of great interest to researchers in recent years. In this study, wind power estimation was carried out for a wind turbine in Turkey, using the data set obtained by the SCADA system during 2018 and the meteorological data set shared by NASA for the same location. Wind speed, wind direction, and theoretical power curve were taken from the SCADA system as input variables; Meteorological parameters were taken from the NASA system and historical data of wind power were used. Unnecessary features in the model that cause computational complexity are removed from the model with the wrapper selection method to increase model performance. Genetic Algorithm (GA) was used as the wrapper selection method. In the study, the predictive power of different machine learning algorithms was compared according to different performance criteria and the effect of feature selection on the model was evaluated. In the final model proposed by GA, the number of variables was reduced from 47 to 9, unnecessary variables were removed from the model, and a strong prediction model with R2 value of 0.98 was obtained with the least number of variables.
- Published
- 2022
20. Makine Öğrenimi Teknikleri kullanılarak COVID-19 Pandemisinin ölüm oranının sınıflandırılması
- Author
-
ULAŞ, Efehan and FİLİZ, Enes
- Subjects
Classification ,Machine learning ,Decision tree ,COVID-19 ,Feature selection ,Engineering ,Mühendislik ,Sınıflandırma ,Makine öğrenmesi ,Karar ağaçları ,Öznitelik seçimi - Abstract
COVID-19 pandemisi ortaya çıktığından beri, enfekte olmuş bireylerin sayısını ve COVID-19 salgınının ölüm oranını tahmin etmek için dünya çapında birçok epidemiyolojik model geliştirilmiştir. CoVID-19 üzerinde makine öğrenimi teknikleri kullanılarak geliştirilmiş birkaç model bulunmaktadır. Ancak öznitelik seçimini ayrıntılı olarak ele alan çalışmalar oldukça sınırlıdır. Bu nedenle, bu çalışmanın amacı (i) çeşitli özelliklerin bağımsız ve etkileşimli etkilerini araştırmak ve (ii) COVID-19 salgınının ölüm oranını sınıflandırmak için önemli olan algoritmaları bulmaktır. Lojistik regresyon ve karar ağacının (C4.5, Random Forests ve REPTree) en uygun algoritmalar olduğu bulunmuştur. Öznitelik seçme yöntemleriyle elde edilen çeşitli öznitelikler, binde yeni test sayısı, milyonda yeni vaka, milyonda hastane hasta sayısı ve milyonda haftalık hastane kabulüdür. Bu çalışmanın önemi, birkaç özellik ile yüksek oranda sınıflandırma elde edilmiş olmasıdır. Bu çalışma, sınıflandırmada sadece en ilgili özelliklerin dikkate alınması gerektiğini ve sınıflandırmada tüm değişkenlerin kullanılmasının gerekli olmadığını göstermiştir., Since the COVID-19 pandemic has appeared, many epidemiological models are developed around the world to estimate the number of infected individuals and the death ratio of the COVID-19 outbreak. There are several models developed on COVID-19 by using machine learning techniques. However, studies that considered feature selection in detail are very limited. Therefore, the aim of this study is to (i) investigate the independent and interactive effects of a diverse set of features and (ii) find the algorithms that are significant for classifying the death ratio of the COVID-19 outbreak. It was found that logistic regression and decision tree (C4.5, Random Forests, and REPTree) are the most suitable algorithms. A diverse set of features obtained by feature selection methods are the number of new tests per thousand, new cases per million, hospital patients per million, and weekly hospital admissions per million. The importance of this study is that a high rate of classification was obtained with a few features. This study showed that only the most relevant features should be considered in classification and the use of all variables in classification is not necessary.
- Published
- 2022
21. Kolektif makine öğrenmesi tabanlı ağ saldırı tespiti
- Author
-
Emanet, Şura, Demir, Önder, Karataş Baydoğmuş, Gözde, Marmara Üniversitesi, Fen Bilimleri Enstitüsü, and Bilgisayar Mühendisliği Anabilim Dalı
- Subjects
Machine Learning ,Feature Filtering and Intrusion Detection ,Öznitelik Seçimi ,Kolektif Öğrenme Intrusion Detection System ,Feature Selection ,Makine Öğrenmesi ,Saldırı Tespit Sistemi ,Öznitelik Filtreleme ve Saldırı Tespiti ,Ensemble Learning - Abstract
İnternet kullanımının hızla yayılması ve buna paralel olarak çevrimiçi ortamlarda vakit geçiren kullanıcı sayısının gün geçtikçe fazlalaşması, siber risk ve tehditleri de beraberinde getirmektedir. Kötü amaçlı kullanıcılar bilgi, fikir, para gibi birçok önemli unsurun paylaşıldığı bu ortamlarda bulunan sistem ve uygulamaları önemli ölçüde zarara uğratabilmektedir. Saldırı Tespit Sistemleri (STS), İnternet ortamındaki sistem ve uygulama güvenliğinin sağlanmasında kritik bir role sahiptir. Bu sistemler yardımıyla internet ağında gerçekleşen aktiviteler ve trafik analiz edilerek olası atak, ihlal ve tehditler tespit edilir. Eğitimlerinde klasik yöntemlerin yanı sıra, çok sayıda makine öğrenmesi teknikleri kullanılabilmektedir. Son geliştirilen STS’ler, -dinamik bir güvenlik mekanizması oluşturulabilmesi için- makine öğrenmesi tekniklerinin tercih edildiği çalışmaların sayısının giderek arttığını göstermektedir. Bu çalışmada, öznitelik seçimi ve kolektif öğrenme yöntemlerinden faydalanılarak yüksek doğruluk oranına sahip performanslı bir STS elde etme üzerinde durulmuştur. Kullanılan veri kümesi kalitesinin de doğrudan STS verimliliği üzerinde etkisi olması sebebiyle, veri kümesi olarak saldırı çeşitliliği yüksek, bilinen güncel STS veri kümelerinden olan CIC-CSE-IDS2018 tercih edilmiştir. İlk aşamada, -saldırı tespit sürecinin iyileşmesi ve süresinin azalması adına- öznitelikler Spearman‘ın Korelasyon Analizi, Özyinelemeli Öznitelik Seçimi (RFE) ve Ki-Kare Test metotları uygulanarak belirlenmiştir. Belirlenen özniteliklerle oluşturulan yeni veri kümeleri ile orijinal boyuttaki veri kümelerinin karşılaştırılmasında Karar Ağacı, Gradyan Artırma, Adaptif Yükseltme, Lojistik Regresyon, Pasif-Agresif, Ekstra Ağaçlar ve Çok Katmanlı Algılayıcı sınıflandırıcılarından faydalanılmıştır. Yapılan performans denemelerinde Katmanlı 5-Katlamalı Çapraz Doğrulama tekniği kullanılmıştır. Bu tekniğin kullanılması nedeniyle oluşan hesaplama ve zaman maliyetini düşürmek için çok-çekirdekli paralelleştirme (multi-core parallellism) uygulanmıştır. Sonrasında, elde edilen performans sonuçlarının karşılaştırmalı bir analizi yapılmıştır. Sonuçlar, sistem başarımının Spearman’ın korelasyon analizi ve Ki-Kare test yöntemleri ile düştüğünü fakat RFE yöntemi ile arttığını göstermiştir. %98,76 doğruluk oranı ile en başarılı sınıflandırıcı Ekstra Ağaçlar olsa da çalışma süre kriteri göz önünde bulundurulduğunda sırayla %95,15 ve %98,65 doğruluk oranları ile Lojistik Regresyon ve Karar Ağacı sınıflandırıcıları da ön plana çıkmıştır. Pek çok çalışma, topluluk modelini kullanan bir sistemin sınıflandırmada tek bir sınıflandırıcı kullanan sisteme göre daha iyi sonuçlar verebileceğini göstermiştir. Bu sebeple ikinci aşamada, kompleks fakat daha yüksek doğruluk oranı sağlayan bir topluluk modeli oluşturma fikri üzerinde durulmuştur. Sınıflandırma algoritmalarından her birinin faydasını birleştiren “oylama” isimli toplu öğrenme yaklaşımı uygulanarak, ilk aşamada yer alan performans sonuçları üzerinden seçilen sınıflandırıcılar ile kolektif bir model üretilmiştir. Kolektif model için Karar Ağacı, Ekstra Ağaç ve Lojistik Regresyon sınıflandırıcıları seçilmiştir. Sonuçlar, %98,82 doğruluk oranı ile kolektif modelin tek bir sınıflandırıcının bulunduğu bireysel yaklaşımlardan daha üst bir performans gösterdiğini ortaya koymuştur. The fast-moving propagation of internet usage and the corresponding increase in the number of user spending time online bring cyber risks and threats along. Malicious computer users can cause momentous damage to the systems and applications in the internet environment where many important elements such as information, ideas and money are shared. Intrusion Detection Systems (IDSs) have a critical role in ensuring system and application security in the Internet environment. With the help of these systems, activities and traffic on the Internet network are analyzed and possible attacks, violations and threats are detected. In addition to classical methods, many machine learning techniques can be used in their training. Recently developed IDSs show that the number of studies in which machine learning techniques are preferred in order to create a dynamic security mechanism, is increasing day by day. In this study, it is focused on obtaining a high-performance IDS that works with high accuracy by using feature selection and ensemble learning methods. Since the quality of the dataset used has a direct effect on IDS efficiency, CIC-CSE-IDS2018, which is one of an up-to-date IDS dataset known, with a high attack variety, was preferred. In the first stage, the features were determined by applying Spearman's correlation analysis, Recursive Feature Elimination (RFE) and Chi-Square test methods in order to improve attack detection process and reduce its time. Decision Tree, Gradient Boosting, Adaptive Boosting, Logistic Regression, Passive-Aggressive, Extra Trees and Multilayer Perceptron classifiers were used to compare the original datasets with the new datasets consisting of the specified features. Stratified 5-Fold Cross Validation technique was used in performance tests. In order to reduce computational and time cost incurred due to the fact that all experiments were performed with using this technique, multi-core parallelism has been applied. Afterwards, a comparative analysis was made for the performance results obtained. The results showed that, the system performance decreased with Spearman’s correlation analysis and Chi-Square test methods, but increased with RFE method. Although the model with the highest performance belongs to the Extra Trees classifier with an accuracy rate of 98.76%, considering the execution time metric, Logistic Regression and Decision Tree classifiers came to the fore with accuracy rates of 95.15% and 98.65%, respectively. Many studies have shown that a system using the ensemble model can give better results in classification than a system using a single classifier. For this reason, in the second stage, the idea of creating a complex but higher accuracy ensemble model was discussed. By applying the ensemble learning approach called “voting”, which combines the benefits of each of the classification algorithms, a collective model was produced with the classifiers selected based on the performance results obtained in the first stage. Decision Tree, Extra Tree and Logistic Regression classifiers were chosen for the collective model. The results revealed that the collective model outperformed the individual approaches consisting of a single classifier, with an accuracy rate of 98.82%.
- Published
- 2022
22. Effects of feature selection methods on machine learning based ıntrusion detection system performance
- Author
-
Sura EMANET, Gözde KARATAŞ AYDOĞMUŞ, Önder DEMİR, Emanet Ş., KARATAŞ BAYDOĞMUŞ G., DEMİR Ö., and Mühendislik ve Doğa Bilimleri Fakültesi
- Subjects
Machine Learning ,Feature Filtering and Intrusion Detection ,Öznitelik Seçimi ,Engineering, Multidisciplinary ,Mühendislik, Ortak Disiplinler ,Feature Selection ,Saldırı tespit sistemi,makine öğrenmesi,öznitelik seçimi,öznitelik filtreleme ve saldırı tespiti ,Makine Öğrenmesi ,Saldırı Tespit Sistemi ,Öznitelik Filtreleme ve Saldırı Tespiti ,Intrusion Detection System - Abstract
Artan İnternet tabanlı teknolojilerin kullanımı insanlara ve kurumlara önemli avantajlar sağlamanın yanı sıra bir takım dezavantajları da beraberinde getirmiştir. Bunlardan en önemlisi siber saldırılardır. Siber saldırıların çeşitlenmesi ve artmasıyla, büyük miktarlara ulaşan kritik verilerin silme, değiştirilme, ifşa edilme gibi eylemlere karşı korunması her geçen gün daha zor hale gelmektedir. Bu sebeple bilgi sistemlerinin güvenliğinin sağlanması amaçlı geliştirilen araçlardan biri olan Saldırı Tespit Sistemleri çok önemli yere sahip bir çalışma alanı olmuştur. Bu çalışmada, CSE-CIC-IDS2018 veri kümesi üzerinde literatürde önerilen çeşitli öznitelik seçim yöntemleri ve makine öğrenmesi teknikleri kullanılarak, öznitelik seçiminin Saldırı Tespit Sistemi başarım ve performansı üzerindeki etkisi incelenmiştir. Orijinal veri kümesini temsil edebilecek en iyi alt kümeyi belirlemek için Ki-Kare Testi, Spearman‘ın Sıralama Korelasyon Katsayısı ve Özyinelemeli Öznitelik Eliminasyonu yöntemleri kullanılmıştır. Yeni veri kümeleri Adaptif Yükseltme, Karar Ağacı, Lojistik Regresyon, Çok Katmanlı Algılayıcı, Ekstra Ağaçlar, Pasif-Agresif ve Gradyan Artırma makine öğrenmesi yöntemleri ile sınıflandırılarak performans sonuçlarının karşılaştırmalı bir analizi yapılmıştır. Performansların objektif değerlendirilebilmesi için KFold kullanılmıştır. K-Fold işleminin hesaplama ve zaman yönünden maliyetli olması sebebiyle paralleştirme uygulanarak işlem süresi düşürülmüştür. Elde edilen deneysel sonuçlara göre Ki-Kare Testi ve Spearman’ın Sıralama Korelasyon Katsayısı öznitelik seçim yöntemleri veri boyutunun indirgenmesinden dolayı işlem yükünü azaltarak işlem süresini %45 oranında kısaltmış fakat hata oranını sırasıyla %14,46 ve %10,52 artırmıştır. Ayrica, Özyinelemeli Öznitelik Eliminasyonu yönteminin uygun ayar parametreleri kullanıldığında, işlem süresini %38 oranında kısaltması ile birlikte sistemin hata oranını da %2,95’e kadar düşürdüğü görülmüştür, The increasing use of the Internet-based technologies has brought along some disadvantages as well as providing significant advantages to people and institutions. The most important of these disadvantages is cyber-attacks. With the variety and increase of cyber-attacks, it becomes more and more difficult to protect large amounts of critical data against actions such as deletion, modification and disclosure. For this reason, Intrusion Detection Systems, one of the tools developed to ensure the security of information systems, has become a very important study area. In this study, the effect of feature selection on Intrusion Detection System performance and success, was investigated. The study was developed on the CSE-CIC-IDS2018 dataset by using various feature selection methods and machine learning techniques suggested in the literature. Chi-Square Test, Spearman's Ranking Correlation Coefficient and Recursive Feature Elimination methods were used to determine the best subset that could represent the original dataset. The new datasets created with the features determined by each feature selection method were classified using Adaptive Boosting, Decision Tree, Logistic Regression, Multilayer Perceptron, Extra Trees, PassiveAggressive and Gradient Boosting machine learning methods, and a comparative analysis of the obtained performance results was made. K-Fold was used to evaluate the performances objectively. Since the KFold process is costly in terms of computation and time, the processing time is reduced by applying parallelization. According to the experimental results obtained, Chi-Square Test and Spearman's Ranking Correlation Coefficient feature selection methods reduced the processing load due to the reduction of the data size and shortened the processing time by 45%, but increased the error rate by 14.46% and 10.52% respectively. On the other hand, it has been observed that the Recursive Feature Elimination method reduces the processing time by 38% and the error rate of the system up to 2.95% when appropriate setting parameters are used.
- Published
- 2021
23. Görüntüler üzerinde öznitelik çıkarma ve seçimine odaklı bir örüntü tanıma çerçevesi geliştirilmesi
- Author
-
Taşci, Arif Erdal, Uğur, Aybars, Fen Bilimleri Enstitüsü, and Bilgisayar Mühendisliği Anabilim Dalı
- Subjects
Feature ,Optimization ,Machine learning methods ,Örüntü Tanıma ,Image Processing ,Derin Öğrenme ,Deep learning ,Pattern Recognition ,Computer Engineering and Computer Science and Control ,Feature Extraction ,Veri Madenciliği ,Machine Learning ,Eniyileme ,Deep Learning ,Image processing ,Öznitelik Seçimi ,Pattern recognition ,"null" ,Data Mining ,Öznitelik Çıkarma ,Feature Selection ,Görüntü Işleme ,Makine Öğrenmesi ,Data mining ,Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol - Abstract
Günümüzde dijital görüntülerin sayısı, teknolojik imkânların ve aygıtların kullanılması ile birlikte giderek artış göstermektedir. Görüntü türlerinin bilgisayar destekli sınıflandırılması tıp, güvenlik, otomasyon gibi pek çok uygulama alanında yaygın olarak kullanılmaktadır. Öznitelik çıkarma ve seçimi, örüntü tanıma sürecinin alt aşamaları olarak sınıflandırma başarımını artırmak açısından oldukça önem taşımaktadır. Tez çalışmasında, görüntüler üzerinde öznitelik çıkarma ve seçimi aşamalarının her ikisini de içeren bir örüntü tanıma çerçevesi geliştirilmiştir. Çerçevenin ilk alt modelinde, sadece manuel öznitelik çıkarma yöntemleri kullanılmıştır. Bu modelde, 4 tanesi merkez noktasına göre ikiye ayrılmış görüntülerden türetilen özgün öznitelikler olmak üzere, 194 adet öznitelik çıkarmayı sağlayan geniş bir yöntem kümesi oluşturulması literatüre yapılan katkılardandır. Öznitelik seçimi aşamasında ise genetik algoritmalardan yararlanılmıştır. Literatüre diğer bir katkı olarak geliştirilen ikinci alt modelde ise, derin öğrenme kullanılarak çıkarılan öznitelik kümesi de ilk alt modele eklenerek sistem genişletilmiş ve böylece tanıma performansı artırılmıştır. Tez kapsamında, manuel olarak 194, derin öğrenmeyle 4096 olmak üzere toplamda 4290 öznitelik çıkarmayı sağlayan bir çatı oluşturulmuş, deneysel çalışmalarda Flavia ve Caltech-101 verisetleri kullanılmıştır. Her iki verisetinde en iyi sınıflandırma başarımının ECOC-SVM modeli ile sağlandığı ve literatürdeki en iyi sonuçlara göre karşılaştırılabilir olduğu gösterilmiştir., Nowadays, the number of digital images is increasing gradually with the use of technological possibilities and devices. Computer aided classification of image types is widely applied in many applications such as medicine, security, automation. The feature extraction and selection stages have great importance in terms of increasing the classification performance as the substages of the pattern recognition process. In the thesis, a pattern recognition framework including both of feature extraction and selection stages on images is developed. In the first submodel of the framework, only manual feature extraction methods are used. In this model, making up a large set of methods for extracting 194 features, 4 of which are novel ones derived from images divided into two sections according to the center point, is one of the contributions to the literature. Genetic algorithms are utilized in the feature selection stage. In the second submodel, which is developed as another contribution to the literature, the system is extended by adding the feature set extracted by using deep learning to the first submodel, thus recognition performance is improved. In the scope of the thesis, a framework was created for extracting total of 4290 features (194 handcrafted and 4096 deep learning features), Flavia and Caltech-101 datasets were used in the experimental studies. It is shown that the best classification performance for two datasets is provided with the ECOC-SVM model and it is competetive compared to the existing state-of-the-art results in the literature.
- Published
- 2018
24. Veri madenciliği teknikleri kullanarak bir ilaç sınıflandırma çatısı gerçekleştirimi
- Author
-
Onay, Aytun, Abul, Osman, TOBB ETÜ, Fen Bilimleri Enstitüsü, TOBB Ekonomi ve Teknoloji Üniversitesi Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Lisansüstü Programı, TOBB University of Economics and Technology Graduate School of Engineering and Science, Computer Engineering Graduate Programs, and Bilgisayar Mühendisliği Ana Bilim Dalı
- Subjects
ToxPrint kemotipler ,Approved and withdrawn drugs ,Support vector machines ,Drug discovery ,İlaç keşfi ,Onaylanmış ve geri çekilen ilaçlar ,Computer Engineering and Computer Science and Control ,Makine öğrenmesi ,Machine learning ,Feature selection ,Öznitelik seçimi ,Hierarchical multi-label classification ,Destek vektör makineleri ,ToxPrint chemotypes ,Hiyerarşik çoklu etiket sınıflaması ,Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol - Abstract
Aday ilaç moleküllerinin makine öğrenmesi metotlarını kullanarak sanal olarak taranması ilaçların ters yan etkilerinden korunmak amacıyla ilaç endüstrisinde kilit bir rol oynar. Hesaplamalı sınıflandırma metotları onaylanmış ilaçları geri çekilenlerden ayırabilir. Çalışmamızda ilaçlar üzerinde üç farklı uygulamaya odaklandık. Onaylanmış ilaçları geri çekilen ilaçlardan ayırmak amacıyla farklı makine öğrenmesi stratejileri kullandık. Öncelikle çalışmada yer alan her bir ilaç molekülü için sınıflandırma ve öznitelik seçimi problemlerinde kullanılmak üzere ToxPrint Kemotip, global moleküler, boyut ve şekil olmak üzere 760 moleküler tanımlayıcı hesaplandı. İlk uygulamada 400'den fazla sinir sistemi ve farklı hastalık gruplarına ait ilaçları onaylanmış ve geri çekilen kategorilerine ayırmak için SVM ve topluluk metotları ilaç veri setleri üzerine uygulandı. Test setleri için doğruluk oranı 0.74 ile 0.89 elde edildi. Burada ilaç veri setleri üzerinde uygulanan özellik seçimi metotları sınıflandırma performansını arttırdı. Sinir sistemi ilaçları için bir model oluşturmada the number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds tanımlayıcıları etkin özellikler olarak belirlendi. Bunun yanında ilaç veri setlerine gSpan algoritması uygulayarak geri çekilen sinir sistemi ilaçlarının minimum % 60'ında bulunan fragmanlar belirlendi. Çalışma spesifik bir hastalığa ait ilaçlardan oluşan veri setlerinde geri çekilen ilaçları onaylanmış olanlardan ayırmada yapılan ilk çalışmadır. Çalışmanın diğer bölümünde farklı hastalık gruplarına ait 558 ilaç hiyerarşik çoklu etiket sınıflaması ile Clus-HMC-Ens algoritması kullanılıp 3 temel seviyede sınıflandırıldı. Birinci seviye bütün ilaçları, ikinci seviye ise 3 gruptan oluşan ilaçları içermektedir. Bunlardan ilki onaylanmış sinir sistemi ilaçları, ikincisi farklı hastalık gruplarına ait onaylanmış ilaçları ve sonuncu grup ise piyasadan geri çekilen ilaçları içermektedir. Son seviye ise sinir sistemi ilaçlarının Anatomik Terapötik Kimyasal sınıflamasına göre beş gruptan ilaç içermektedir. Bu uygulamada ilaçları hiyerarşik olarak sınıflandırmada geliştirilen modeller için seçilen parametreler FTest, w_0, k, sınıflandırma eşiği, m-estimate modelin tahmin performansını arttırdı. Çalışmanın son kısmında 1200'den fazla onaylanmış/geri çekilen ilaç çalışıldı. Sınıflandırma modellerinde etkin olan moleküler tanımlayıcılar tezde önerilen etkin öznitelik seçme stratejisi ile belirlendi. Bunlardan ToxPrint kemotiplerden olanlar ilaç molekülleri için bir dizi kurallar belirlemede kullanıldı. İlaç veri setlerinde sadece onaylanmış/geri çekilen ilaçlarda bulunan/bulunmayan kemotipler analiz edildi. bond:NN_hydrazine_alkyl_HH2 yalnızca geri çekilen ilaçların yapısında, bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose vb. kemotipleri yalnızca onaylanmış ilaçların yapısında gözlendi. Dengesiz ilaç veri seti üzerinde sınıflandırıcı topluluk tasarımı için bir model önerildi. İlaçları onaylanmış ve geri çekilen sınıflarına ayırmada test seti için doğruluk oranları 0.80 elde edildi. Çalışmada elde edilen model ilaç aday moleküllerini elemek için ilaç tasarım evrelerinde basit bir filtre olarak kullanılabilirler., Virtual screening of candidate drug molecules via machine learning methods plays a key role in pharmaceutical industry to prevent adverse effects of the drugs. Computational classification methods can distinguish approved drugs from withdrawn ones. In this study, we focused on 3 various applications on drugs. We studied with different machine learning strategies to distinguish approved and withdrawn drugs. To begin with, 760 molecular descriptors such as ToxPrint Chemotype, global molecular, size and shape were calculated to study classification and feature selection problems for each drug molecule in this study. In first application, SVM and ensemble methods were applied on drug data sets to categorize more than 400 drugs belonging to nervous system and various disease groups as approved or withdrawn. Accuracy rates were found between 0.74 and 0.89 for data sets. Here, feature selection methods which were applied on drug data sets increased classification performance values. The number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds descriptors were found as more significant descriptors to form model for nervous system drugs. Moreover, the fragmans located in minimum 60 % of nervous system withdrawn drugs were determined via application of gSpan algorithms on drug data sets. This is the first report that describes distinction of withdrawn and approved drugs pertaining to the spesific disease on the data sets. In the second part of study, 558 drugs with various disease groups were classified in 3 basic levels with hierarchical multi-label classification via Clus-HMC-Ens algorithms. While first level includes all drugs, second level consists of 3 groups of drugs. These are approved nerveous system drugs, approved drugs of various disease groups and withdrawn drugs. Last level has drugs of 5 different groups according to Anatomic Therapeutic Chemical classification of nerveous system drugs. In this application, some paremeters were selected for classification of drugs hierarchically. Selected paremeters such as FTest, w_0, k, classification treshold, m-estimate increased estimation performance of model. In last part of study, more than 1200 approved and withdrawn drugs were studied. Molecular identifiers that are effective in classification models have been identified by an effective feature selection strategy proposed in the thesis. ToxPrint chemotypes, effective descriptors, were used for determination of a number of rules in drug molecules. Available/unavailable chemotypes were analysed in approved/withdrawn drugs on drug data sets. While chemotypes such as bond:NN_hydrazine_alkyl_HH2 only presented in withdrawn drugs, ones such as bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose etc. just examined in approved drugs. A model for classifier ensemble design was proposed on the unbalanced drug data set. Accuracy of 0.80 was obtained for the test set in order to classify the drugs as approved and withdrawn. Developed model in this study can be used as a simple filter in drug modelling to eleminate drug candidate molecules.
- Published
- 2017
25. Veri madenciliği teknikleri kullanarak bir ilaç sınıflandırma çatısı gerçekleştirimi
- Subjects
ToxPrint kemotipler ,Approved and withdrawn drugs ,Support vector machines ,Drug discovery ,İlaç keşfi ,Onaylanmış ve geri çekilen ilaçlar ,Makine öğrenmesi ,Machine learning ,Feature selection ,Öznitelik seçimi ,Hierarchical multi-label classification ,Destek vektör makineleri ,ToxPrint chemotypes ,Hiyerarşik çoklu etiket sınıflaması - Abstract
Aday ilaç moleküllerinin makine öğrenmesi metotlarını kullanarak sanal olarak taranması ilaçların ters yan etkilerinden korunmak amacıyla ilaç endüstrisinde kilit bir rol oynar. Hesaplamalı sınıflandırma metotları onaylanmış ilaçları geri çekilenlerden ayırabilir. Çalışmamızda ilaçlar üzerinde üç farklı uygulamaya odaklandık. Onaylanmış ilaçları geri çekilen ilaçlardan ayırmak amacıyla farklı makine öğrenmesi stratejileri kullandık. Öncelikle çalışmada yer alan her bir ilaç molekülü için sınıflandırma ve öznitelik seçimi problemlerinde kullanılmak üzere ToxPrint Kemotip, global moleküler, boyut ve şekil olmak üzere 760 moleküler tanımlayıcı hesaplandı. İlk uygulamada 400'den fazla sinir sistemi ve farklı hastalık gruplarına ait ilaçları onaylanmış ve geri çekilen kategorilerine ayırmak için SVM ve topluluk metotları ilaç veri setleri üzerine uygulandı. Test setleri için doğruluk oranı 0.74 ile 0.89 elde edildi. Burada ilaç veri setleri üzerinde uygulanan özellik seçimi metotları sınıflandırma performansını arttırdı. Sinir sistemi ilaçları için bir model oluşturmada the number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds tanımlayıcıları etkin özellikler olarak belirlendi. Bunun yanında ilaç veri setlerine gSpan algoritması uygulayarak geri çekilen sinir sistemi ilaçlarının minimum % 60'ında bulunan fragmanlar belirlendi. Çalışma spesifik bir hastalığa ait ilaçlardan oluşan veri setlerinde geri çekilen ilaçları onaylanmış olanlardan ayırmada yapılan ilk çalışmadır. Çalışmanın diğer bölümünde farklı hastalık gruplarına ait 558 ilaç hiyerarşik çoklu etiket sınıflaması ile Clus-HMC-Ens algoritması kullanılıp 3 temel seviyede sınıflandırıldı. Birinci seviye bütün ilaçları, ikinci seviye ise 3 gruptan oluşan ilaçları içermektedir. Bunlardan ilki onaylanmış sinir sistemi ilaçları, ikincisi farklı hastalık gruplarına ait onaylanmış ilaçları ve sonuncu grup ise piyasadan geri çekilen ilaçları içermektedir. Son seviye ise sinir sistemi ilaçlarının Anatomik Terapötik Kimyasal sınıflamasına göre beş gruptan ilaç içermektedir. Bu uygulamada ilaçları hiyerarşik olarak sınıflandırmada geliştirilen modeller için seçilen parametreler FTest, w_0, k, sınıflandırma eşiği, m-estimate modelin tahmin performansını arttırdı. Çalışmanın son kısmında 1200'den fazla onaylanmış/geri çekilen ilaç çalışıldı. Sınıflandırma modellerinde etkin olan moleküler tanımlayıcılar tezde önerilen etkin öznitelik seçme stratejisi ile belirlendi. Bunlardan ToxPrint kemotiplerden olanlar ilaç molekülleri için bir dizi kurallar belirlemede kullanıldı. İlaç veri setlerinde sadece onaylanmış/geri çekilen ilaçlarda bulunan/bulunmayan kemotipler analiz edildi. bond:NN_hydrazine_alkyl_HH2 yalnızca geri çekilen ilaçların yapısında, bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose vb. kemotipleri yalnızca onaylanmış ilaçların yapısında gözlendi. Dengesiz ilaç veri seti üzerinde sınıflandırıcı topluluk tasarımı için bir model önerildi. İlaçları onaylanmış ve geri çekilen sınıflarına ayırmada test seti için doğruluk oranları 0.80 elde edildi. Çalışmada elde edilen model ilaç aday moleküllerini elemek için ilaç tasarım evrelerinde basit bir filtre olarak kullanılabilirler., Virtual screening of candidate drug molecules via machine learning methods plays a key role in pharmaceutical industry to prevent adverse effects of the drugs. Computational classification methods can distinguish approved drugs from withdrawn ones. In this study, we focused on 3 various applications on drugs. We studied with different machine learning strategies to distinguish approved and withdrawn drugs. To begin with, 760 molecular descriptors such as ToxPrint Chemotype, global molecular, size and shape were calculated to study classification and feature selection problems for each drug molecule in this study. In first application, SVM and ensemble methods were applied on drug data sets to categorize more than 400 drugs belonging to nervous system and various disease groups as approved or withdrawn. Accuracy rates were found between 0.74 and 0.89 for data sets. Here, feature selection methods which were applied on drug data sets increased classification performance values. The number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds descriptors were found as more significant descriptors to form model for nervous system drugs. Moreover, the fragmans located in minimum 60 % of nervous system withdrawn drugs were determined via application of gSpan algorithms on drug data sets. This is the first report that describes distinction of withdrawn and approved drugs pertaining to the spesific disease on the data sets. In the second part of study, 558 drugs with various disease groups were classified in 3 basic levels with hierarchical multi-label classification via Clus-HMC-Ens algorithms. While first level includes all drugs, second level consists of 3 groups of drugs. These are approved nerveous system drugs, approved drugs of various disease groups and withdrawn drugs. Last level has drugs of 5 different groups according to Anatomic Therapeutic Chemical classification of nerveous system drugs. In this application, some paremeters were selected for classification of drugs hierarchically. Selected paremeters such as FTest, w_0, k, classification treshold, m-estimate increased estimation performance of model. In last part of study, more than 1200 approved and withdrawn drugs were studied. Molecular identifiers that are effective in classification models have been identified by an effective feature selection strategy proposed in the thesis. ToxPrint chemotypes, effective descriptors, were used for determination of a number of rules in drug molecules. Available/unavailable chemotypes were analysed in approved/withdrawn drugs on drug data sets. While chemotypes such as bond:NN_hydrazine_alkyl_HH2 only presented in withdrawn drugs, ones such as bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose etc. just examined in approved drugs. A model for classifier ensemble design was proposed on the unbalanced drug data set. Accuracy of 0.80 was obtained for the test set in order to classify the drugs as approved and withdrawn. Developed model in this study can be used as a simple filter in drug modelling to eleminate drug candidate molecules.
- Published
- 2017
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.