Onay, Aytun, Abul, Osman, TOBB ETÜ, Fen Bilimleri Enstitüsü, TOBB Ekonomi ve Teknoloji Üniversitesi Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Lisansüstü Programı, TOBB University of Economics and Technology Graduate School of Engineering and Science, Computer Engineering Graduate Programs, and Bilgisayar Mühendisliği Ana Bilim Dalı
Aday ilaç moleküllerinin makine öğrenmesi metotlarını kullanarak sanal olarak taranması ilaçların ters yan etkilerinden korunmak amacıyla ilaç endüstrisinde kilit bir rol oynar. Hesaplamalı sınıflandırma metotları onaylanmış ilaçları geri çekilenlerden ayırabilir. Çalışmamızda ilaçlar üzerinde üç farklı uygulamaya odaklandık. Onaylanmış ilaçları geri çekilen ilaçlardan ayırmak amacıyla farklı makine öğrenmesi stratejileri kullandık. Öncelikle çalışmada yer alan her bir ilaç molekülü için sınıflandırma ve öznitelik seçimi problemlerinde kullanılmak üzere ToxPrint Kemotip, global moleküler, boyut ve şekil olmak üzere 760 moleküler tanımlayıcı hesaplandı. İlk uygulamada 400'den fazla sinir sistemi ve farklı hastalık gruplarına ait ilaçları onaylanmış ve geri çekilen kategorilerine ayırmak için SVM ve topluluk metotları ilaç veri setleri üzerine uygulandı. Test setleri için doğruluk oranı 0.74 ile 0.89 elde edildi. Burada ilaç veri setleri üzerinde uygulanan özellik seçimi metotları sınıflandırma performansını arttırdı. Sinir sistemi ilaçları için bir model oluşturmada the number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds tanımlayıcıları etkin özellikler olarak belirlendi. Bunun yanında ilaç veri setlerine gSpan algoritması uygulayarak geri çekilen sinir sistemi ilaçlarının minimum % 60'ında bulunan fragmanlar belirlendi. Çalışma spesifik bir hastalığa ait ilaçlardan oluşan veri setlerinde geri çekilen ilaçları onaylanmış olanlardan ayırmada yapılan ilk çalışmadır. Çalışmanın diğer bölümünde farklı hastalık gruplarına ait 558 ilaç hiyerarşik çoklu etiket sınıflaması ile Clus-HMC-Ens algoritması kullanılıp 3 temel seviyede sınıflandırıldı. Birinci seviye bütün ilaçları, ikinci seviye ise 3 gruptan oluşan ilaçları içermektedir. Bunlardan ilki onaylanmış sinir sistemi ilaçları, ikincisi farklı hastalık gruplarına ait onaylanmış ilaçları ve sonuncu grup ise piyasadan geri çekilen ilaçları içermektedir. Son seviye ise sinir sistemi ilaçlarının Anatomik Terapötik Kimyasal sınıflamasına göre beş gruptan ilaç içermektedir. Bu uygulamada ilaçları hiyerarşik olarak sınıflandırmada geliştirilen modeller için seçilen parametreler FTest, w_0, k, sınıflandırma eşiği, m-estimate modelin tahmin performansını arttırdı. Çalışmanın son kısmında 1200'den fazla onaylanmış/geri çekilen ilaç çalışıldı. Sınıflandırma modellerinde etkin olan moleküler tanımlayıcılar tezde önerilen etkin öznitelik seçme stratejisi ile belirlendi. Bunlardan ToxPrint kemotiplerden olanlar ilaç molekülleri için bir dizi kurallar belirlemede kullanıldı. İlaç veri setlerinde sadece onaylanmış/geri çekilen ilaçlarda bulunan/bulunmayan kemotipler analiz edildi. bond:NN_hydrazine_alkyl_HH2 yalnızca geri çekilen ilaçların yapısında, bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose vb. kemotipleri yalnızca onaylanmış ilaçların yapısında gözlendi. Dengesiz ilaç veri seti üzerinde sınıflandırıcı topluluk tasarımı için bir model önerildi. İlaçları onaylanmış ve geri çekilen sınıflarına ayırmada test seti için doğruluk oranları 0.80 elde edildi. Çalışmada elde edilen model ilaç aday moleküllerini elemek için ilaç tasarım evrelerinde basit bir filtre olarak kullanılabilirler., Virtual screening of candidate drug molecules via machine learning methods plays a key role in pharmaceutical industry to prevent adverse effects of the drugs. Computational classification methods can distinguish approved drugs from withdrawn ones. In this study, we focused on 3 various applications on drugs. We studied with different machine learning strategies to distinguish approved and withdrawn drugs. To begin with, 760 molecular descriptors such as ToxPrint Chemotype, global molecular, size and shape were calculated to study classification and feature selection problems for each drug molecule in this study. In first application, SVM and ensemble methods were applied on drug data sets to categorize more than 400 drugs belonging to nervous system and various disease groups as approved or withdrawn. Accuracy rates were found between 0.74 and 0.89 for data sets. Here, feature selection methods which were applied on drug data sets increased classification performance values. The number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds descriptors were found as more significant descriptors to form model for nervous system drugs. Moreover, the fragmans located in minimum 60 % of nervous system withdrawn drugs were determined via application of gSpan algorithms on drug data sets. This is the first report that describes distinction of withdrawn and approved drugs pertaining to the spesific disease on the data sets. In the second part of study, 558 drugs with various disease groups were classified in 3 basic levels with hierarchical multi-label classification via Clus-HMC-Ens algorithms. While first level includes all drugs, second level consists of 3 groups of drugs. These are approved nerveous system drugs, approved drugs of various disease groups and withdrawn drugs. Last level has drugs of 5 different groups according to Anatomic Therapeutic Chemical classification of nerveous system drugs. In this application, some paremeters were selected for classification of drugs hierarchically. Selected paremeters such as FTest, w_0, k, classification treshold, m-estimate increased estimation performance of model. In last part of study, more than 1200 approved and withdrawn drugs were studied. Molecular identifiers that are effective in classification models have been identified by an effective feature selection strategy proposed in the thesis. ToxPrint chemotypes, effective descriptors, were used for determination of a number of rules in drug molecules. Available/unavailable chemotypes were analysed in approved/withdrawn drugs on drug data sets. While chemotypes such as bond:NN_hydrazine_alkyl_HH2 only presented in withdrawn drugs, ones such as bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose etc. just examined in approved drugs. A model for classifier ensemble design was proposed on the unbalanced drug data set. Accuracy of 0.80 was obtained for the test set in order to classify the drugs as approved and withdrawn. Developed model in this study can be used as a simple filter in drug modelling to eleminate drug candidate molecules.