1. Utvärdering av löslighetsprediktion med hjälp av maskininlärning
- Abstract
Abstrakt Introduktion och syfte: Löslighet är en av de viktigaste parametrarna som spelar en viktig roll vid upptäckt och utveckling av läkemedel. Att ha kännedom om löslighet av något läkemedel är viktigt eftersom det hjälper till att formulera nya läkemedelskandidater. Olika teoretiska metoder används för att förutsäga löslighet, såsom kvantitativ struktur-egenskapsrelation (QSPR- modeller). Maskininlärning är ett ytterligare sätt att förutsäga löslighet. Syftet med denna studie är att göra en litteraturgenomgång för att fastställa hur olika maskininlärningsmodeller används för att förutsäga löslighet. Syftet är också att ta reda på om det finns trender i prestanda för olika maskininlärningsalgoritmer, samt trender i hur användningen av datasetet påverkar prestanda. Metod: En litteratursökning fokuserad på användning av maskininlärning för att förutsäga löslighet genomfördes. PubMed och Google användes för att söka efter vetenskapliga artiklar. De olika maskininlärningsalgoritmerna delades in i fem olika kategorier. Dessutom bestämdes fördelningen mellan användandet av regression och klassificering vad gäller löslighetsprediktion. En intressant parameter att studera är hur storleken på felet varierar med storleken på dataseten. Det är också viktigt att veta hur storleken på felet beror på antalet deskriptorer. Slutligen undersökte denna studie hur storleken på felet varierar med andelen molekyler i ett dataset som används för träning, test och validering. Resultat: Studien visar att både beslutsträd och neurala nätverk används mest i artiklar, och att beslutsträd har ett högre R2-värde än neurala nätverk. Bayesianska metoder förefaller också ge goda resultat, men används inte lika mycket som andra metoder. De flesta artiklar använder regression för att erhålla en kontinuerlig variabel såsom löslighet. Ju större dataset, desto mindre felstorlek och ett bättre resultat. För
- Published
- 2023