Start Over

Need for Speed : analysis of brazilian malware classifiers' expiration date

Authors :: Ceschin, Fabrício José de Oliveira
Gomes, David Menotti
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
Grégio, André Ricardo Abed
Source :: Repositório Institucional da UFPR, Universidade Federal do Paraná (UFPR), instacron:UFPR
Publication Year :: 2018
Abstract: Orientador : André Ricardo Abed Grégio Coorientador : David Menotti Gomes Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 27/02/2018 Inclui referências Resumo: Novos programas maliciosos são criados e liberados diariamente para enganar usuários e superar soluções de segurança, assim exigindo melhora continua nestes mecanismos (por exemplo, atualização constante de antivírus). Apesar da maioria dos programas maliciosos serem "genéricos suficiente para infectar o mesmo tipo de sistema operacional mundialmente, alguns deles estão relacionados as especificidades de um ciberespaço de certos países alvos. Neste trabalho, nos apresentemos uma analise de milhares de exemplares de malware coletados no ciberespaço brasileiro ao longo de vários anos, incluindo suas evoluções e o impacto dessas evoluções na classificação de malware. Nos também disponibilizamos um dataset desse conjunto de malware para permitir que outros experimentos e comparações sejam feitas pela comunidade. Este dataset representa o ciberespaço brasileiro e contem perfis de programas que sao conhecidamente malignos e benignos, baseados em características estáticas de seus binários. Nossa analise utilizou algoritmos de aprendizado de maquina (em particular, nos avaliamos quatro algoritmos populares off-the-shelf : Support Vector Machines, Multilayer Perceptron, KNN e Random Forest) para classificar os programas do nosso dataset como maligno ou benigno (incluindo experimentos com thresholds) e identificar o potencial concept drift que ocorre quando o modelo de classificação evolui com o passar do tempo. Nos também providenciamos detalhes extensos sobre nosso dataset, que e composto por 38.000 programas - 20.000 rotulados como malignos, coletados de anexos de e-mails maliciosos/usuários infectados (coletados em ambos os casos por uma grande instituição financeira brasileira com uma rede distribuída em todo o pais entre 2013 e começo de 2017. Por uma questão de reprodutibilidade e comparação imparcial, nos disponibilizamos publicamente os vetores de características utilizados. Finalmente, nos discutimos os experimentos conduzimos, cuja analise evidencia a existência de concept drift nos programas, tanto benignos como malignos, e mostra que não e possível dizer que existe sasonalidade em nosso dataset. Palavras-chave: Classificação de programas, Identificação de malware, Aprendizado de maquina, Concept drift. Abstract: New malware variants are produced and released daily to deceive users and overcome defense solutions, thus demanding continuous improvements on these mechanisms (e.g., antiviruses constant updates). Although most malware samples are usually "generic" enough to infect the same type of operating system world-widely, some of them are tied to the specificities regarding the cyberspace of certain target countries. In this work, we present an analysis of thousands of malware samples collected in the Brazilian cyberspace along several years, including their evolution and the impact of this evolution on malware classification. We also share a labeled dataset of this Brazilian malware set to allow other experiments and comparisons by the community. This dataset is representative of the Brazilian cyberspace and contains profiles of known-bad and known-good programs based on binaries' static features. Our analysis leveraged machine learning algorithms (in particular, we evaluated four popular off-the-shelf classifiers: Support Vector Machines, Multilayer Perceptron, KNN and Random Forest) to classify the programs of our dataset as malware or goodware (including experiments with thresholds) and to identify the potential concept drift that occurs when the subject of a classification scheme evolves as time goes by. We also provide extensive details about our dataset, which is composed of 38, 000 programs - 20, 000 labeled as known malware, collected from malicious email attachments/infected users (triaged in both cases by a major Brazilian financial institution with a country-wide distributed network) between 2013 and early 2017. For the sake of reproducibility and unbiased comparison, we make the feature vectors produced from our database publicly available. Finally, we discuss the results of the conducted experiments, whose analysis evidences the existence of concept drift on programs, either goodware and malware, and shows that it is not possible to say that there is seasonality in our dataset. Keywords: Program classification, Malware identification, Machine learning, Concept drift.

Subjects :: Ciencia da computação
Computadores - Medidas de segurança
Banco de dados - Medidas de segurança
Programas de computador
Teses

Details

Language :: Portuguese
Database :: OpenAIRE
Journal :: Repositório Institucional da UFPR, Universidade Federal do Paraná (UFPR), instacron:UFPR
Accession number :: edsair.od......3056..0b38f36bc16a2e6bfca7abda5265d31b

Tools

Email
Cite

Printer

Authors Abstract Subjects Details

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Need for Speed : analysis of brazilian malware classifiers' expiration date

Abstract

Subjects

Details

Tools

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Need for Speed : analysis of brazilian malware classifiers' expiration date

Abstract

Subjects

Details

Tools

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources