Recently, mobile users continuously increase, and mobile applications also increase As mobile applications increase, the mobile users used to store sensitive and private information such as Bank information, location information, ID, password on their mobile devices. Therefore, recent malicious application targeted to mobile device instead of PC environment is increasing. In particular, since the Android is an open platform and includes security vulnerabilities, attackers prefer this environment. This paper analyzes the performance of malware detection system applying linear SVM machine learning classifier to detect Android malware application. This paper also performs feature selection in order to improve detection performance. ※ 이 논문은 2013년도 정부(미래창조과학부)의 재원으로 한국연구재단의 기초연구사업 지원을 받아 수행된 것임 (2013R1A1A3011698) First Author : Dept. of Computer Science, Kangwon National University, kkh1258@kangwon.ac.kr, 학생회원 ° Corresponding Author : Dept. of Computer Science, Kangwon National University, mjchoi@kangwon.ac.kr, 종신회원 논문번호:KICS2014-05-216, Received May 31 2014; Revised July 10, 2014; Accepted July 10, 2014 I. 서 론 최근 다양한 스마트폰이 출시되면서, 스마트폰을 포함한 모바일 사용자의 수가 급증하는 것을 볼 수 있 다. 2013년 4월 기준 국내 스마트폰 가지입자 수는 약 3,500만 명을 넘어섰으며 이는 스마트폰 도입 초기인 2009년 11월 기준 47만 명에 비해 무려 74배가 증가 한 것으로 스마트폰 시장이 빠르게 성장하고 있음을 논문 / 선형 SVM을 사용한 안드로이드 기반의 악성코드 탐지 및 성능 향상을 위한 Feature 선정 739 알 수 있다. 스마트 시장의 발전과 함께 모바일 어플 리케이션이 증가하면서 모바일 단말에 개인정보, 은행 정보, 위치정보, 아이디, 비밀번호 등의 민감한 개인 정보들이 저장되기 시작하였다. 이와 같이 모바일 장 치에 민감한 정보들이 저장됨에 따라 기존에는 PC환 경에서 악의적인 어플리케이션을 배포하는 공격이 이 루어진 반면, 최근에는 모바일 장치를 타겟으로 하는 공격들이 증가하고 있다. 그 중에서도 악성코드를 포 함한 악의적인 어플리케이션을 통한 공격이 주로 이 루어지고 있다. 악의적인 어플리케이션에 의한 피해를 최소화하기 위해 모바일 플랫폼에서 악성코드를 분석하여 탐지하 는 연구가 활발히 이루어지고 있다. 기존 연구 중에서 악성코드 탐지를 위한 연구는 크게 시그니처 기반 분 석 방법 과 행동기반 분석 방법으로 분류할 수 있다. 시그니처 기반 분석 방법은 특정 문자열이나 패 턴을 시그니처로 정의하여 악성코드를 탐지하는 방법 으로 기존 PC 환경에서 많이 적용되던 방법이다. 하 지만 시그니처 기반 분석 방법은 시그니처를 생성하 고 관리하는 대용량의 저장소가 필요하므로 모바일 환경에 적용하기 부적합하다. 또한 새로운 악성코드에 대한 시그니처가 없을 경우 악성코드를 탐지할 수 없 다는 한계점을 가지고 있다. 행동 기반 분석 방법은 프로세스의 정상적인 상황과 비정상적인 상황의 feature 값을 수집하여 공격 패턴을 분석한 뒤, 침입 탐지 여부를 분석하는 방법이다. 특히 새로운 악성코 드에 대한 시그니처의 생성 없이 악성코드를 탐지할 수 있는 장점 때문에 최근 가장 주목 받는 연구 중 하 나이다. 모바일 장치에 사용되는 모바일 운영체제에는 iOS, 안드로이드, 윈도우, 블랙베리, 심비안 등이 있다. 모 바일 운영체제 중에서 세계적으로 유명한 운영체제는 안드로이드와 iOS이다. 특히 안드로이드는 오픈 플랫 폼으로 다른 운영체제에 비해 많은 보안 취약점을 가 지고 있다 . 안드로이드 플랫폼은 어플리케이션을 설 치할 때, 안드로이드 마켓뿐만 아니라 인터넷 블로그 또는 블랙마켓으로부터 다운로드 받아 바로 설치가 가능하기 때문에 악성코드 피해가 더 증가하고 있다 . 실제로 안철수 연구소 ASEC 리포트 에 따르면 2013년 1년간 총 132만 6139건이 악성 어플리케이션 으로 진단됐다. 이중 상반기에 67만 3599건, 하반기에 65만 2540건이 추가로 진단됐다. 그림 1은 2013년 월 별 모바일 악성코드 접수량을 보여준다. F-Secure 보 고서 에 따르면 안드로이드 운영체제에서 실행되도 록 설계된 악성코드는 2014년 1분기(1월~3월) 동안 나타난 새로운 악성 어플리케이션의 99%를 차지한다. 나머지 1%는 iOS와 심비안에서 발생하였다. 이처럼 악성코드가 계속 증가하고 있으며 특히, 안드로이드 플랫폼을 대상으로 공격자들이 악성코드를 포함한 어 플리케이션을 계속 배포하고 있다. 따라서 모바일 환 경에서 악성코드를 탐지하는 방법에 대한 연구와 탐 지 시스템 개발이 필요하다. 본 논문에서는 기계학습 분류기 중 문서 분류, 트래픽 분류에 많이 사용되는 선형 SVM(Support Vector Machine) 분류기를 적용 한 악성코드 탐지 시스템을 제안한다. 제안한 시스템 의 악성코드 분석 성능을 보이고, 성능 향상을 위한 feature 선정에 대해서 설명하고 feature 선정 결과 향 상된 성능 결과를 보인다. 그림 1. 2013년 월 별 모바일 악성코드 접수량 Fig. 1. Monthly receipt rate of mobile malware in 2013