케이사인, 악성코드 분야 AI 데이터셋 4억 건 구축
케이사인, 악성코드 분야 AI 데이터셋 4억 건 구축
  • 김아라 기자
  • 승인 2022.02.11 09:40
  • 댓글 0
이 기사를 공유합니다

페타바이트 수준 데이터셋
신대균 케이사인 프로젝트 매니저
신대균 케이사인 프로젝트 매니저

[아이티비즈 김아라 기자] 정보보안 전문업체 케이사인(대표 최승락)이 자회사 위협 인텔리전스 전문기업인 샌즈랩 및 안티바이러스 전문기업인 이스트시큐리티와 4억 건의 사이버보안 AI 학습용 데이터셋 구축을 완료했다고 11일 밝혔다.

코로나19로 보안위협 패러다임이 빠르게 변화하고 있으며, 기업과 조직의 업무 환경이 비대면 방식으로 이루어지고 있다. 사이버 공격이 지능화되고, 급증하면서 보안의 중요성이 그 어느때보다 중요한 이슈로 떠오르고 있다.

한국인터넷진흥원(KISA)은 지난해에 과학기술정통부의 'K-사이버방역 추진전략'의 일환으로 '사이버보안 AI 데이터셋 구축사업'을 진행했다. 이 과제는 사이버 침해대응 분야 민관 전문가가 협력해 사이버보안 AI 데이터셋 구축의 선순환 환경을 조성하고, 국내 보안기술을 지능화해 급증하는 신.변종 보안 위협에 선제적으로 대응할 수 있는 기반을 마련하는 것을 목표로 한다.

케이사인 컨소시엄은 해당 사업에서 3억 건 이상의 정상/악성파일 및 300종 이상의 악성코드 패밀리를 분류하고, 즉시 활용할 수 있는 ‘사이버보안 인공지능(AI) 데이터셋(악성코드 분야)’ 구축했다. 악성코드 AI 특징정보 추출에 대한 전문적 노하우와 클라우드 기반의 페타급 대용량 데이터셋 이관 방법론으로 최적의 데이터셋을 구축하고, 이관 및 검증 체계를 마련하며 업계의 주목을 받았다.

케이사인 컨소시엄은 샌즈랩에서 운영하는 멀웨어즈닷컴에서 분석한 20억 건의 악성코드 분석 데이터 가운데 대표성을 띈 3억개의 악성코드를 추출하고, 악성코드 특징 정보를 바탕으로 300여 종의 패밀리로 분류했다. 

구축된 데이터셋은 총 150여종의 메타정보 및 원시데이터를 포함한다. 또한 공격그룹, 공격기법, 유포방법 등 악성코드 속성정보에 대한 고차원으로 연관관계 분석을 실시해 1억건의 악성코드 분석 데이터도 함께 마련했다. 정적/동적 분석만으로 도출할 수 없는 심층정보를 속성으로 생성해 유사도 분석을 수행하고, 클러스터링 한 결과를 기반으로 데이터셋을 구축하며 기술을 우수성을 인정받았다.

구축한 데이터셋은 다수의 기관으로부터 다양한 AI 모델을 통해 실증을 수행했다. 또한 악성코드 전문 인력과 품질 검증을 위해 각 분야 전문가 10인의 자문을 받아 데이터셋의 질적 향상을 도모했다.

이번 사업의 총괄을 맡은 신대균 케이사인 프로젝트 매니저는 “규모가 작은 중소기업의 경우, 노하우와 자원 부족으로 악성코드 관련 메타 데이터를 추출해내기 어렵다”며 “한국인터넷진흥원과 케이사인 컨소시엄의 노력으로 국내 사이버 보안산업 전반에 활용할 수 있는 악성코드 관련 핵심 데이터셋을 성공적으로 구축하게 됐다”고 말했다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.