튜닙, 과기정통부 ‘2022 인공지능 학습용 데이터 구축사업’ 선정
튜닙, 과기정통부 ‘2022 인공지능 학습용 데이터 구축사업’ 선정
  • 김종영 기자
  • 승인 2022.07.04 12:53
  • 댓글 0
이 기사를 공유합니다

인공지능 자연어처리 스타트업 튜닙(대표 박규병)이 과학기술정보통신부(이하 과기정통부)가 주관하고 한국지능정보사회진흥원(이하 NIA)이 추진하는 '2022년도 인공지능 학습용 데이터 구축사업' 에 지난 7월 1일 최종 선정됐다고 4일 밝혔다.

튜닙은 올해 11월까지 '한국어 블렌더봇 데이터 구축'과 '한국어 일반상식 문장 데이터 구축' 등 2개 과제에 참여하게 된다. 해당 사업은 정부의 디지털 뉴딜 사업 중 데이터 댐 프로젝트의 일환이다.

심심이주식회사 등 5개 기관과 함께 컨소시엄을 이루어 구축하게 될 한국어 블렌더봇 데이터는 메타(Meta)가 지난 2020년 공개하여 세계적인 반향을 일으킨 대화 모델인 블렌더봇의 학습에 사용된 페르소나 대화, 지식검색 대화, 공감형 대화 등 세 개 영어 데이터셋의 한국어판에 해당한다.

블렌더봇은 정교하게 디자인된 이 세 데이터셋에 여러 첨단 모델링 기술을 더해 사람에 버금가는 대화 능력을 갖추었다는 평가를 받았다. 국내에서도 자연스러운 한국어 일상 대화 챗봇을 만들기 위해 블렌더봇 데이터가 필요하다는 문제 의식이 있어 왔는데, 이번 사업을 통해 그러한 갈증이 해소될 전망이다.

튜닙은 이 사업에서 모델 구축 부분을 담당하고 있다. 블렌더봇의 데이터를 기반으로 원 논문에서 보고된 여러 모델들을 재현하여 데이터의 유효성을 검증하는 한편, 모두가 활용할 수 있도록 결과물을 공개할 예정이다.

나라지식정보 등 7개 기관과 함께하게 된 한국어 일반상식 문장 데이터 구축 과제는 '옷이 더러워지면 세탁소에 가야 한다', '해남은 전라남도에 있다' 등 상식과 사실에 기반한 문장 데이터 100만 개를 구축하고 이를 기반으로 일반상식에 부합하는 결과를 반환하는 인공지능 모델을 만드는 사업이다. 

그동안 인공지능의 문장 생성 연구는 문법적으로 자연스러운, 즉 말이 되는 문장을 생성하는 것에 초점을 맞추어 왔다. 그러나 인공지능이 생성한 거짓 뉴스 등이 사회적 문제가 되면서 최근에는 이를 넘어 상식에 맞는 문장을 생성하기 위한 연구가 활발해지고 있다. 

튜닙은 자사의 인공지능 자연어처리 기술을 바탕으로 상식문장을 생성하고 임의의 상식문장을 평가하는 모델을 만들게 되는데, 한국어 일반상식 문장과 모델이 공개되면 관련 분야 연구에 큰 도움이 될 것이라 기대하고 있다.

튜닙 박규병 대표는 "튜닙은 다양한 페르소나 챗봇 모델과 서비스를 준비하고 있다. 마침 이 두 과제가 튜닙의 사업과 깊은 관련이 있고, 튜닙의 기술력이 큰 도움이 될 것이라는 판단이 들어 컨소시엄에 참여하게 되었는데, 다행히 좋은 결과가 나왔다”라고 말하며, ”우리의 역할인 모델 파트에 최선을 다해 우리나라 인공지능 부문의 발달에 보탬이 되겠다"고 소감을 전했다. 

튜닙은 지난 2021년 3월 설립된 자연어처리 스타트업으로, 같은 해 11월 펄어비스캐피탈, DSC인베스트먼트, 네이버 등 세 곳으로부터 31억 규모의 시드 투자를 유치하였으며, 우수기술기업 T4 인증을 받은 바 있다. 올해 하반기 여러 페르소나 챗봇 및 대화 서비스 출시를 앞두고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.