다음카카오, 국내 처음으로 멀티미디어 기반 음성 합성 기술 선보여
다음카카오, 국내 처음으로 멀티미디어 기반 음성 합성 기술 선보여
  • 김문구 기자
  • 승인 2015.04.10 17:28
  • 댓글 0
이 기사를 공유합니다

JTBC 뉴스룸 ‘앵커브리핑’ 코너에서 확인가능…혁신적 시도 지속

[아이티비즈] 다음카카오(공동대표 최세훈, 이석우)가 자사의 한국어 음성 처리, 멀티미디어 검색, 대용량 데이터 처리 기술을 집약, 국내 처음으로 멀티미디어 데이터를 이용한 음성 합성기를 선보였다. 미디어다음 JTBC 뉴스룸 ‘앵커브리핑’ 코너에서 확인할 수 있다.

▲ 다음카카오 손석희 앵커브리핑

앵커브리핑에서는 JTBC 뉴스룸 앵커 손석희가 직접 작성한 댓글을 실제 목소리와 말투 그대로 반영된 생생한 음성으로 들려준다. 매번 댓글을 작성할 때마다 해당 문장을 녹음하는 것이 아니라, 작성된 댓글을 손석희 앵커의 음성으로 자동 합성하는 다음카카오의 기술이 반영된 결과다.

음성 합성이란 입력된 문자를 음성으로 변환하는 기술을 뜻한다. 통상의 음성 합성은 녹음실 면적이나 녹음 장비의 위치까지 동일한 환경에서 완벽하게 설계된 문장을 전문 성우가 하루 2~3시간씩, 적게는 수십시간에서 많게는 수백시간 녹음한 음성 데이터를 기반으로 한다.

하지만 이번 시도는 통제된 녹음 환경을 거치지 않고, 이미 온라인에 공개된 지난 1년간의 JTBC 뉴스룸 영상에서 데이터를 추출한 것이 특징이다. 손석희 앵커가 참여한 JTBC뉴스룸의 하루 평균 방송 시간을 1시간이라고 볼 때, 1년 간 약 300시간의 영상에서 여러 과정을 거쳐 확보된 최종 10시간 분량의 음성 데이터를 통해 손석희 앵커의 음색과 말투를 학습한 것이다.


다음카카오 관계자는 “다음카카오는 음성 인식 엔진 ‘뉴톤’과 음성 합성 엔진 ‘뉴톤 톡’으로 한국어 음성 처리 분야에서 선도적 위치를 확보하고 있지만, 한 발 더 나아가 대중이 좀 더 친숙하고 흥미롭게 받아들일 수 있도록 유명인의 음성 합성을 고민해왔다”며 “일정한 녹음 환경과 충분한 녹음 기간을 확보할 수 없는 것이 가장 문제였기때문에, 다음카카오의 다양한 기술개발 분야 담당자들과 적극 논의한 끝에 이미 온라인에 공개된 멀티미디어 데이터에서 양질의 음성 데이터를 확보해보기로 한 것”이라고 밝혔다.

이번 시도는 대량의 데이터를 다루는 검색부터 음성 처리까지 모든 분야에 자체 기술과 노하우를 가지고 있는 다음카카오라 가능했다. 단순히 유명인의 음성을 합성한 데 그친 것이 아니라, 잘 설계된 데이터 없이도 일정 분량의 멀티미디어 데이터만 있으면 누구의 음성으로든 합성기를 만들 수 있다는 가능성을 보여준다. 예를 들어, 세상을 떠난 연예인의 목소리로 팬들에게 메시지를 전하거나, 유명 아나운서의 목소리로 모바일 뉴스를 읽어주고, 심야 라디오 DJ 목소리로 시를 낭송해주는 등 활용 방법은 무궁무진하다.

다음카카오는 앵커브리핑을 시작으로, 특정인의 음성을 활용한 서비스들을 만들어내는 한편, 다양한 기술들을 유기적으로 통합 및 자동화하며 기술과 환경의 한계를 넘는 혁신적 시도를 지속할 계획이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.