UPDATED. 2024-04-23 15:17 (화)
[제151호] 인간을 모사하는 TTS, 맞춤형 서비스로 진화하다
상태바
[제151호] 인간을 모사하는 TTS, 맞춤형 서비스로 진화하다
  • 이소라 기자
  • 승인 2020.05.08 11:32
  • 댓글 0
이 기사를 공유합니다

성장하는 오디오북 시장, 이제는 책을 듣는다
실제 사람 목소리같은 음성 기술 구현

[소비라이프/이소라 기자] “오늘은 바람이 불어 쌀쌀하니 외투를 챙기세요” TTS 기술은 점점 더 정교해지며 우리 생활 속으로 들어와 자연스럽고 매끄러운 목소리로 말을 건네고 있다.

음성합성기술(TTS, Text-To-Speech)은 본래 문자로 정보를 전달하기 어려운 상황에서 사용자 접근성 향상을 위해 개발됐다. 텍스트를 음성으로 변환 후 인위적으로 사람의 음성을 합성, 실시간 커뮤니케이션 기술을 현실화한 대화형 인공지능 서비스가 TTS이다. 쉽게 말해 컴퓨터가 음성을 만드는 기술을 말한다.
TTS는 과거 전문 성우가 녹음한 음성을 자음, 모음으로 나눠 소리를 붙여 완성도가 떨어지는 편이었다. 다소 부족한 음성인식과 데이터 부족으로 스마트폰만큼 직관적이고 편리한 정보를 찾는 데 불편했다.

최근 AI 기술과 만난 TTS는 목소리 일부분만 확보하면 호흡, 속도, 억양을 추출해 성우 없이 자연스럽게 문장을 읽을 수 있다. IT 기업들은 더 나아가 AI가 ‘상냥한’, ‘슬픈’, ‘경쾌한’ 등 느낌과 감정까지 표현할 수 있게 준비하고 있다.

TTS와 AI가 합쳐지며 가장 급성장한 분야는 ‘오디오북’이다. 오디오북은 음성을 넣어 만든 책으로, 독자의 책 소비 형태뿐 아니라 출판업계의 홍보 트렌드 등 여러 분야에서 새로운 반향을 불러일으키고 있다.

오디오북의 최대 장점은 ‘멀티 태스킹’이 가능하다는 것이다. 운전하거나 이동을 하고, 또 다른 일을 하면서도 편안하게 오디오북을 들을 수 있다. 최근 스마트폰이나 AI 스피커폰 등의 기술이 발달하면서 오디오북을 더 편리하게 들을 수 있는 환경이 된 것도 오디오북 시장 확대에 큰 역할을 하고 있다. 가격 면에서도 종이책과 비교해 저렴한 편이다.

오디오북은 국내보다는 해외 시장이 먼저 발달했다. 미국 오디오북출판협회(APA)에 따르면 2018년 상반기 미국에서 오디오북 종이책 순수익 대비 10%를 차지했다. 또한 미국의 오디오북 시장은 매년 20%대로 확대되며 가파른 성장세를 보여주고 있다.

국내에서는 코로나19로 인해 오디오북에 대한 관심이 높아졌다. 오디오클립을 통해 심리, 명상 콘텐츠를 찾는 사용자도 많아졌기 때문이다. 시장 확대와 더불어 오디오클립 콘텐츠도 급증하는 추세다. 손서희 네이버오디오클립 홍보담당자는 “전체 클립 수가 전년 대비 500% 성장했고, 전체 채널 수는 전년 대비 250% 성장했다”고 밝혔다.

하지만 아직 국내 오디오북 시장이 크게 성장하기 위해 넘어야 할 것들이 많다. 가장 큰 걸림돌은 양질의 콘텐츠 부족이다. 최근 독자 취향에 맞는 콘텐츠가 속속 출시되고 있지만, 종이책과 비교하면 독자들이 선택할 수 있는 종류가 한정적이다. 제작비용 때문에 상당수 오디오북이 완독형이 아닌 요약형으로 출시되는 것도 문제점으로 지적된다.

개인화가 가능해진 TTS
TTS 기술이 진화함에 따라 AI 스피커 서비스도 다양해지고 있다. 유명 스타의 목소리가 AI 스피커에 탑재되거나, 개인의 필요에 따라 음성을 선택적으로 도입하면서 전보다 개인화된 AI 스피커 사용이 가능해진 것이다.

SK텔레콤은 SM엔터테인먼트와 협력해 AI 스피커 누구(NUGU)에 인기 걸그룹 레드벨벳 멤버 아이린의 목소리를 담았다. 아이린의 목소리를 통해 일정 등 다양한 알람을 제공받을 수 있다. SK텔레콤은 이 기능을 구현하기 위해 음성합성(DNN-TTS) 기술을 사용했다. AI가 아이린의 음성 데이터를 학습해 진짜 아이린 목소리처럼 소리를 낸 것이다. SK텔레콤은 내년부터 AI 스피커 누구에 아이린 외에도 SM타운 소속 가수들의 목소리가 지속적으로 탑재될 예정이라고 밝혔다.

KT는 인공지능 기술로 목소리를 구현해 주는 ‘목소리 찾기’ 프로젝트를 진행하고 있다. AI와 TTS를 활용해 구현된 목소리로 가족들에게 하고 싶은 말을 전하는 광고가 방영되고 있는데, 이 프로젝트의 일환이다. KT는 이 목소리를 일상생활에서 사용할 수 있도록 앱으로 제공할 예정이다. 목소리 찾기 프로젝트는 KT 융합기술원에서 연구한 ‘개인화 음성합성(P-TTS)’과 ‘AI 딥러닝(반복 학습)’ 기술을 이용한다. 목소리 유사도가 가장 높은 동성 가족의 음성을 데이터화하고 성별, 나이, 구강구조 등 참가자의 개인 특성을 반영해 수혜자만의 음색, 어조, 말투가 반영된 목소리를 생성하는 방식이다.

KT는 영어 개인화 음성합성(English P-TTS) 기술 상용화도 준비 중이다. 이는 한 문장만 녹음하면 AI가 이를 학습해 유창하게 영어 동화를 구현할 수 있도록 하는 기술이다. 지난 5월에는 300문장을 24시간 동안 녹음해 목소리를 학습시켰지만, 현재는 1문장을 1분 안에 녹음해 학습할 수 있다. 6개월 안에 AI를 활용해 동화를 읽어줄 수 있는 서비스를 상용화할 예정이다. 향후 이 기술은 실시간 통역 대화, 감성 AI 친구 등의 서비스로 확장될 수 있다.

업계에서는 TTS 기반 기술 진화로 AI 스피커가 ‘맞춤형 서비스’로 진화할 수 있을 것으로 기대하고 있다. 딥러닝을 통해 개인 취향에 맞춘 음성 서비스 이용이 가능할 것으로 보는 것이다. 업계 관계자는 “TTS 기술은 단시간 학습이 가능해지면서 정교해지고 있다. 수준으로 정교화되고 있다”라며 “이 기능이 고도화되면 맞춤형 음성 서비스를 선택적으로 받을 수 있다”라고 설명했다.

맞춤 서비스로 진화하면서 시장 확대도 전망된다. 올해로 국내 출시 3년째인 AI 스피커의 보급 대수는 지난 연말에 약 800만 대에 이른 것으로 관측됐다.
궁극적으로 음성인식을 적용한 AI 스피커 기술은 검색 서비스에 있어 텍스트 중심의 검색에서 음성인식, 이미지 인식, 동영상 인식 등 다양한 검색 분야로 영역이 확대되고 있다는 점을 방증한다. 구글은 지난 2016년 모바일 검색의 20%가 음성 검색이라고 밝혔으며, 2020년에는 전체 검색의 약 50%가 음성으로 이뤄질 것으로 전망한 바 있다. 
 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.