연구성과

학술발표
논문명 감정 제어 가능한 종단 간 음성합성 시스템
개최일 2021.10.15
학술회의명 2021 한글 및 한국어 정보처리 학술대회
책임교수
구분 구두발표
제1저자 전예진
교신저자 이근배
공동저자 이근배
국내/국외 국내
개최국가 KR
주관기관

본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks)으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다. 

04620 서울특별시 중구 필동로1길 30 동국대학교 Knowledge Science 연구센터(KSRC) Tel.02-2290-1441
Copyright© 2021 DONGGUK UNIVERSITY. ALL RIGHTS RESERVED.

×