논문명 | 다국어 음성인식을 위한 언어별 출력 계층 구조 Wav2Vec2.0 |
---|---|
개최일 | 20211015 |
학술회의명 | 2021 한글 및 한국어 정보처리 학술대회 |
책임교수 | |
구분 | 구두발표 |
제1저자 | 이원준 |
교신저자 | 이근배 |
공동저자 | 이근배 |
국내/국외 | 국내 |
개최국가 | KR |
주관기관 | |
본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks)으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다. |