先進的音声技術研究室

ビジネスや国際会議における実用的な音声認識技術および
音声合成技術の研究開発を進めています。

音声マルチスポット再生技術のページはこちら

ビジネスや国際会議における実用的な音声認識技術および音声合成技術の研究開発を進めています。

当研究室では、第5期中長期計画(2021/4/1～2026/3/31)において次の3つの研究開発課題に取り組んでいます。第一に、日英中等の重点言語に関してビジネスや国際会議での講演及び議論の音声を実用的な精度で自動文字化するための音声認識技術。音声認識精度の向上においては、モデル化手法の改良と並行して音声認識モデルを学習するための大規模な音声コーパス（音声とその内容を文字起こししたテキストを大量に集積したデータ）の構築が不可欠です。第二に、翻訳結果等を円滑に伝達するための肉声レベルの音声を合成する技術及び自然性劣化を極力抑えつつ、話速等の声質を制御する技術。音声合成においてもモデル化手法の改良とモデル学習用音声コーパスの構築を並行して進めることが重要です。第三に、日常会話の音声認識及び音声合成に関して対象とする言語の拡大。現在は、特定技能制度によりわが国に在留する外国人の生活・仕事を支援することを目的として、ネパール、クメール、モンゴルの各言語をおもな対象としています。