Hi-Fi-CAPTAIN: High-fidelity and high-capacity conversational speech synthesis corpus developed by NICT
更新履歴
- 2023/8/10 ver1.0.0をリリース。
概要
Hi-Fi-CAPTAIN (High-fidelity and high-capacity conversational speech synthesis corpus developed by NICT)は、音声合成研究をさらに促進させるためにNICTが作成し、アメリカ英語および日本語のプロナレーター男女1名ずつ間でそれぞれ12,988文(約14時間)および18,855文(約22時間)のパラレルデータで構成され、対話調にて収録されたコーパスである。また、アメリカ英語のみTIMITコーパスを朗読調で読み上げた音声も含んでいる。音声は防音室にて収録され、フォーマットは、サンプリング周波数48 kHz、24ビットリニアPCMのwavファイルである。
また、本コーパスを用いたEnd-to-endテキスト音声合成JETS (D. Lim et al., Interspeech 2022)のESPnetレシピも公開している。ダウンロード
Hi-Fi-CAPTAIN アメリカ英語 女性 (7.07 GB)
合計14,000文[15.1時間]:(パラレル12,988文[13.8時間],ノンパラレル1,012文[1.3時間])
Hi-Fi-CAPTAIN アメリカ英語 男性 (6.91 GB)
合計14,000文[15.0時間]:(パラレル12,988文[14.0時間],ノンパラレル1,012文[1.0時間])
Hi-Fi-CAPTAIN 日本語 女性 (10.94 GB)
合計19,056文[23.3時間]:(パラレル18,855文[23.0時間],ノンパラレル201文[0.3時間])
Hi-Fi-CAPTAIN 日本語 男性 (10.46 GB)
合計19,058文[22.3時間]:(パラレル18,855文[22.0時間],ノンパラレル203文[0.3時間])
ライセンス
「クリエイティブ・コモンズ表示-非営利-継承4.0国際パブリック・ライセンス」により提供します。
引用
論文等で本コーパスを利用した場合は以下を引用して下さい。
@misc{hi-fi-captain,
authour = {Takuma Okamoto and Yoshinori Shiga and Hisashi Kawai},
title = {{Hi-Fi-CAPTAIN: High-fidelity and high-capacity conversational speech synthesis corpus developed by NICT}},
howpublished = {https://ast-astrec.nict.go.jp/en/release/hi-fi-captain/},
year = {2023},
}
-------------------------------------------------------------------------------------------