本文へ移動

更新履歴

  • 2023/8/10 ver1.0.0をリリース。

概要

Hi-Fi-CAPTAIN (High-fidelity and high-capacity conversational speech synthesis corpus developed by NICT)は、音声合成研究をさらに促進させるためにNICTが作成し、アメリカ英語および日本語のプロナレーター男女1名ずつ間でそれぞれ12,988文(約14時間)および18,855文(約22時間)のパラレルデータで構成され、対話調にて収録されたコーパスである。また、アメリカ英語のみTIMITコーパスを朗読調で読み上げた音声も含んでいる。音声は防音室にて収録され、フォーマットは、サンプリング周波数48 kHz、24ビットリニアPCMのwavファイルである。

また、本コーパスを用いたEnd-to-endテキスト音声合成JETS (D. Lim et al., Interspeech 2022)ESPnetレシピも公開している。

ダウンロード

Hi-Fi-CAPTAIN アメリカ英語 女性 (7.07 GB)
合計14,000文[15.1時間]:(パラレル12,988文[13.8時間],ノンパラレル1,012文[1.3時間])


Hi-Fi-CAPTAIN アメリカ英語 男性 (6.91 GB)
合計14,000文[15.0時間]:(パラレル12,988文[14.0時間],ノンパラレル1,012文[1.0時間])


Hi-Fi-CAPTAIN 日本語 女性 (10.94 GB)
合計19,056文[23.3時間]:(パラレル18,855文[23.0時間],ノンパラレル201文[0.3時間])


Hi-Fi-CAPTAIN 日本語 男性 (10.46 GB)
合計19,058文[22.3時間]:(パラレル18,855文[22.0時間],ノンパラレル203文[0.3時間])


ESPnetレシピ (JETS)

ライセンス

クリエイティブ・コモンズ表示-非営利-継承4.0国際パブリック・ライセンス」により提供します。

引用

論文等で本コーパスを利用した場合は以下を引用して下さい。

-------------------------------------------------------------------------------------------
@misc{hi-fi-captain,
  authour       =   {Takuma Okamoto and Yoshinori Shiga and Hisashi Kawai},
  title         =   {{Hi-Fi-CAPTAIN: High-fidelity and high-capacity conversational speech synthesis corpus developed by NICT}},
  howpublished  =   {https://ast-astrec.nict.go.jp/en/release/hi-fi-captain/},
  year          =   {2023},
}
-------------------------------------------------------------------------------------------