先進的音声技術研究室
MENUCLOSE
SPREDS-P1: SPeech Recognition Evaluation Data Set - Presentation type 1 (ver1.0)
更新履歴
- 2023/12/25 ver1.0をリリース
概要
本データセットは、NICTが「クリエイティブコモンズ国際規格CC BY 4.0」にて提供する講演音声を対象とした多言語音声認識のための評価データです。対象言語は、日英中韓、タイ語、ベトナム語、インドネシア語、ミャンマー語、スペイン語、フランス語、ブラジルポルトガル語、フィリピン語、クメール語、ネパール語、モンゴル語の15言語です。ドメインや人数、収録環境等、ほぼ同条件で収録された音声とその書き起こしからなります。書き起こしにはNICTで規定しているタグが含まれます。詳細は、各言語のディレクトリ以下の00README.txtおよびドキュメントをご覧ください。
15言語
ディレクトリについて
xz形式で圧縮しています。以下はそれぞれを解凍後のディレクトリ構造です。LABEL以下、WAVE以下のファイルの詳細は00README.txtをご覧ください。
------------------------------------------------------------------------------------------- $ver =[version number] $lang={01_jpn,02_eng,03_zho,04_kor,05_tha,06_vie,07_ind,08_mya,09_spa,10_fra,11_por_BRA,14_fil,15_khm,16_nep,17_mon} $ver/ 00_doc/ $lang/ unsegmented/ LABEL/ WAVE/ segmented/ LABEL/ WAVE/ -------------------------------------------------------------------------------------------