
MENUCLOSE
SPREDS2: SPeech Recognition Evaluation Data Set 2 (ver2.1)
更新履歴
- 2020/1/10 ver.1.2に更新。ver1.1よりも書き起こし精度を改善しました。
- 2020/12/22 ver.2.0に更新。ブラジルポルトガル語(br)を追加しました。
- 2021/1/12 ver.2.0のフランス語に不備があり、これを修正しました。
- 2021/4/28 ver.2.1に更新。ロシア語(ru)を追加しました。
概要
本データセットは、NICTが「修正BSDライセンス」にて提供する多言語音声認識のための評価データです。ドメインや人数、収録環境等、ほぼ同条件で収録された音声とその書き起こしからなります。書き起こしは特にタグを加えていない、素起こしです。詳細は、各言語のディレクトリ以下の00README.txtをご覧ください。
12言語セット
ディレクトリについて
xz形式で圧縮しています。以下はそれぞれを解凍後のディレクトリ構造です。
-------------------------------------------------------------------------------------------
$ver =[version number]
$lang={ja,en,zh,ko,th,vi,id,my,es,fr,br,ru}
>>>12言語セット
$ver/
$lang/
LABEL/
SPREDS2.$lang.$ver.label
SPREDS2.$lang.$ver.info
WAVE/
*.wav
00README.txt
doc/
DialectCode_v1.1.1.xlsx
-------------------------------------------------------------------------------------------