Mora-Level Prosody Prediction for Text-to-Speech
Using Japanese BERT Without Accentual Labels

Tadashi Ogura, Takuma Okamoto, Yamato Ohtani, Erica Cooper, Tomoki Toda, and Hisashi Kawai
ICASSP 2025

TTS Model
BERT Model

Highlights

Speech Synthesis Comparison

Note on Text Highlighting

In the audio samples below, text highlighted in red indicates portions where the prosody (intonation, stress, or rhythm) of the synthesized speech differs from the expected natural pronunciation.

Kanji Homophones: Accent Disambiguation

Examples of words with identical pronunciation but different meanings based on kanji

Phoneme + accent: この端を持ってください。 / この箸を持ってください。
Katakana + accent: この端を持ってください。 / この箸を持ってください。
Katakana: このを持ってください。 / このを持ってください。
Katakana-BERT Proposed この端を持ってください。 / この箸を持ってください。

Test set: Hi-Fi-CAPTAIN (in-domain)

Original: 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。
Phoneme + accent: 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。
Katakana + accent: 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。
Katakana: 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。
Katakana-BERT Proposed 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。
Original: 朝10時から夜9時まで営業しています。
Phoneme + accent: 朝10時から夜9時まで営業しています。
Katakana + accent: 朝10時から夜9時まで営業しています。
Katakana: 朝10時から夜9時まで営業しています。
Katakana-BERT Proposed 朝10時から夜9時まで営業しています。
Original: そこから100グラム単位で足したり引いたりできます。
Phoneme + accent: そこから100グラム単位で足したり引いたりできます。
Katakana + accent: そこから100グラム単位でで足したり引いたりできます。
Katakana: そこから100グラム単位で足したり引いたりできます。
Katakana-BERT Proposed そこから100グラム単位で足したり引いたりできます。
In this sample, the word 'ズキンズキン' (zukinzukin) is not present in the training data, which affects the Katakana-BERT model's ability to process it appropriately. This limitation may impact the accuracy of accent prediction for this particular expression.
Original: 寝ているときも、腰がズキンズキンと痛いんです。
Phoneme + accent: 寝ているときも、腰がズキンズキンと痛いんです。
Katakana + accent: 寝ているときも、腰がズキンズキンと痛いんです。
Katakana: 寝ているときも、腰がズキンズキンと痛いんです。
Katakana-BERT Proposed 寝ているときも、腰がズキンズキンと痛いんです。

Test set: JVS parallel 100 (out-domain)

Phoneme + accent: ところが、エリュシクトーンは、ニュムペーの制止も聞かずに、デーメーテールの樫を、切り倒した。
Katakana + accent: ところが、エリュシクトーンは、ニュムペーの制止も聞かずに、デーメーテールの樫を、切り倒した。
Katakana: ところが、エリュシクトーンは、ニュムペーの制止も聞かずに、デーメーテールの樫を、切り倒した。
Katakana-BERT Proposed ところが、エリュシクトーンは、ニュムペーの制止も聞かずに、デーメーテールの樫を、切り倒した。
Phoneme + accent: 自身のページで、メッセージや、公開コメントを通して、レビューを投稿したユーザーと、コミュニケーションを取ることが可能である。
Katakana + accent: 自身のページで、メッセージや、公開コメントを通して、レビューを投稿したユーザーと、コミュニケーションを取ることが可能である。
Katakana: 自身のページで、メッセージや、公開コメントを通して、レビューを投稿したユーザーと、コミュニケーションを取ることが可能である。
Katakana-BERT Proposed 自身のページで、メッセージや、公開コメントを通して、レビューを投稿したユーザーと、コミュニケーションを取ることが可能である。
Phoneme + accent: ヴェーザー自転車道や、ミューレンルートに従った、サイクリングツアーは、ペータースハーゲンを、経由する。
Katakana + accent: ヴェーザー自転車道や、ミューレンルートに従った、サイクリングツアーは、ペータースハーゲンを、経由する。
Katakana: ヴェーザー自転車道や、ミューレンルートに従った、サイクリングツアーは、ペータースハーゲンを、経由する。
Katakana-BERT Proposed ヴェーザー自転車道や、ミューレンルートに従った、サイクリングツアーは、ペータースハーゲンを、経由する。
Phoneme + accent: 国境を越えて、列車は、改良された在来線に沿って、アーヘン中央駅に向かう。
Katakana + accent: 国境を越えて、列車は、改良された在来線に沿って、アーヘン中央駅に向かう。
Katakana: 国境を越えて、列車は、改良された在来線に沿って、アーヘン中央駅に向かう。
Katakana-BERT Proposed 国境を越えて、列車は、改良された在来線に沿って、アーヘン中央駅に向かう。