Mora-Level Prosody Prediction for Text-to-Speech
Using Japanese BERT Without Accentual Labels

Tadashi Ogura, Takuma Okamoto, Yamato Ohtani, Erica Cooper, Tomoki Toda, and Hisashi Kawai
ICASSP 2025

            Highlights
            Katakana-based TTS Model Training: Initially trains a Japanese TTS acoustic model using katakana sequence input, without relying on accentual labels.
Mora-level \(f_{\mathrm{o}}\) Extraction: Uses forced alignment to extract mora-level fundamental frequency (\(f_{\mathrm{o}}\)) values from the training data, capturing prosodic information.
BERT Fine-tuning for \(f_{\mathrm{o}}\) Prediction: Fine-tunes a pre-trained Japanese BERT model to predict mora-level \(f_{\mathrm{o}}\) values, using word sequences (including kanji) and their katakana representations as input.
Integration of Predicted \(f_{\mathrm{o}}\) in TTS: During inference, inputs the BERT-predicted mora-level \(f_{\mathrm{o}}\) along with katakana sequences into the TTS acoustic model, enabling prosodically correct synthesis.
Label-Free Prosody Prediction: Achieves high-quality prosody prediction without requiring explicit accentual labels, reducing reliance on costly manual annotations.
Competitive Performance: Demonstrates synthesis quality and accent correctness comparable to or surpassing conventional neural TTS models that use explicit accentual labels.
Potential for Scalability: Shows promise for application to larger datasets and adaptation to multi-speaker TTS systems, with possible extensions to other languages and prosodic features.

        

Speech Synthesis Comparison

Note on Text Highlighting

In the audio samples below, text highlighted in red indicates portions where the prosody (intonation, stress, or rhythm) of the synthesized speech differs from the expected natural pronunciation.

Kanji Homophones: Accent Disambiguation

Examples of words with identical pronunciation but different meanings based on kanji

Phoneme + accent: この端を持ってください。 / この箸を持ってください。

Katakana + accent: この端を持ってください。 / この箸を持ってください。

Katakana: この端を持ってください。 / この箸を持ってください。

Katakana-BERT Proposed この端を持ってください。 / この箸を持ってください。

Test set: Hi-Fi-CAPTAIN (in-domain)

Original: 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。

Phoneme + accent: 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。

Katakana + accent: 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。

Katakana: 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。

Katakana-BERT Proposed 今日からあなたにはハウスクリーニングの仕事をしてもらうことになります。

Original: 朝10時から夜9時まで営業しています。

Phoneme + accent: 朝10時から夜9時まで営業しています。

Katakana + accent: 朝10時から夜9時まで営業しています。

Katakana: 朝10時から夜9時まで営業しています。

Katakana-BERT Proposed 朝10時から夜9時まで営業しています。

Original: そこから100グラム単位で足したり引いたりできます。

Phoneme + accent: そこから100グラム単位で足したり引いたりできます。

Katakana + accent: そこから100グラム単位でで足したり引いたりできます。

Katakana: そこから100グラム単位で足したり引いたりできます。

Katakana-BERT Proposed そこから100グラム単位で足したり引いたりできます。

In this sample, the word 'ズキンズキン' (zukinzukin) is not present in the training data, which affects the Katakana-BERT model's ability to process it appropriately. This limitation may impact the accuracy of accent prediction for this particular expression.

Original: 寝ているときも、腰がズキンズキンと痛いんです。

Phoneme + accent: 寝ているときも、腰がズキンズキンと痛いんです。

Katakana + accent: 寝ているときも、腰がズキンズキンと痛いんです。

Katakana: 寝ているときも、腰がズキンズキンと痛いんです。

Katakana-BERT Proposed 寝ているときも、腰がズキンズキンと痛いんです。

Test set: JVS parallel 100 (out-domain)

Phoneme + accent: ところが、エリュシクトーンは、ニュムペーの制止も聞かずに、デーメーテールの樫を、切り倒した。

Katakana + accent: ところが、エリュシクトーンは、ニュムペーの制止も聞かずに、デーメーテールの樫を、切り倒した。

Katakana: ところが、エリュシクトーンは、ニュムペーの制止も聞かずに、デーメーテールの樫を、切り倒した。

Katakana-BERT Proposed ところが、エリュシクトーンは、ニュムペーの制止も聞かずに、デーメーテールの樫を、切り倒した。

Phoneme + accent: 自身のページで、メッセージや、公開コメントを通して、レビューを投稿したユーザーと、コミュニケーションを取ることが可能である。

Katakana + accent: 自身のページで、メッセージや、公開コメントを通して、レビューを投稿したユーザーと、コミュニケーションを取ることが可能である。

Katakana: 自身のページで、メッセージや、公開コメントを通して、レビューを投稿したユーザーと、コミュニケーションを取ることが可能である。

Katakana-BERT Proposed 自身のページで、メッセージや、公開コメントを通して、レビューを投稿したユーザーと、コミュニケーションを取ることが可能である。

Phoneme + accent: ヴェーザー自転車道や、ミューレンルートに従った、サイクリングツアーは、ペータースハーゲンを、経由する。

Katakana + accent: ヴェーザー自転車道や、ミューレンルートに従った、サイクリングツアーは、ペータースハーゲンを、経由する。

Katakana: ヴェーザー自転車道や、ミューレンルートに従った、サイクリングツアーは、ペータースハーゲンを、経由する。

Katakana-BERT Proposed ヴェーザー自転車道や、ミューレンルートに従った、サイクリングツアーは、ペータースハーゲンを、経由する。

Phoneme + accent: 国境を越えて、列車は、改良された在来線に沿って、アーヘン中央駅に向かう。

Katakana + accent: 国境を越えて、列車は、改良された在来線に沿って、アーヘン中央駅に向かう。

Katakana: 国境を越えて、列車は、改良された在来線に沿って、アーヘン中央駅に向かう。

Katakana-BERT Proposed 国境を越えて、列車は、改良された在来線に沿って、アーヘン中央駅に向かう。

Mora-Level Prosody Prediction for Text-to-Speech Using Japanese BERT Without Accentual Labels

Highlights

Speech Synthesis Comparison

Note on Text Highlighting

Kanji Homophones: Accent Disambiguation

Test set: Hi-Fi-CAPTAIN (in-domain)

Test set: JVS parallel 100 (out-domain)

Mora-Level Prosody Prediction for Text-to-Speech
Using Japanese BERT Without Accentual Labels