広告の掲載について

当ブログは、商品やサービスの紹介にアフィリエイト広告を利用しており、収益を得ています。
ただし、読者の皆様にとって有益な情報提供を第一に考えております。

広告 Python プログラミング

Google TTS日本語 全17ボイス聴き比べ【サンプル音声あり】

 

Google TTS日本語 全17ボイス聴き比べ【サンプル音声あり】

「Google TTSでどのボイスを使えばいいか、聴いても違いがよくわからない」

そんな悩みに応えるため、YouTube動画で紹介した全17ボイスのサンプル音声を1つずつ掲載しました。再生ボタンを押すだけで聴けるので、ボイス名を確認しながらゆっくり聴き比べできます。

こんな方におすすめ

  • YouTube動画をもう一度ゆっくり聴き直したい方
  • どのGoogle TTSボイスを使うか迷っている方
  • YouTube・Podcast・動画制作にナレーション音声を探している方

まず動画で全体をつかもう

記事の音声サンプルと合わせて、動画も参考にしてください。動画では各ボイスを連続再生で聴き比べています。


この記事でわかること

  • Google TTSの日本語ボイス4タイプの違い
  • 全17ボイスのサンプル音声(ブラウザで再生可)
  • タイプ別の料金と用途のまとめ

Google TTS日本語音声の4タイプを理解する

Google Cloud TTSの日本語ボイスは、大きく4つのタイプに分かれています。

それぞれ音質・料金・用途が異なるので、まず全体像をつかんでおきましょう。

タイプボイス数特徴料金(100万文字あたり)
Standard4種合成音声らしい発音。低コスト$4
WaveNet4種自然な抑揚。Standard比で品質向上$16
Neural23種より滑らかで感情豊か$16
Chirp3 HD6種最新世代。最も人間らしい音質$30


各タイプには月間の無料枠があります。Standard・WaveNetは100万文字/月、Neural2・Chirp3 HDは100万文字/月(Chirp3 HDは一部制限あり)。個人利用の範囲なら無料枠内に収まることがほとんどです。


タイプ別 全17ボイスの音声サンプル

すべてのサンプル音声は、同じテキストを各ボイスで読み上げたものです。再生ボタンを押してそのままブラウザで聴けます。


サンプルテキスト:「新しいプロジェクトの開始日は、来月15日を予定しております。詳細はメールにてご確認ください。」

Standard 4ボイスを聴き比べ

Standardは最も基本的なタイプです。

合成音声らしさが残りますが、価格が最も安いため、大量のテキストを変換するときやコストを抑えたい場面で活躍します。

4種のうち、AとBが女性、CとDが男性の声です。

ja-JP-Standard-A(女性)

Standard-Aはシンプルな女性ボイスです。少しロボット感が出ている気がします。

ja-JP-Standard-B(女性)

Standard-Bも女性の声です。Standard-Bよりは自然な気がします。

ja-JP-Standard-C(男性)

Standard-Cは男性ボイスです。少しかたさを感じる印象です。

ja-JP-Standard-D(男性)

Standard-DはStandard-Cの男性よりも少し低めの男性ボイスです。


WaveNet 4ボイスを聴き比べ

WaveNetはGoogleが開発したDeep Learning(深層学習)ベースの音声合成モデルです。

Standardと同じ4種(A〜D)の構成ですが、抑揚や息づかいがより自然になっています。

同じテキストを読み上げても、WaveNetのほうが「人が読んでいる」感覚が強くなります。

ja-JP-Wavenet-A(女性)

WaveNet-Aは自然な抑揚が加わり、Standardと比べると明らかに聴きやすくなっています。

ja-JP-Wavenet-B(女性)

WaveNet-BはWaveNet-Aとあまり変わらない印象です。

(私は違いがあまり分からなかったです😢

ja-JP-Wavenet-C(男性)

WaveNet-Cは男性ボイスです。

比較的若い男性のナレーションという感じで色々なシチュエーションで使えそうです。

ja-JP-Wavenet-D(男性)

WaveNet-Dも男性ボイスです。

WaveNet-Cと比べると、こちらのほうが少し落ち着いたミドルぐらいの年齢層という感じです。


Neural2 3ボイスを聴き比べ

Neural2はWaveNetをさらに進化させたモデルで、感情の自然さが上がっています。

日本語ではB・C・Dの3種のみ提供されています。

Bが女性、CとDが男性です。

サンダー
サンダー

個人的にナレーションとして使うなら、このNeural2か、最後のChirp3 HDかなと思っています。

ja-JP-Neural2-B(女性)

Neural2は女性ボイスです。

Nueral2になると、よりリアルな読み上げになってきます。

ja-JP-Neural2-C(男性)

Neural2-Cはハキハキした男性ボイスです。

WaveNetもそうでしたが、Cが若い男性、Dがミドルの男性という使い分けのようです。

ja-JP-Neural2-D(男性)

Neural2-DはCより年齢が上の男性ボイスです。

Neural2はどの音声タイプもナレーションとして使用できそうですね。


Chirp3 HD 6ボイスを聴き比べ

Chirp3 HDはGoogle TTSの最新世代です。

それまでのモデルが「文字を音に変換する」感覚だとすれば、Chirp3 HDは「人が語りかけている」レベルの自然さがあります。

Chirp3 HDには様々な音声タイプがあります。そのため、この記事では、私が聞いて気に入った音声ボイスを男性3、女性3の計6ボイスを紹介します。

なお、ボイス名は神話・天文(恒星や衛星)の固有名詞が使われており、それぞれ声の個性が大きく異なります。


Chirp3 HDはSSML(音声のポーズや速度を細かく制御するための記述形式)による細かい制御に対応していません。句読点や改行でのポーズ調整が基本になります。SSMLを多用したい場合はNeural2が向いています。

ja-JP-Chirp3-HD-Achernar(アケルナル・女性)

Achernarと書いて「アケルナル」と読むそうです。

高いトーンの女性の声です。

注意を引きたいような場面で使うのが良いかなと思います。

ja-JP-Chirp3-HD-Achird(アキルド・男性)

Archirdと書いて「アキルド」と読むそうです。

ハキハキとした男性のボイスです。

ビシッと締めたいときに使うと良さそうです。

ja-JP-Chirp3-HD-Callirrhoe(カリロエ・女性)

Callirrhoeと書いて「カリロエ」と読むそうです。

落ち着いた女性の声で様々な場面でのナレーションとして使えそうですね。

ja-JP-Chirp3-HD-Iapetus(イアペトゥス・男性)

Iapetusと書いて「イアペトゥス」と読むそうです。

どこかのナレーションで聞くようなどこか馴染みのある声で、安心して聞くことができますね。

ja-JP-Chirp3-HD-Rasalgethi(ラサルゲティ・男性)

Rasalgethiと書いて「ラサルゲティ」と読むそうです。

少し若い男性の声で、元気づけたい、活気づけたいときに使うと良さそうですね。

ja-JP-Chirp3-HD-Zephyr(ゼファー・女性)

最後のご紹介です。

Zephyrと書いて「ゼファー」と読むそうです。

ゼファーはとても落ち着いた女性の声で、どの場面でも使いやすいと思います。

※ボイスの特徴をここに記入してください。


料金・用途別おすすめボイスまとめ

全17ボイスを聴き比べたうえで、使い方別のおすすめをまとめます。

無料枠で済ませたいケース

まず試してみたい方や、音質にそこまでこだわらない用途(文字起こし確認・ラフなナレーション)はStandardで十分です。

月400万文字の無料枠があるので、個人利用なら費用はほぼかかりません。

コストと品質のバランスをとりたいケース

WaveNetかNeural2がおすすめです。

特にNeural2-B(女性)は明瞭さと自然さのバランスが良く、解説動画のナレーションとして汎用性が高いと思います。

無料枠、月100万文字を超えた際の従量課金はChirp3 HDより安く、コストと品質のバランスが良いモデルかと思います。

品質最優先のケース

Chirp3 HDがオススメです。

人間の発音に近い自然さがあるため、クオリティを重視した音声コンテンツに向いています。

ただし、SSMLによる細かい制御ができない点(ピッチや速度の変更)には注意してください

速度を変更したい、音の高さを変更したいという場合は、Neural2かWaveNetがおすすめです。


Google Cloud TTSの無料枠は月ごとにリセットされます。無料枠を超えた分だけ従量課金になるので、まずは無料枠内で試して、品質を確認してから本格利用に移行するのがおすすめです。


まとめ:Google TTS日本語 全17ボイスを3行でおさらい

  • Standard・WaveNetは低コストで使いやすく、まず試すならここから
  • Neural2はコストと品質のバランスが良く、動画ナレーションのスタンダードな選択肢
  • Chirp3 HDは最新世代で最も自然。品質最優先の用途に最適

各ボイスの音声サンプルは、WordPressの音声ブロックでいつでも聴き直せます。

ボイス選びに迷ったら、この記事をブックマークしておいて、実際に聴き比べながら決めてみてください。

Google Cloud TTSをPythonやColabで実際に使う方法は、別記事で紹介予定です。







  • この記事を書いた人
SNSアイコン

サンダー

電気機器メーカーに就職し、ハードエンジニアとして勤務しています。 ブログでは電気、プログラミング、データサイエンスについて書いています。 電気×プログラミング×データサイエンスの3本柱で日本の製造業を盛り上げたいです!

-Python, プログラミング
-, , , ,