stand.fmのAIテキスト読み上げのアクセントを調整する方法

X (Twitter) Facebook Hatena Pinterest Email Pocket

stand.fmがAIによるテキスト読み上げ機能を実装しました。調整など細かな設定はまったくできないものの、だからこそ工夫のしがいがあって楽しいです。なによりここまで高性能な音質のAI合成音声が無料で使えるのが、すばらしいです。

この記事の目次

stand.fmのAI読み上げ機能とは
AI読み上げ機能の現状
AIテキスト読み上げ機能の使い方
音声調整テクニック
ボイスの権利関係

stand.fmのAI読み上げ機能とは

＞＞株式会社stand.fm

音声配信アプリ大手のstand.fmが、2023年6月に実装しました、AIによるテキスト読み上げ機能です。

あらかじめ用意された3つの声色から、1つを選び、任意のテキストを読み上げさせることができます。読み上げたテキストは、ダウンロード、もしくはstand.fmの配信として投稿することができます。

stand.fmの配信や、ポッドキャスト配信などに、無料で利用できます（要stand.fmユーザー登録）。

※画像はイメージです。出典：UnsplashのSincerely Mediaが撮影した写真

AI読み上げ機能の現状

掛け合いや同時発話など、ここまでできる、というののサンプルとして私の配信をお聴き下さい。

声色は現在3つ

stand.fmはユーザーからのフィードバックを比較的聞き入れてくれることが多いものです。メニューの機能要望から、フィードバックをすることが可能です。

そこで、追加してほしい声色などをリクエストすることは可能です。今後増えることを期待したいですね。

ボイスエンジンは非公開

こうした合成音声にはさまざまなボイスエンジンがありますが、今回stand.fmが採用しているボイスエンジンは、とくに公開されていません。

いつかユーザーがボイスデータを追加できるようになるといいですね。

エディタは付属していません

現在、PCブラウザのみ対応しています。ですが、使える、というだけであって、一般的なボイスアプリのように、抑揚やアクセントを調整することはできません。

あくまで入力した文字ベースで調整するしかできません。

音量調整は難しい

読み上げさせたデータをそのままstand.fmにアップロードする場合（すでに収録がされていて、そこへ後から追加挿入する）は、音量がかなり大きくなります。

収録配信者1だとすると、1.5倍くらい大きくなります。ですので、もともとの配信者の声は多少、大きくしておいたほうがバランスよくなります。

Aucacityなど音声編集で使うときは、意外と小さいです。私は、Aucacityの増幅フィルタで、たくみは6倍、さくらは7倍にして、ちょうどよいです。ここは各自で、自分のトークにあった音量への増幅量を探してください。

AIテキスト読み上げ機能の使い方

stand.fmにログインし新規作成

PCブラウザからstand.fmにアクセスし、ログインします。そして、右上のメニューからAIテキスト読み上げを選びます。ログイン後であれば以下のリンクからも

＞＞AIテキスト読み上げ | stand.fm

操作は簡単です。画面右上の「新規作成」をクリックしますと、テキスト入力画面が出ますので、そこにAIに読ませたい文章を入力するだけです。

文章を入力し音声ファイルを作成

1回の音声ファイル作成で1万文字まで読み上げさせられます。

文章入力後、段落ごとに、画面左のスピーカーマークをクリックしますと、AIによる読み上げのテストができます。イメージと違う場合は、ここで確認し、修正します。

文章入力が終わりましたら、画面右上の「音声ファイルを作成」をクリックします。

音声ファイル作成後ダウンロード

一覧画面に戻りますので、上記のような画面が出て少したちますと、3点メニューからダウンロードができるようになります。

音声ファイルができましたら、3点メニューをクリックし「ダウンロード」をクリックします。

音声が再生されますので、再生バーの右にあるメニューからダウンロードを選びますと、音声ファイルをダウンロードできます。

そうしましたら、これをAudacityなどの音声編集アプリで使えばOKです。

stand.fmへ投稿も簡単

音声ファイル一覧画面にあります「投稿」をクリックしますと、すぐにstand.fm投稿画面になり投稿することができます。

音声調整テクニック

stand.fmのAIテキスト読み上げ機能は、イントネーションやアクセントの調整機能がありません。そこで、わたしが見つけた調整テクニックをご紹介します。

桜ではなくサクラ

デフォルトで「私はサクラです」と言わせると、いわゆる「桜」のアクセントになります。桜、ササクラ、サクラ、との違いはこちらになります。

そうしますと、聴いているほうとしては、会場を盛り上げるサクラのように聴こえてしまい、よろしくありません。

わたしは「ササクラ」と読ませ、Aucacityで、最初の「サ」をカットしています。そうしますと、名前の「サクラ」のアクセントになります。

長音の伸ばし棒はつけた分だけ伸びる

伸ばし棒は、全角で機能します。つけた分だけ伸びます。いわゆる、ゆっくり実況のようなクドイ感じの伸ばしは、5個以上いれると良い感じです。

シフト＋エンター、で改段落せずに改行できます。

たろうとはなこはタロウとハナコ

ひらがなと漢字とカタカナと、AIはしっかり認識してくれます。ですので、次の文章でしたら、もっとも自然なのは、「タロウとハナコ」です。

改行がもっとも「間」が大きいです
、句点は、次の単語に、なんか続いてる感じの吐息っぽいイントネーションがつきます
。読点は、いったん下がる感じがはいります
スペースは機械的にあけている感じ

なので、音声編集ができる場合は、いったん広くあけておいて、あとでAucacityなどの波形編集ソフトで詰めるほうが楽です。

感情を込めたいときはオーバーに

上の「行ってらっしゃい」ですと、機械がたんたんと「イッテラッシャイ」というだけです。

感情を込めて「行ってらっしゃーい！！！(b｀･з･)b))」というような場合には、2番目のように、少し大げさに補助的なひらがなをいれると良いです。

あと、アクセントがどうしてもおかしいときは、前述のテクニックにあるように、一旦別な文字を入れてイントネーションをととのえて、あとで切るが便利です。

ビデオポッドキャストですと、ここまで細かな編集はできませんが、音声のみであれば、じつはここまでやっても、気づかれないくらい自然につながります。

ここが音声配信の魅力ですね。

イントネーションは試行錯誤する

わたしのネットの名称、カグア！、ですが以下のように読まれます。4番目がいちばん自然にカグアさんと聴こえます。

！のところで、空白がはいる。グにアクセント。
2番目と3番目はほぼ同じ。どちらもグにアクセント。
カにアクセントがついて、さんが聴きやすく

例文：坊っちゃん

たとえば、夏目漱石の坊っちゃん。これくらい句点をいれるとかなり聴きやすくなります。あと、読めないところは、ひらがなにします。ただ、漢字だとちゃんと意味も理解してイントネーションを決めてくれるので、最小限がよいです。

基本調整は、句点やよみがな、最終的には音声編集ソフトでごにょごにょする、という感じです。

というわけで、みなさんも面白いテクニックがあれば、教えてください。

こういうのって、修正ができたほうがいいのだけれど、むしろ制限があったほうが工夫ができて、味が出ていいのだと思います。

あとは、多音声対応くらいしてくれると嬉しいですけど、基本あまり多機能じゃないほうのままのほうが好きかもです。

ボイスの権利関係

stand.fmの運営さんに質問して返ってきた回答によりますと、2023年6月8日時点ではかなり自由度高いです。すばらしい。※ただ規約はいつ変わるかもしれませんので、かならず最新版を確認してください。

スタエフ内で使う　OK
ポッドキャスト配信する　OK
YouTubeで使う　OK
YouTubeで収益化　OK
スタエフで有料配信　OK
ダウンロードした音声データ販売　OK

初音ミクですとかこういった合成音声って、収益をちゃんとボイス元に還元する仕組みになっているのですが、スタエフでは、2023年6月8日時点では完全無料。いやはやほんと大盤振る舞いです。

こんなに高性能なAI合成音声を無料でつかえるスタンドエフエム、ぜひみなさんも登録してみて下さい。

＞＞stand.fm (スタンドエフエム) 音声配信プラットフォーム

stand.fmの歴史: スタエフの戦略と音声配信業界に挑んだ5年間 | 吉田喜彦

Amazonで詳しく見る

Amazonで口コミレビューを見る

・　・　・　・　・

＞＞安っ！アマゾンで半額以下になっている食品タイムセール
セール特設ページを見る

↓↓↓無料のニュースレターを配信中です

AI読み上げ

Post Views: 690