正解率99.8%!Googleドキュメントの音声入力がマジで凄い

公開日: : 最終更新日:2017/10/30 google , ,


LINE facebook twitter URLコピー
B! pocket note 楽天


RSS購読のURLが変わりました。
新しいFEED購読方法を見る

Googleの音声入力を比較

GoogleがGoogleドキュメントに音声入力を実装したとのことで、早速試してみました。OKグーグルがここまで凄いとは・・・。ここまで精度が良くなって、かつ新しいアプローチだとは思いませんでした。

こんにちは、カグア!です。音声入力は昔からあり、わたしもいろいろと試したり比較したりしてましたが、これはまた別な意味で凄かったです。

実際に、名作を朗読して音声入力の正解率を試してみました。

追記:2016年1月30日 公式情報を追加しました。

関連記事
>>やりたいことが見つかる5サイトと見つからないときの最後の方法
>>捨てるコツと考え方「迷いがちな6品」をバッサリ捨てる技術
>>独立しようかモヤモヤしている人へ
>>グーグルホームおすすめ便利な使い方5操作とカスタマイズ設定

Googleの音声入力とは

Googleドキュメントの音声入力は、Googleがアメリカ時間9月2日に発表した新機能です。

>>Googleドキュメント、音声入力やWebのコンテンツを検索・挿入できる「リサーチツール」追加 – ITmedia ニュース

アメリカでは9月が新学期ですので、それに合わせたリリースといえそうです。実際、Chromebookは教育市場で一定の成功をしているそうです。

>>Chromebook、米教育市場でiPadを初めて抜く──IDC調べ – ITmedia ニュース
>>Chromebookが米国でウケた理由とは? Acer米国市場担当者に訊く « WIRED.jp

マイク入力装置やデバイスと、Chromeさえあれば誰でも簡単に、音声入力ができます。

PC用マイク
Amazonで詳しく見る

Googleドキュメントで音声入力をする方法

Googleドライブにいき、Googleドキュメントを開きます。

ツール>音声入力 を選びます。

すると、マイクのアイコンが表示されますので、クリックするとすぐに音声入力を認識しはじめます。

トークに少し間ができますと、自動的に変換を始めます。改行、句読点などは認識しません。

動画:実際にためした

ナレーションを入れている時点で変換しているのがわかるかと思います。

パソコンは、デスクトップ型で、Windows10、Chrome、Corei5のメモリ8GB、という至ってごく普通のスペックのPCです。通信環境はADSLの8Mbpsと、高速回線というほどではない通信環境です。

それでも、この早さと精度で変換します。

変換中は::::といった不思議なマークになり、これもまた面白いビジュアルですね。すごい。

夏目漱石を音声入力してみた

音声入力してみた

それでは早速、音声入力の変換精度について試してみましょう。

夏目漱石の有名作品から選びました。冒頭の有名なくだりをそれぞれ、一定のスピードで読んでみました。

>>作家別作品リスト:夏目 漱石

以下、間違い変換箇所/文字数 です。なお、句読点は未対応のため、これは手作業で入力しました。

1.吾輩は猫である

吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。

Google音声入力
吾輩は猫である 名前はまだ無い どこで生まれたかとんと見当がつかない なんでも薄暗い所で泣いていた事だけは記憶している ここで初めて人間というものを見た

2/77!

2.坊っちゃん

親譲りの無鉄砲で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそんな無闇をしたと聞く人があるかも知れぬ。

Google音声入力
親譲りの無鉄砲で子供の時から損ばかりしている 小学校にいる時分 学校の二階から飛び降りて一週間ほど腰を抜かした事がある なぜ そんな事があるかもしれない

5/77!

3.草枕

山路を登りながら、こう考えた。智に働けば角が立つ。情に棹させば流される。意地を通せば窮屈だ。とかくに人の世は住みにくい。住みにくさが高じると、安い所へ引き越したくなる。

やまみちを登りながら、こう考えた。智に働けば角が立つ。情に棹させば流される。意地を通せば窮屈だ。とかく人の世は住みにくい。住みにくさが高じると、安いところへ引っ越したくなる。

3/77!

4.こころ

私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間を憚かる遠慮というよりも、その方が私にとって自然だからである。

Google音声入力
私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間をはばかるというよりも、その方が私にとって自然だからである。

1/77!!!

これはすごい

「こころ」にいたっては、間違い箇所1箇所です。正解率99.8%!

ほかにも、漢字が違っている、文章を変えてしまっている、というだけで、ふつうに読んでも意味が通じます。子供が小供という、昔の表記や言い回し以外は、ほぼ正解です。

いやはや、オーケイGoogle!すごいですね。

以前とは比較にならないほど

Googleドキュメント音声入力のすごいところは、しっかりと文脈が自然になるように変換するところです。

かつては、IBMのViaVoice(ビアボイス)など、いろいろな音声入力を使いました。しかし、それらとは異なる変換精度の向上にとても驚きました。

誤変換をすることはよくあることです。しかし、その前後や文脈を自動認識して、正しい日本語なかったと認識し、さらにそれを補うかのように、自然な文章に変えてくれます。これは今までの音声入力ツールにはなかったアプローチです。

文章を変えるというのはさすがにやりすぎな感もあります。いっぽうで、あまりに自然な変換精度で、それが音声入力で打たれたものとは思えないほどです。そして、上記の精度です。

変換精度はさまざまな知見からと推測

baby-921293_1280

・Google翻訳
・音声検索
・Google検索

などGoogleの大いなる資産から、文章のかかりうけや、文脈などが、機械学習されアウトプットに役立っているのだと推察できます。

「いや これ普通の文章ならもうほぼ間違いなく入力してくれるだろうな」

はい、上記文章は音声入力で、入力したものです。訂正は一切していません。マジで凄いです。

>>グーグルが脳をヒントに音声認識を向上させた方法とは « WIRED.jp

手入力と比較した

実際にどれくらい差がでるのか調べました。

・手入力 30秒
・漢字変換を駆使した手入力 20秒
・音声入力 18秒

音声入力は手直しがあるため、単純には比較できません。そうなると、漢字変換を駆使したほうが圧勝かというと、定型文以外ではあまり変わりません。

そう考えますと、音声入力は手直しが発生するけれど、あまりタイピングが早くない人を、漢字変換効率徹底駆使のレベルまで引き上げる、とも言えそうです。

使いドコロが見えてきましたね。

音声入力の関連情報リンク

Macも音声入力に対応。
>>Mac ハンドブック:音声入力 – Apple サポート

公式。
>>「OK Google」音声検索と音声操作 – ウェブ検索 ヘルプ

じつはWindowsもWindows8.1から音声認識をデフォルトでします。
>>音声認識を使用する方法 – Windows ヘルプ

書き起こしアプリもありますね。
>>音声入力 Voice – Google Play の Android アプリ

スマホでもiOSはiOS7から音声入力がありましたね。
>>音声入力機能 – 音声のテキスト変換が超高速化 – TeachMe iPhone

ソフトバンクのPepperでは音声認識を管理できます。
>>音声認識 – Pepperは人間が喋った任意の言葉を認識できるか? – Qiita

音声波形のデータを高速処理しています。
>>音声認識技術のしくみ: 音声認識のご紹介 | NEC

オープンソースのディクテーションキット。
>>大語彙連続音声認識エンジン Julius

そういえばログミーという書き起こしメディアも。ここはどうやってるのだろう。
>>ログミーとは? – ログミー

ここまでいくとリアルタイム翻訳も、もうすぐそこですね。
>>音声認識でリアルタイムに会議をテキスト化 富士通、聴覚障害者支援ツール「LiveTalk」開発 – ITmedia ニュース

Facebookも狙っています。
>>Facebook、買収した「音声認識技術」で狙うものは « WIRED.jp

まとめ

GoogleもFacebookも世界も、音声認識の精度を上げる競争はまだまだ続きそうです。

そして、その先にあるのはやはり人工知能でしょうか。サービス業もいずれ機会に仕事を奪われていくのでしょうか。
>>ガリバーがPepperを接客に活用、担当者が30分かけて引き出した情報を3~5分で収集 – 日経BigData

そうならないためにもこりゃがんばらないとですね。

この1冊でまるごとわかる! 人工知能ビジネス (日経BPムック): 日経ビッグデータ: 本

この1冊でまるごとわかる! 人工知能ビジネス (日経BPムック): 日経ビッグデータ: 本
Amazonで詳しく見る

「もう音声入力でブログ書く。」
  • このエントリーをはてなブックマークに追加
  • Pocket

Profile


Yoshihiko Yoshida
ブロガー兼ユーチューバー。個人事業主でネット業界のお仕事24年目です。40代で2児の父。「マツコの知らない世界」Googleマップ案内人TV出演。Googleストリートビュー認定フォトグラファー。教育システム情報学会会員。元立教大学非常勤講師。Googleアナリティクス公式コミュニティ・アンサリスト最高ランク「レジェンド」国内初獲得。主な著書「Googleアナリティクス基礎講座」(技術評論社)。趣味はデジカメとゲームとパン作り。>>もっと読む

Instagram

◆代表者略歴 ◆受賞歴
◆おもな著書 ◆TV出演歴
◆新聞掲載歴 ◆雑誌/連載歴
 <<お問い合わせはこちら>>

PAGE TOP ↑