GoogleがGoogleドキュメントに音声入力を実装したとのことで、早速試してみました。OKグーグルがここまで凄いとは・・・。ここまで精度が良くなって、かつ新しいアプローチだとは思いませんでした。
こんにちは、カグア!です。音声入力は昔からあり、わたしもいろいろと試したり比較したりしてましたが、これはまた別な意味で凄かったです。
実際に、名作を朗読して音声入力の正解率を試してみました。
追記:2016年1月30日 公式情報を追加しました。
関連記事
>>やりたいことが見つかる5サイトと見つからないときの最後の方法
>>捨てるコツと考え方「迷いがちな6品」をバッサリ捨てる技術
>>独立しようかモヤモヤしている人へ
>>グーグルホームおすすめ便利な使い方5操作とカスタマイズ設定
この記事の目次
Googleの音声入力とは
Googleドキュメントの音声入力は、Googleがアメリカ時間9月2日に発表した新機能です。
>>Googleドキュメント、音声入力やWebのコンテンツを検索・挿入できる「リサーチツール」追加 – ITmedia ニュース
アメリカでは9月が新学期ですので、それに合わせたリリースといえそうです。実際、Chromebookは教育市場で一定の成功をしているそうです。
>>Chromebook、米教育市場でiPadを初めて抜く──IDC調べ – ITmedia ニュース
>>Chromebookが米国でウケた理由とは? Acer米国市場担当者に訊く « WIRED.jp
マイク入力装置やデバイスと、Chromeさえあれば誰でも簡単に、音声入力ができます。
Googleドキュメントで音声入力をする方法
Googleドライブにいき、Googleドキュメントを開きます。
ツール>音声入力 を選びます。
すると、マイクのアイコンが表示されますので、クリックするとすぐに音声入力を認識しはじめます。
トークに少し間ができますと、自動的に変換を始めます。改行、句読点などは認識しません。
動画:実際にためした
https://www.youtube.com/watch?v=wNctXa0qfFw
ナレーションを入れている時点で変換しているのがわかるかと思います。
パソコンは、デスクトップ型で、Windows10、Chrome、Corei5のメモリ8GB、という至ってごく普通のスペックのPCです。通信環境はADSLの8Mbpsと、高速回線というほどではない通信環境です。
それでも、この早さと精度で変換します。
変換中は::::といった不思議なマークになり、これもまた面白いビジュアルですね。すごい。
夏目漱石を音声入力してみた
それでは早速、音声入力の変換精度について試してみましょう。
夏目漱石の有名作品から選びました。冒頭の有名なくだりをそれぞれ、一定のスピードで読んでみました。
以下、間違い変換箇所/文字数 です。なお、句読点は未対応のため、これは手作業で入力しました。
1.吾輩は猫である
吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。
Google音声入力
吾輩は猫である 名前はまだ無い どこで生まれたかとんと見当がつかない なんでも薄暗い所で泣いていた事だけは記憶している ここで初めて人間というものを見た
2/77!
2.坊っちゃん
親譲りの無鉄砲で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそんな無闇をしたと聞く人があるかも知れぬ。
Google音声入力
親譲りの無鉄砲で子供の時から損ばかりしている 小学校にいる時分 学校の二階から飛び降りて一週間ほど腰を抜かした事がある なぜ そんな事があるかもしれない
5/77!
3.草枕
山路を登りながら、こう考えた。智に働けば角が立つ。情に棹させば流される。意地を通せば窮屈だ。とかくに人の世は住みにくい。住みにくさが高じると、安い所へ引き越したくなる。
やまみちを登りながら、こう考えた。智に働けば角が立つ。情に棹させば流される。意地を通せば窮屈だ。とかく人の世は住みにくい。住みにくさが高じると、安いところへ引っ越したくなる。
3/77!
4.こころ
私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間を憚かる遠慮というよりも、その方が私にとって自然だからである。
Google音声入力
私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間をはばかるというよりも、その方が私にとって自然だからである。
1/77!!!
「こころ」にいたっては、間違い箇所1箇所です。正解率99.8%!
ほかにも、漢字が違っている、文章を変えてしまっている、というだけで、ふつうに読んでも意味が通じます。子供が小供という、昔の表記や言い回し以外は、ほぼ正解です。
いやはや、オーケイGoogle!すごいですね。
以前とは比較にならないほど
Googleドキュメント音声入力のすごいところは、しっかりと文脈が自然になるように変換するところです。
かつては、IBMのViaVoice(ビアボイス)など、いろいろな音声入力を使いました。しかし、それらとは異なる変換精度の向上にとても驚きました。
誤変換をすることはよくあることです。しかし、その前後や文脈を自動認識して、正しい日本語なかったと認識し、さらにそれを補うかのように、自然な文章に変えてくれます。これは今までの音声入力ツールにはなかったアプローチです。
文章を変えるというのはさすがにやりすぎな感もあります。いっぽうで、あまりに自然な変換精度で、それが音声入力で打たれたものとは思えないほどです。そして、上記の精度です。
変換精度はさまざまな知見からと推測
・Google翻訳
・音声検索
・Google検索
などGoogleの大いなる資産から、文章のかかりうけや、文脈などが、機械学習されアウトプットに役立っているのだと推察できます。
「いや これ普通の文章ならもうほぼ間違いなく入力してくれるだろうな」
はい、上記文章は音声入力で、入力したものです。訂正は一切していません。マジで凄いです。
>>グーグルが脳をヒントに音声認識を向上させた方法とは « WIRED.jp
手入力と比較した
https://www.youtube.com/watch?v=AhyH-XijUaE
実際にどれくらい差がでるのか調べました。
・手入力 30秒
・漢字変換を駆使した手入力 20秒
・音声入力 18秒
音声入力は手直しがあるため、単純には比較できません。そうなると、漢字変換を駆使したほうが圧勝かというと、定型文以外ではあまり変わりません。
そう考えますと、音声入力は手直しが発生するけれど、あまりタイピングが早くない人を、漢字変換効率徹底駆使のレベルまで引き上げる、とも言えそうです。
使いドコロが見えてきましたね。
音声入力の関連情報リンク
Macも音声入力に対応。
>>Mac ハンドブック:音声入力 – Apple サポート
公式。
>>「OK Google」音声検索と音声操作 – ウェブ検索 ヘルプ
じつはWindowsもWindows8.1から音声認識をデフォルトでします。
>>音声認識を使用する方法 – Windows ヘルプ
書き起こしアプリもありますね。
>>音声入力 Voice – Google Play の Android アプリ
スマホでもiOSはiOS7から音声入力がありましたね。
>>音声入力機能 – 音声のテキスト変換が超高速化 – TeachMe iPhone
ソフトバンクのPepperでは音声認識を管理できます。
>>音声認識 – Pepperは人間が喋った任意の言葉を認識できるか? – Qiita
音声波形のデータを高速処理しています。
>>音声認識技術のしくみ: 音声認識のご紹介 | NEC
オープンソースのディクテーションキット。
>>大語彙連続音声認識エンジン Julius
そういえばログミーという書き起こしメディアも。ここはどうやってるのだろう。
>>ログミーとは? – ログミー
ここまでいくとリアルタイム翻訳も、もうすぐそこですね。
>>音声認識でリアルタイムに会議をテキスト化 富士通、聴覚障害者支援ツール「LiveTalk」開発 – ITmedia ニュース
Facebookも狙っています。
>>Facebook、買収した「音声認識技術」で狙うものは « WIRED.jp
まとめ
GoogleもFacebookも世界も、音声認識の精度を上げる競争はまだまだ続きそうです。
そして、その先にあるのはやはり人工知能でしょうか。サービス業もいずれ機会に仕事を奪われていくのでしょうか。
>>ガリバーがPepperを接客に活用、担当者が30分かけて引き出した情報を3~5分で収集 – 日経BigData
そうならないためにもこりゃがんばらないとですね。
この1冊でまるごとわかる! 人工知能ビジネス (日経BPムック): 日経ビッグデータ: 本
・ ・ ・ ・ ・
>>安っ!アマゾンで半額以下になっている食品タイムセール
セール特設ページを見る
↓↓↓無料のニュースレターを配信中です