テキストマイニングという分析手法はとても便利ですよね。雑多な文章から、キーワードを解析して視覚化してくれます。
ユーザーローカルからリリースされている無料のテキストマイニングツールをつかっていろいろとキーワード分析をしてみたいと思います。※本記事は2015年公開したものを現行バージョンで加筆修正したものです。
この記事の目次
テキストマイニングとは
Photo:license by 185944776@N07
テキストマイニングとは、アンケートの自由回答などから得られた大量のテキストデータから、キーワードの係り受けや解析を行い、隠れた傾向や意味を把握しようという試みです。
鉱山から鉱脈を採掘するという意味のマイニングから、由来しています。
PCを使えば大量データを処理できるようになりましたが、算出や数字化ができない定性データでは、これまでは意味の把握が結局人間に頼ることになるという課題が指摘されていました。
それが、テキスト解析技術の向上により、より効率的に把握できるようになったといえます。具体的には、以下のようなビジュアルなどで把握することが多く、広い分野で利用が進んでいます。
Z会小学生わくわくワーク 2021年度3年生夏休み復習編(Z会夏休みドリル、「読書感想文の書き方」付) | Z会編集部 |本 | 通販 | Amazon
テキストマイニングしてみる
大量のテキストが含まれるテキストファイルを用意します。文字だけのテキストファイルにして保存します。文字コードはS-JISでもUTF-8でも可です。
ユーザーローカルからリリースされていますテキストマイニングツールを使ってみます。無料で使えます。
>>テキストマイニング ファイルアップロード
サイトで詳しく見る
使い方は簡単。上記にアクセスしキーワードを含むテキストファイルをアップロードするだけです。もちろん、テキストをコピー&貼り付けでもできます。
また、新バージョンも公開されています。こちらはさらにAIを強調した感じになっています。解析結果は異なりますので、両方試してみるのがおすすめです。
>>AIテキストマイニング by ユーザーローカル
サイトで詳しく見る
ユーザーローカルさんは、他にも未来予測シミュレーターなど、多くのテクノロジーデモを提供してくれています。ぜひ他のツールもいろいろと試してみてください。
テキストマイニングの結果
それでは、キーワード解析の結果を見ていきましょう。まずは現行バージョンで試します。電子書籍にまつわるわたしのブログからテキストを持ってきました。
無料ツールとはいえ、さくっとここまで簡単にできますのは驚きです。
キーワード単位での集計
このように単語単位で集計をしてくれます。また、名詞だけでなく動詞や形容詞でも集計してくれます。
共起ネットワーク
文脈を解析して、どんなキーワードがつながりが強いのかという、共起語のネットワークをビジュアル化してくれます。
キーワードをドラッグしますと、ビヨンビヨンとゴムのように滑らかに動いて詳細を確認できます。
キーワードクラウド
これはGoogleアナリティクスでもありますね。オーガニック検索の表の右上のくもっぽいマークです。出現頻度によって大きさやカラーを変えて表示してくれます。
キーワードの全体俯瞰が、簡単にできて便利です。
かつて自作でキーワード集計ツールを作ったこともありますが、ここまで簡単だと感動しますね。利用上限があるとのことですが、簡易的な解析でしたら十分だと思います。マンネリ化した分析レポートに、ちょっと変化を加えるのに使えるかもです。
「坊っちゃん」をキーワード解析してみる
さて、それではテキストマイニングを使って夏目漱石の名作「坊っちゃん」をキーワード解析してみましょう。ユーザー登録をしますと、解析できる文字数が増えます。
>>夏目漱石 坊っちゃん(青空文庫)
サイトで詳しく見る
ちなみに、ふりがな(ルビ)があるので除去にこちらのサイトをつかっています。感謝。
>>青空文庫 ルビ削除ツールα版
サイトで詳しく見る
早速テキストマイニングしてみます。小説を1冊マイニングしても、一瞬で結果がでます。すごいですね。つぎのようなテキスト解析をしてくれます。
- ワードクラウド
- 単語出現頻度
- 共起キーワード
- 2次元マップ
- 係り受け解析
- 階層的クラスタリング
それではさっそく、新バージョンのほうで「坊っちゃん」をテキストマイニングしてみます。
坊っちゃんの快活ぶりが出てる
坊っちゃんが、誰かに「云う」という所作が多いことがわかります。スコア順と出現頻度順で表示を切り替えられます。
感情分析AIで調べてみますと、かなり怒っていることがわかります。たしかに坊っちゃんのイメージです。
さらに物語が進むにつれてのネガポジの感情の起伏もグラフ化されます。すごいですね。後半のポジへの変容からのネガへのクライマックスは、ほんとすごいですね。
感情は喜びや怒りなどさらに詳細がわかります。物語全般に、好きや喜びといったポジティブが、あるためか憎めない感じなのですかね。
「吾輩は猫である」と比較してみた
比較もできます。同じ夏目漱石の作品で比較してみました。「吾輩は猫である」とはやっぱり全然異なりますね。
2015年版では「って」「った」「おれ」が突出
ちなみに、2015年の結果は以下でした。キーワードが出るどころか、「って」「った」「おれ」が目立つ結果に。
ただ、これって、「った」というところが、「あ~独特のリズムはこのためねぇ」と理解でき、何とも「坊っちゃん」らしいと思いました。こちらのアルゴリズムもいい味でてますけどね。このバージョンも実装してほしい。
井上ひさしは、『坊っちゃん』の映像化が、ことごとく失敗に終わっているとする個人的見解を述べ、その理由として、『坊っちゃん』が、徹頭徹尾、文章の面白さにより築かれた物語であると主張している。
「坊っちゃん」といえば、内容もさることながら、その文章のテンポも軽快で、殴り合いの喧嘩でさえ「ぽかぽか」と温かみさえ感じてしまうほどの表現が有名ですよね。
上記のように、その明るい軽妙なイメージやは映像化がしにくいとさえ有名作家に言わしめたほど。で、そのテンポの良さが「って」や「った」なのかなあと感じました。
まとめ~テキストマイニングは面白いよ!
テキストマイニングは、自分の発言や原稿などの客観視にも役立ちます。ほんと便利ですよね。
- ユーザローカルのテキストマイニングは手軽に試せる
- 「坊っちゃん」の感情の起伏がAIで丸裸
- ツイートなどテキスト貼り付けでも可能
テキストマイニングという手法をつかって、サイトのキーワード解析や、定性データ、今回は夏目漱石の文学を使って分析してみましたが、いろいろと使えそうです。
・ ・ ・ ・ ・
>>安っ!アマゾンで半額以下になっている食品タイムセール
セール特設ページを見る
↓↓↓無料のニュースレターを配信中です