テキストマイニングで「坊っちゃん」の感情の起伏がわかる

公開日: : 最終更新日:2020/11/26 SimilarWeb , ,


LINE facebook twitter URLコピー
B! pocket note 楽天


テキストマイニングという分析手法はとても便利ですよね。雑多な文章から、キーワードを解析して視覚化してくれます。

ユーザーローカルからリリースされている無料のテキストマイニングツールをつかっていろいろとキーワード分析をしてみたいと思います。※本記事は2015年公開したものを現行バージョンで加筆修正したものです。

テキストマイニングとは

Bralorne Project - Former gold mine in southern British Columbia owned by Talisker Resources. Tour conducted by company in September 2020.
Photo:license by 185944776@N07

テキストマイニングとは、アンケートの自由回答などから得られた大量のテキストデータから、キーワードの係り受けや解析を行い、隠れた傾向や意味を把握しようという試みです。

鉱山から鉱脈を採掘するという意味のマイニングから、由来しています。

PCを使えば大量データを処理できるようになりましたが、算出や数字化ができない定性データでは、これまでは意味の把握が結局人間に頼ることになるという課題が指摘されていました。

それが、テキスト解析技術の向上により、より効率的に把握できるようになったといえます。具体的には、以下のようなビジュアルなどで把握することが多く、広い分野で利用が進んでいます。

テキストマイニング入門: ExcelとKH Coderでわかるデータ分析 | 末吉美喜

テキストマイニング入門: ExcelとKH Coderでわかるデータ分析
Amazonで詳しく見る

楽天で詳しく見る

Yahoo!ショッピングで詳しく見る

テキストマイニングしてみる

解析したいテキストを入力する

大量のテキストが含まれるテキストファイルを用意します。文字だけのテキストファイルにして保存します。文字コードはS-JISでもUTF-8でも可です。

ユーザーローカルからリリースされていますテキストマイニングツールを使ってみます。無料で使えます。

>>テキストマイニング ファイルアップロード
サイトで詳しく見る

使い方は簡単。上記にアクセスしキーワードを含むテキストファイルをアップロードするだけです。もちろん、テキストをコピー&貼り付けでもできます。

また、新バージョンも公開されています。こちらはさらにAIを強調した感じになっています。解析結果は異なりますので、両方試してみるのがおすすめです。

>>AIテキストマイニング by ユーザーローカル
サイトで詳しく見る

ユーザーローカルさんは、他にも未来予測シミュレーターなど、多くのテクノロジーデモを提供してくれています。ぜひ他のツールもいろいろと試してみてください。
未来予測

テキストマイニングの結果

それでは、キーワード解析の結果を見ていきましょう。まずは現行バージョンで試します。電子書籍にまつわるわたしのブログからテキストを持ってきました。

無料ツールとはいえ、さくっとここまで簡単にできますのは驚きです。

キーワード単位での集計

このように単語単位で集計をしてくれます。また、名詞だけでなく動詞や形容詞でも集計してくれます。
どーん

共起ネットワーク

文脈を解析して、どんなキーワードがつながりが強いのかという、共起語のネットワークをビジュアル化してくれます。
共起語

キーワードをドラッグしますと、ビヨンビヨンとゴムのように滑らかに動いて詳細を確認できます。

キーワードクラウド

これはGoogleアナリティクスでもありますね。オーガニック検索の表の右上のくもっぽいマークです。出現頻度によって大きさやカラーを変えて表示してくれます。
クラウド

キーワードの全体俯瞰が、簡単にできて便利です。

かつて自作でキーワード集計ツールを作ったこともありますが、ここまで簡単だと感動しますね。利用上限があるとのことですが、簡易的な解析でしたら十分だと思います。マンネリ化した分析レポートに、ちょっと変化を加えるのに使えるかもです。

「坊っちゃん」をキーワード解析してみる

さて、それではテキストマイニングを使って夏目漱石の名作「坊っちゃん」をキーワード解析してみましょう。ユーザー登録をしますと、解析できる文字数が増えます。

>>夏目漱石 坊っちゃん(青空文庫)
サイトで詳しく見る

ちなみに、ふりがな(ルビ)があるので除去にこちらのサイトをつかっています。感謝。

>>青空文庫 ルビ削除ツールα版
サイトで詳しく見る

早速テキストマイニングしてみます。小説を1冊マイニングしても、一瞬で結果がでます。すごいですね。つぎのようなテキスト解析をしてくれます。
坊っちゃんテキストマイニング

  • ワードクラウド
  • 単語出現頻度
  • 共起キーワード
  • 2次元マップ
  • 係り受け解析
  • 階層的クラスタリング

それではさっそく、新バージョンのほうで「坊っちゃん」をテキストマイニングしてみます。

坊っちゃんの快活ぶりが出てる

坊っちゃんが、誰かに「云う」という所作が多いことがわかります。スコア順と出現頻度順で表示を切り替えられます。
坊っちゃんをテキストマイニング

感情分析AIで調べてみますと、かなり怒っていることがわかります。たしかに坊っちゃんのイメージです。
感情分析AI

さらに物語が進むにつれてのネガポジの感情の起伏もグラフ化されます。すごいですね。後半のポジへの変容からのネガへのクライマックスは、ほんとすごいですね。
ネガポジ分析

感情は喜びや怒りなどさらに詳細がわかります。物語全般に、好きや喜びといったポジティブが、あるためか憎めない感じなのですかね。
物語

「吾輩は猫である」と比較してみた

比較もできます。同じ夏目漱石の作品で比較してみました。「吾輩は猫である」とはやっぱり全然異なりますね。
吾輩は猫である

2015年版では「って」「った」「おれ」が突出

ちなみに、2015年の結果は以下でした。キーワードが出るどころか、「って」「った」「おれ」が目立つ結果に。
坊っちゃん1

ただ、これって、「った」というところが、「あ~独特のリズムはこのためねぇ」と理解でき、何とも「坊っちゃん」らしいと思いました。こちらのアルゴリズムもいい味でてますけどね。このバージョンも実装してほしい。

>>坊つちやん – Wikipedia

井上ひさしは、『坊っちゃん』の映像化が、ことごとく失敗に終わっているとする個人的見解を述べ、その理由として、『坊っちゃん』が、徹頭徹尾、文章の面白さにより築かれた物語であると主張している。

「坊っちゃん」といえば、内容もさることながら、その文章のテンポも軽快で、殴り合いの喧嘩でさえ「ぽかぽか」と温かみさえ感じてしまうほどの表現が有名ですよね。

上記のように、その明るい軽妙なイメージやは映像化がしにくいとさえ有名作家に言わしめたほど。で、そのテンポの良さが「って」や「った」なのかなあと感じました。
って

Pythonによるテキストマイニング入門 | 長承, 山内

Pythonによるテキストマイニング入門
Amazonで詳しく見る

楽天で詳しく見る

Yahoo!ショッピングで詳しく見る

まとめ~テキストマイニングは面白いよ!

テキストマイニングは、自分の発言や原稿などの客観視にも役立ちます。ほんと便利ですよね。

  • ユーザローカルのテキストマイニングは手軽に試せる
  • 「坊っちゃん」の感情の起伏がAIで丸裸
  • ツイートなどテキスト貼り付けでも可能

テキストマイニングという手法をつかって、サイトのキーワード解析や、定性データ、今回は夏目漱石の文学を使って分析してみましたが、いろいろと使えそうです。

「坊っちゃん好き。」
  • このエントリーをはてなブックマークに追加
  • Pocket
PAGE TOP ↑