*

夏目漱石の「坊っちゃん」を無料テキストマイニングしてみた

公開日: : 最終更新日:2016/03/12 SimilarWeb ,


LINE facebook twitter g+
B! pocket Evernote 楽天


家電&カメラ タイムセール/バーゲン会場/クーポン配布はこちら。
Amazonでクーポンをもらう

【Amazonファッション】メンズ80%オフ商品を見る!
セール商品を見る

キーワード解析

Yahoo!がSSL化して1週間がたちました。わたしのところはまだYahoo!経由のキーワードが出ているのですが、みなさんのところはいかがですか?

こんにちは、カグア!です。流入キーワードが取れなくなる日を想定して、SimilarWeb PROなどでいろいろと試行錯誤しているところです。

さてそれで今回は、ちょっと異なるアプローチの試みとして、ユーザーローカルからリリースされている無料のテキストマイニングツールでキーワード分析を行ってみたいと思います。

関連記事
>>SimilarWebの使い方<2015年PRO版リファレンス>
>>SimilarWeb PROを使った売れるLINEスタンプの作り方
>>オウンドメディアの立ち上げと更新を戦略的かつ効率的に行う

テキストマイニングとは

テキストマイニングだよ

テキストマイニングとは、アンケートの自由回答などから得られた大量のテキストデータから、キーワードの係り受けや解析を行い、隠れた傾向や意味を把握しようという試みです。

鉱山から鉱脈を採掘するという意味のマイニングから、由来しています。

PCを使えば大量データを処理できるようになりましたが、算出や数字化ができない定性データでは、これまでは意味の把握が結局人間に頼ることになるという課題が指摘されていました。それが、テキスト解析技術の向上により、より効率的に把握できるようになったといえます。具体的には、以下のようなビジュアルなどで把握することが多く、広い分野で利用が進んでいます。

>>「テキストマイニング」の検索結果 – Yahoo!検索(画像)

まずはキーワードをテキストファイルへ

キーワード保存

それでは、今回はSimilarWeb PROを使って、流入キーワードをEXCEL形式でダウンロードしてみましょう。キーワード以外の数値は削除してOKです。

文字だけのテキストファイルにして保存します。文字コードはS-JISでもUTF-8でも可。

テキストマイニングしてみる

テキストマイニング

GoogleアナリティクスやSimilarWeb PROでも、キーフレーズ(ワードとワードの組み合わせ。キーワード「無料」キーフレーズ「無料 セミナー」など)は出せるのですが、キーワードを分解して集計するといった柔軟なキーワード解析は苦手です。

そこで、ユーザーローカルからリリースされていますテキストマイニングツールを使ってみます(名前ないんですかね^^;)。無料で使えます。

>>テキストマイニング 無料ツール by ユーザーローカル

使い方は簡単。上記にアクセスしキーワードを含むテキストファイルをアップロードするだけです。

キーワード解析の結果

それでは、キーワード解析の結果を見ていきましょう。

無料ツールとはいえ、さくっとここまで簡単に出来るのは便利です。アップロード後のテキスト解析結果を以下ご紹介します。

キーワード単位での集計

このように単語単位で集計をしてくれます。また、名詞だけでなく動詞や形容詞でも集計してくれます。
どーん

共起ネットワーク

文脈を解析して、どんなキーワードがつながりが強いのかという、共起語のネットワークをビジュアル化してくれます。
共起語

キーワードをドラッグしますと、ビヨンビヨンとゴムのように滑らかに動いて詳細を確認できます。

キーワードクラウド

これはGoogleアナリティクスでもありますね。オーガニック検索の表の右上のくもっぽいマークです。出現頻度によって大きさやカラーを変えて表示してくれます。
クラウド

キーワードの全体俯瞰が、簡単にできて便利です。

かつて自作でキーワード集計ツールを作ったこともありますが、ここまで簡単だと感動しますね。利用上限があるとのことですが、簡易的な解析でしたら十分だと思います。マンネリ化した分析レポートに、ちょっと変化を加えるのに使えるかもです。

「坊っちゃん」をキーワード解析してみる

さて、それではテキストマイニングを使って夏目漱石の名作「坊っちゃん」をキーワード解析してみましょう。

>>夏目漱石 坊っちゃん

「って」「った」「おれ」が突出

非常に興味深い結果がでました。キーワードが出るどころか、「って」「った」「おれ」が目立つ結果に。
坊っちゃん1

「た」ではなく「った」というところが何とも「坊っちゃん」らしい。

>>坊つちやん – Wikipedia

井上ひさしは、『坊っちゃん』の映像化が、ことごとく失敗に終わっているとする個人的見解を述べ、その理由として、『坊っちゃん』が、徹頭徹尾、文章の面白さにより築かれた物語であると主張している。

「坊っちゃん」といえば、内容もさることながら、その文章のテンポも軽快で、殴り合いの喧嘩でさえ「ぽかぽか」と温かみさえ感じてしまうほどの表現が有名ですよね。

上記のように、その明るい軽妙なイメージやは映像化がしにくいとさえ有名作家に言わしめたほど。で、そのテンポの良さが「って」や「った」なのかなあと感じました。

「って」はほとんどのキーワードに紐付いています。すげー。夏目漱石のこだわりがテキストマイニングによって、現代に浮かび上がってきたと言えそうです。
って

文章の面白さが可視化された気がする

キーワードクラウドにいたっては、この多さww。どんだけ「って」が多いのか、がわかりますね。
キーワードクラウド

夏目漱石の名作である「坊っちゃん」のあのテンポや軽快さは、この促音(そくおん)の多さ!?という仮説が浮かんだところで、「坊っちゃん」がまた読みたくなってきました。

SimilarWeb PROでキーワードを取得する方法

シミラーウェブのキーワード

さて、SimilarWeb PROを使いますと、偏りはありますが、サイトへの流入キーワードを知ることができます(前述のブックベリー)。

クリックストリームというキーワード取得方法が謎ですが、まあわたしの関連するタスクでは、それなりの精度ですので便利に使っています。自社サイトでも(not provided)が無いのが良いですね。

>><公式>シミラーウェブブログ
>><公式>SimilarWebPRO(シミラーウェブ)日本語サイト・プランと料金

まとめ~テキストマイニングは面白いよ!

テキストマイニングという手法をつかって、サイトのキーワード解析や、定性データ、今回は夏目漱石の文学を使って分析してみましたが、いろいろと使えそうです。

今後ヤフーからのキーワードがわかならくなるであろう中では、今後もいろいろと試行錯誤していきますので、良さげなトピックが出来ましたら、またシェアしますね。

ところで、



キャッチ画像的には『吾輩は猫である』じゃないの?

Rによるテキストマイニング入門: 石田 基広: 本
Rによるテキストマイニング入門: 石田 基広: 本

「坊っちゃん好き。」

関連するほかの記事を見てみよう!
このサイトのトップページへ行く

  • このエントリーをはてなブックマークに追加
  • Pocket

Profile



Yoshihiko Yoshida
フリーのマーケター。Googleアナリティクス公式コミュニティ・アンサリスト最高ランク「レジェンド」国内初獲得。アクセス解析を中心としたコンサルティングや設定、メディア運営に従事。「マツコの知らない世界」Googleマップ案内人として出演。Googleストリートビュー認定フォトグラファー。教育システム情報学会会員。元立教大学非常勤講師。主な著書「Googleアナリティクス基礎講座」(技術評論社)。趣味はデジカメとパン作り。>>もっと読む

Instagram

◆代表者略歴 ◆受賞歴
◆おもな著書 ◆TV出演歴
◆新聞掲載歴 ◆雑誌/連載歴
 <<お問い合わせはこちら>>

Facebook

このブログをRSS購読しよう!(無料)

follow us in feedly

よろしければ「いいね」して下さい!

 
PAGE TOP ↑