プログラマでありたい

おっさんになっても、プログラマでありつづけたい

livedoor clipsのタグ情報をクラスタリングしてみる

 「livedoor clipsのデータを少しだけ眺めてみた。」の続き。
データをインポートが終わったので、次はそのデータの活用をしようと思います。まずは何からかなぁと考えていたのですが、タグ同士でクラスタリング出来ないかと考えました。つまりグループ化。意味や関係の近いタグを集めることが出来れば、ブログのカテゴライズ等に使えるかと思います。
 データのファクトとしては、タグ・URL・id。たぶんタグとURLのベクターを作れば分析用データとして使えます。さらに言えばidとタグで同時に登録されたタグが解るので、より強い関係も導き出せるはずですが、ここまで分析すると大変そうなので今回は諦めます。
 集合知プログラミングの3章に様々なクラスタリングの手法とアルゴリズムのサンプルも紹介されています。が、描画の部分までコーディングをするのが大変なので、ツールを使うことにしました。


Open source Cluster 3
なかなか優れものでHierarchical(階層的クラスタリング)やk-Means(k平均法)が使えます。もしくはRでも同様のことができるのかな?続きはまた次回です。