プログラマでありたい

おっさんになっても、プログラマでありつづけたい

Open source Cluster 3とJava TreeViewを使ってみた

 「livedoor clipsのデータを少しだけ眺めてみた。」と「livedoor clipsのタグ情報をクラスタリングしてみる」の続き。


 livedoor clipsのデータを視覚化してみました。方法は、Cluster 3とJava TreeViewを使うことにしました。(両方ともここから落とせます。)
 流れとしてはCluster 3で元データを解析して、その結果をTreeViewに食わせるという形になります。元データは、livedoor clipsのデータを元に、縦軸をタグ、横軸をURLにして、タグごとにブックマークされたURLの数のマトリックスを作ります。

URL1 URL2 URL3 ...
後で読む 0 3 2 ...
ネタ 1 15 0 ...
これは凄い 0 0 0 ...
...


 タグの種類は、11万件。ブックマーク先のURLは20万件あります。これ全部ですると大変なので、タグは、100回以上使われているもの。URLも100以上ブックマークされているものに限ってデータを作成します。この条件だとタグは、3,500程度。URLも3,000程度となります。(URLはもう少し条件を緩和しても良いかもしれませんね。)


 結果は、下記のように。ちゃんと似た意味のタグ同士でクラスタリングされました。テキストデータとして出てくるので、これをデータベースに取り込んで、何かに使う事ができそうです。


 まだ全然使いこなせていないので、マニュアルをちゃんと読んでみようと思います。