「livedoor clipsのデータを少しだけ眺めてみた。」と「livedoor clipsのタグ情報をクラスタリングしてみる」の続き。
livedoor clipsのデータを視覚化してみました。方法は、Cluster 3とJava TreeViewを使うことにしました。(両方ともここから落とせます。)
流れとしてはCluster 3で元データを解析して、その結果をTreeViewに食わせるという形になります。元データは、livedoor clipsのデータを元に、縦軸をタグ、横軸をURLにして、タグごとにブックマークされたURLの数のマトリックスを作ります。
URL1 | URL2 | URL3 | ... | |
---|---|---|---|---|
後で読む | 0 | 3 | 2 | ... |
ネタ | 1 | 15 | 0 | ... |
これは凄い | 0 | 0 | 0 | ... |
... |
タグの種類は、11万件。ブックマーク先のURLは20万件あります。これ全部ですると大変なので、タグは、100回以上使われているもの。URLも100以上ブックマークされているものに限ってデータを作成します。この条件だとタグは、3,500程度。URLも3,000程度となります。(URLはもう少し条件を緩和しても良いかもしれませんね。)
結果は、下記のように。ちゃんと似た意味のタグ同士でクラスタリングされました。テキストデータとして出てくるので、これをデータベースに取り込んで、何かに使う事ができそうです。
まだ全然使いこなせていないので、マニュアルをちゃんと読んでみようと思います。