プログラマでありたい

おっさんになっても、プログラマでありつづけたい

データ分析

ヤフー「つぶやき感情分析」で、衆議院議員の人気度を見る

ネットを見てると、面白いサービスが出ていました。 ヤフー株式会社は12日、ソーシャルメディア上の投稿を検索できるYahoo!検索の「リアルタイム検索」において、「つぶやき感情分析」の正式版を公開した。 つぶやき感情分析は、Twitter上の投稿を分析し、検…

Apache Mahoutのリンク集

Tasteの後を継ぐオープンソースのリコメンドエンジンのMahout。Hadoopに対応していたりと中々優れものなのですが、まだまだ情報が少ないのが玉に瑕です。Mahout関係で参考になるリンクをあげておきます。(随時更新予定) プロジェクトドキュメント 公式サイ…

Mahoutのセットアップ

Mahoutを使う場合のEclipseの設定メモです。mahout-core.jarが配布されていないため、自前でビルドする必要があります。 coreプロジェクトの設定 Eclipseでプロジェクト作成 SVN->SVNからのプロジェクト http://svn.apache.org/repos/asf/lucene/mahout/ tru…

MahoutでDBをデータソースとして使用する その1

隙間の時間でお試ししているMahout。遅々として進みませんが、まぁ気長に。 今回は、データソースをファイルからデータベースに変更して動かそうとしました。Mahoutの実装を見ると、インターフェースとしてorg.apache.mahout.cf.taste.modelの下にJDBCDataMo…

Mahoutのサンプルプログラミング

ちょっと空いた時間にTasteの後を継ぐオープンソースのリコメンドエンジンのMahoutを触ってみました。まだ使いこなせていないですが、かなり面白そうなアプリです。 今回はLivedoor Clipsのデータを使って、URLに対してお勧めのタグとタグに対してお勧めのタ…

Open source Cluster 3とJava TreeViewを使ってみた

「livedoor clipsのデータを少しだけ眺めてみた。」と「livedoor clipsのタグ情報をクラスタリングしてみる」の続き。 livedoor clipsのデータを視覚化してみました。方法は、Cluster 3とJava TreeViewを使うことにしました。(両方ともここから落とせます。…

livedoor clipsのタグ情報をクラスタリングしてみる

「livedoor clipsのデータを少しだけ眺めてみた。」の続き。 データをインポートが終わったので、次はそのデータの活用をしようと思います。まずは何からかなぁと考えていたのですが、タグ同士でクラスタリング出来ないかと考えました。つまりグループ化。意…

livedoor clipsのデータを少しだけ眺めてみた。

データ貰うだけもらって、放置していたlivedoor clipsのデータを覗いてみました。 クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット) ダウンロードと一緒に取り扱い説明がついています。そのままだとtagが文字列データとし…