プログラマでありたい

おっさんになっても、プログラマでありつづけたい

自然言語処理

RubyでYahoo! キーフレーズ抽出APIを使ってテキストマイニング

Rubyでキーワード抽出およびTF-IDFでキーワードの重要度の重み付けが出来んかなと思ってGemを漁ってみました。残念ながら、日本語データに関しては、それらしいのは見つかりませんでした。キーワード抽出については、Mecabで形態素解析後に品詞同士のつなが…

HTML::ExtractContentを使って本文抽出

先日、ブログの本文抽出をしたいと思ってちょっと調べてみました。rubyベースの実装のExtractContent.rbが良さげと思い色々試してみました。実際、良かったです。 ただ私の方が、あまりrubyに詳しくないことと、既にあるPerlのプログラムに組み込みたい制約…

ブログの本文抽出

必要に迫られて、ブログの本文抽出をしたいと思います。2年前くらいにも少し試みたことがあるのですが、ソース消失。。。 アプローチとして、2つの方法があると思います。 ・各ブログサービス(livedoor、ameba、hatena等々)ごとの構造を解析して、それぞ…

改めて、集合知プログラミングが素晴らしい

プログラマーに最適なデータマイニングの教科書 『集合知プログラミング』 簡潔に集合知プログラミングの魅力を伝えている素晴らしいエントリーです。序文で簡単な紹介。魅力1〜3で優れている点、その上でまとめ。最後に関連書籍を、コメント付きで紹介し…

大量データの処理方法 はてなさんの場合

KOF 2008 の発表資料 大量データの処理の実際の話。特に気になるのが、ドキュメントのベクトル化。確かにベクトルの方向で類似文章を見つけることは出来ると思うのですが、id:naoyaさん自身が言う通り辞書の単語数×ドキュメント数の計算をしないといけません…

これはセンスが良い。Lingua::JA::TFIDF

手軽にTF/IDFを計算するモジュール 情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。TF/IDFアルゴリズムのくわしい解説はこことかここを見…

キーワード抽出モジュール Lingua::JA::Summarize

時間が空いたので、Lingua::JA::Summarizeも試してみました。0.07をCPAN経由でインストールしようとすると、途中でエラーが出ました。Class::Accessor::FastとClass::ErrorHandlerに依存するようなので、予めインストールしておきましょう。で、テストがどう…

cabochaでUTF8

昨日気づいたのですが、cabocha 0.60が開発中のようです。今は、pre2まで出ています。変更点は、以下の通りのようです。何が嬉しいかというと、UTF8に対応しているところ。内部的には、ほぼフルスクラッチで書き直しの力作のようです。また、chasenのサポー…

工藤拓さんが語るMecabの仕組み

2006年の資料ですが、工藤拓さんご自身でMecabの内部構造等を説明している資料があります。専門的な内容ですが、解りやすいです。Double Array TRIEが肝なんですね。 オープンソーステクノロジー勉強会 第2回 −開催のご報告− http://labs.gree.jp/Top/Study/…

集合知プログラミングが凄すぎる件について

ようやく集合知プログラミングが届きました。まだ30分くらいざっと目を通しただけですが、これだけは言えます。自然言語処理をテーマとして扱う書籍の中で、実用度No.1です。文句なしにお勧めです。これで3,400円は安すぎます。倍の値段であっても買います。…

MeCabで、キーワード抽出

形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使え…

30分で理解する自然言語処理 まとめ

今まで何本か日本語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポート コーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いです…

特徴語抽出のあれこれ

最近の特徴語抽出の手法ってどんなんかなと思って、はてなの注目のエントリーを見てみました。 タグ「特徴語抽出」を含む注目エントリー 面白いものが目白押しです。 特にGigazinizeというのは、秀逸です。面白いなぁ〜。 http://blog.fulltext-search.biz/a…

オノマトペ

皆様はオノマトペという言葉を知っていますか? ちょっと面白い語感の言葉ですが,「はらはら」や「しっかり」などのいわゆる擬音語・擬態語のことをオノマトペと呼びます. 日本語はオノマトペの種類がとても多い言語なのだそうで,日本語学習者がオノマト…

Amazon EC2にmecab

Amazon EC2の使い方をようやく覚えてきたので、アプリのインストールをする事にしてみました。まずは、mecab。Fedora Coreだったらyumでしょうということで、下記のコマンドを試してみました。 # yum -y install mecab mecab-devel mecab-ipadic perl-mecab …

wikipediaのダウンロード&データベースにインポート

ダウンロード Wikipedia:データベースダウンロード ウィキペディア日本語版: jawiki-latest-pages-meta-current.xml.bz2 xml2sqlでmysqldump形式に変換 wikipediaのコンテンツは、600MB以上ある。それなりに時間が掛かるので、落としている間にデータベース…

PerlでCaboCha

Gentooにcabochaをインストール。 ついでに、Perlから使おうと思ってCaboCha.pmをコンパイルしようとすると #cd cabocha-0.53/perl/ #perl Makefile.PL WARNING: Setting VERSION via file 'CaboCha.pm' failed at /usr/lib/perl5/5.8.7/ExtUtils/MakeMaker.…

chasen,cabochaのインストール

ちょっと必要に迫られて、日本語係り受け解析器CaboChaのインストール 形態素解析器は、Mecabにしようかと思ったのですが、故あってChasenを選択。 Dartsのインストール Casenに必要です。機能は、以下の通り。 Darts は, Double-Array [Aoe 1989]を構築する…