RubyでYahoo! キーフレーズ抽出APIを使ってテキストマイニング

自然言語処理プログラム

Rubyでキーワード抽出およびTF-IDFでキーワードの重要度の重み付けが出来んかなと思ってGemを漁ってみました。残念ながら、日本語データに関しては、それらしいのは見つかりませんでした。キーワード抽出については、Mecabで形態素解析後に品詞同士のつなが…

2008-12-05

HTML::ExtractContentを使って本文抽出

Perl 自然言語処理

先日、ブログの本文抽出をしたいと思ってちょっと調べてみました。rubyベースの実装のExtractContent.rbが良さげと思い色々試してみました。実際、良かったです。ただ私の方が、あまりrubyに詳しくないことと、既にあるPerlのプログラムに組み込みたい制約…

2008-11-28

ブログの本文抽出

自然言語処理

必要に迫られて、ブログの本文抽出をしたいと思います。2年前くらいにも少し試みたことがあるのですが、ソース消失。。。アプローチとして、２つの方法があると思います。・各ブログサービス（livedoor、ameba、hatena等々）ごとの構造を解析して、それぞ…

2008-11-18

改めて、集合知プログラミングが素晴らしい

自然言語処理本

プログラマーに最適なデータマイニングの教科書『集合知プログラミング』簡潔に集合知プログラミングの魅力を伝えている素晴らしいエントリーです。序文で簡単な紹介。魅力１〜３で優れている点、その上でまとめ。最後に関連書籍を、コメント付きで紹介し…

2008-11-13

大量データの処理方法　はてなさんの場合

技術メモ自然言語処理

KOF 2008 の発表資料大量データの処理の実際の話。特に気になるのが、ドキュメントのベクトル化。確かにベクトルの方向で類似文章を見つけることは出来ると思うのですが、id:naoyaさん自身が言う通り辞書の単語数×ドキュメント数の計算をしないといけません…

2008-11-04

これはセンスが良い。Lingua::JA::TFIDF

自然言語処理

手軽にTF/IDFを計算するモジュール情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。TF/IDFアルゴリズムのくわしい解説はこことかここを見…

2008-08-12

キーワード抽出モジュール Lingua::JA::Summarize

自然言語処理プログラム

時間が空いたので、Lingua::JA::Summarizeも試してみました。0.07をCPAN経由でインストールしようとすると、途中でエラーが出ました。Class::Accessor::FastとClass::ErrorHandlerに依存するようなので、予めインストールしておきましょう。で、テストがどう…

2008-08-10

cabochaでUTF8

自然言語処理

昨日気づいたのですが、cabocha 0.60が開発中のようです。今は、pre2まで出ています。変更点は、以下の通りのようです。何が嬉しいかというと、UTF8に対応しているところ。内部的には、ほぼフルスクラッチで書き直しの力作のようです。また、chasenのサポー…

2008-08-08

工藤拓さんが語るMecabの仕組み

自然言語処理

2006年の資料ですが、工藤拓さんご自身でMecabの内部構造等を説明している資料があります。専門的な内容ですが、解りやすいです。Double Array TRIEが肝なんですね。オープンソーステクノロジー勉強会第2回 −開催のご報告− http://labs.gree.jp/Top/Study/…

2008-08-07

集合知プログラミングが凄すぎる件について

自然言語処理本

ようやく集合知プログラミングが届きました。まだ30分くらいざっと目を通しただけですが、これだけは言えます。自然言語処理をテーマとして扱う書籍の中で、実用度No.1です。文句なしにお勧めです。これで3,400円は安すぎます。倍の値段であっても買います。…

2008-08-06

MeCabで、キーワード抽出

自然言語処理

形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使え…

2008-08-06

30分で理解する自然言語処理　まとめ

自然言語処理プログラム

今まで何本か日本語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポートコーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いです…

2008-05-22

特徴語抽出のあれこれ

プログラム自然言語処理

最近の特徴語抽出の手法ってどんなんかなと思って、はてなの注目のエントリーを見てみました。タグ「特徴語抽出」を含む注目エントリー面白いものが目白押しです。特にGigazinizeというのは、秀逸です。面白いなぁ〜。 http://blog.fulltext-search.biz/a…

2008-03-05

オノマトペ

自然言語処理

皆様はオノマトペという言葉を知っていますか？ちょっと面白い語感の言葉ですが，「はらはら」や「しっかり」などのいわゆる擬音語・擬態語のことをオノマトペと呼びます．日本語はオノマトペの種類がとても多い言語なのだそうで，日本語学習者がオノマト…

2008-01-27

Amazon EC2にmecab

aws ec2 自然言語処理

Amazon EC2の使い方をようやく覚えてきたので、アプリのインストールをする事にしてみました。まずは、mecab。Fedora Coreだったらyumでしょうということで、下記のコマンドを試してみました。 # yum -y install mecab mecab-devel mecab-ipadic perl-mecab …

2007-09-02

wikipediaのダウンロード&データベースにインポート

自然言語処理

ダウンロード Wikipedia:データベースダウンロードウィキペディア日本語版: jawiki-latest-pages-meta-current.xml.bz2 xml2sqlでmysqldump形式に変換 wikipediaのコンテンツは、600MB以上ある。それなりに時間が掛かるので、落としている間にデータベース…

2006-06-16

PerlでCaboCha

プログラム自然言語処理

Gentooにcabochaをインストール。ついでに、Perlから使おうと思ってCaboCha.pmをコンパイルしようとすると #cd cabocha-0.53/perl/ #perl Makefile.PL WARNING: Setting VERSION via file 'CaboCha.pm' failed at /usr/lib/perl5/5.8.7/ExtUtils/MakeMaker.…

2006-06-15

chasen,cabochaのインストール

自然言語処理

ちょっと必要に迫られて、日本語係り受け解析器CaboChaのインストール形態素解析器は、Mecabにしようかと思ったのですが、故あってChasenを選択。 Dartsのインストール Casenに必要です。機能は、以下の通り。 Darts は, Double-Array [Aoe 1989]を構築する…

プログラマでありたい

おっさんになっても、プログラマでありつづけたい

自然言語処理

RubyでYahoo! キーフレーズ抽出APIを使ってテキストマイニング

HTML::ExtractContentを使って本文抽出

ブログの本文抽出

改めて、集合知プログラミングが素晴らしい

大量データの処理方法　はてなさんの場合

これはセンスが良い。Lingua::JA::TFIDF

キーワード抽出モジュール Lingua::JA::Summarize

cabochaでUTF8

工藤拓さんが語るMecabの仕組み

集合知プログラミングが凄すぎる件について

MeCabで、キーワード抽出

30分で理解する自然言語処理　まとめ

特徴語抽出のあれこれ

オノマトペ

Amazon EC2にmecab

wikipediaのダウンロード&データベースにインポート

PerlでCaboCha

chasen,cabochaのインストール