今まで何本か日本語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。
wikipediaのダウンロード&データベースにインポート
コーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いですね。併せて紹介しているxml2sqlも秀逸です。
特徴語抽出のあれこれ
あれこれと言いつつ形態素解析とYahoo APIを使った特徴語抽出のみを紹介しています。手軽に出来るのが魅力です。
ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと
Algorithm::NaiveBayesの使い方を簡単なサンプルで紹介いたしました。割と好評です。ベイジアンフィルターの人気の高さを垣間みれますね。
TermExtract Perlで出来る特徴語抽出
TermExtractという専門語抽出モジュールの紹介です。TermExtractはもっと評価されても良いモジュールだと思います。
MeCabで、キーワード抽出
万能形態素解析器MeCabを使ってキーワード抽出です。
キーワード抽出モジュール Lingua::JA::Summarize
お手軽要約です。ぜひ、ソースコードを読んでみましょう
cabochaでUTF8
Version 0.60-pre2を入れてみました。