KOF 2008 の発表資料
大量データの処理の実際の話。特に気になるのが、ドキュメントのベクトル化。確かにベクトルの方向で類似文章を見つけることは出来ると思うのですが、id:naoyaさん自身が言う通り辞書の単語数×ドキュメント数の計算をしないといけません。大量データを処理する場合、現実にはなかなか難しいと思っていました。
その辺りは、下記のようにさらっと流されています。転置インデックスを利用と書いているので、関連するドキュメントだけ抜き出して計算ということなんでしょうか。TRIEといえばMecabで有名ですが、色々な所で使われているんですね。
現実的な計算時間で計算するには
・行列がスパースであることを利用
転置インデックスを利用する
・top K が取得できれば良い
様々な手法で足切り
どちらにしろ、このようにノウハウを惜しげもなく公開して貰えることはありがたいですね。