大量データの処理方法　はてなさんの場合

KOF 2008 の発表資料
　大量データの処理の実際の話。特に気になるのが、ドキュメントのベクトル化。確かにベクトルの方向で類似文章を見つけることは出来ると思うのですが、id:naoyaさん自身が言う通り辞書の単語数×ドキュメント数の計算をしないといけません。大量データを処理する場合、現実にはなかなか難しいと思っていました。
　その辺りは、下記のようにさらっと流されています。転置インデックスを利用と書いているので、関連するドキュメントだけ抜き出して計算ということなんでしょうか。TRIEといえばMecabで有名ですが、色々な所で使われているんですね。