mecabでURLをTokenizeすると、個々の要素に分解されてしまいます。
$ mecab http://d.hatena.ne.jp/dkfj/20081219/1229648643 http 名詞,固有名詞,組織,*,*,*,* :// 名詞,サ変接続,*,*,*,*,* d 名詞,一般,*,*,*,*,* . 名詞,サ変接続,*,*,*,*,* hatena 名詞,一般,*,*,*,*,* . 名詞,サ変接続,*,*,*,*,* ne 名詞,一般,*,*,*,*,* . 名詞,サ変接続,*,*,*,*,* jp 名詞,一般,*,*,*,*,* / 名詞,サ変接続,*,*,*,*,* dkfj 名詞,一般,*,*,*,*,* / 名詞,サ変接続,*,*,*,*,* 20081219 名詞,数,*,*,*,*,* / 名詞,サ変接続,*,*,*,*,* 1229648643 名詞,数,*,*,*,*,* EOS
これをURLの形式で抽出したいのですが、やり方がさっぱり解りません。はるか昔にchasenかmecabを触っていた時に、configをどこか触れば上手いこと取れたと思うのですが。。。うーん。解らない。英数字の接続コストを直接いじれば良いのでしょうか?連接表?
誰か知っている人がいたら、教えて頂きたいです。