読者です 読者をやめる 読者になる 読者になる

プログラマでありたい

おっさんになっても、プログラマでありつづけたい

mecabで文章中のURLを抽出する

技術メモ

 mecabでURLをTokenizeすると、個々の要素に分解されてしまいます。

$ mecab
http://d.hatena.ne.jp/dkfj/20081219/1229648643
http    名詞,固有名詞,組織,*,*,*,*
://     名詞,サ変接続,*,*,*,*,*
d       名詞,一般,*,*,*,*,*
.       名詞,サ変接続,*,*,*,*,*
hatena  名詞,一般,*,*,*,*,*
.       名詞,サ変接続,*,*,*,*,*
ne      名詞,一般,*,*,*,*,*
.       名詞,サ変接続,*,*,*,*,*
jp      名詞,一般,*,*,*,*,*
/       名詞,サ変接続,*,*,*,*,*
dkfj    名詞,一般,*,*,*,*,*
/       名詞,サ変接続,*,*,*,*,*
20081219        名詞,数,*,*,*,*,*
/       名詞,サ変接続,*,*,*,*,*
1229648643      名詞,数,*,*,*,*,*
EOS

 これをURLの形式で抽出したいのですが、やり方がさっぱり解りません。はるか昔にchasenかmecabを触っていた時に、configをどこか触れば上手いこと取れたと思うのですが。。。うーん。解らない。英数字の接続コストを直接いじれば良いのでしょうか?連接表?
 誰か知っている人がいたら、教えて頂きたいです。