プログラマでありたい

おっさんになっても、プログラマでありつづけたい

naoyaさんのブックマークでみる、日本語タグの問題点

 別にはてブに限った話ではないですが、
日本語のタグだと、並び順がぐちゃぐちゃになるので見つけ辛いんだよぉ!!
漢字を文字コード順でソートするから、予測不能です。mecabやcabochaか何かを使って、読み仮名を付けてその順でソートしてくれないかなぁ。たぶん精度80%くらいでも有難いと思います。

Amazon
business
EBS
〜 略 〜
Trac
まとめサイト
ニュース
ネタ
リコメンデーション
〜 略 〜
雑感
$ cabocha -f1 -n1 e.txt
* 0 -1O 1/1 0.00000000
まとめ  マトメ  まとめ  名詞-一般                       O
サイト  サイト  サイト  名詞-一般                       O

* 0 -1O 0/0 0.00000000
ニュース        ニュース        ニュース        名詞-一般                       O

* 0 -1O 0/0 0.00000000
ネタ    ネタ    ネタ    名詞-一般                       O


ちなみにid:naoyaさんの解決策。タグは全部英語。
http://b.hatena.ne.jp/naoya/

2ch(48)
2chdlife(1)
37signals(11)
3ware(3)
941(3)
ac(1)
acme(2)
〜 略 〜
yaruo(4)
yohei(1)
yossy(1)
youtube(57)