プログラマでありたい

おっさんになっても、プログラマでありつづけたい

読取革命が凄いっす!!OCRの可能性

 先日プリンタを買い替えてCanon PIXUS インクジェット複合機 MP640を購入しました。無線LANに標準で対応しているので、わざわざ線をつながなくても良いのでなかなか楽で良いです。また給紙がスムーズであったり印刷も速いので結構気に入っています。でも、それ以上に衝撃的だったのが、OCR機能。Optical Character Recognition、光学文字認識です。所謂画像から文字を認識する機能です。私はOCRって実用では使えないよなぁと思っていたのですが、思っていた以上に認識してくれます。これは使えます。
 ちなみにMP640には読取革命が付いています。その力をちょっと見て下さい。



この画像に対しての認識結果は次の通りです。

2010/03/18
a!!!190n.coJp°
納品書兼領収書
ご注文日2010/03/18
ご注文番号
一一
納品書番号
  発行日2010/03/18



上記料金を領収いたしました。
商品の保証書について

エレクトロニクス
エレクトロニクス
小計
配送料
合計
¥7,980
¥570
お支払い方法:クレジットカードvisa
お支払い残高
Amazon.com lnt'I Sales, lnc.
1200 12th Avenue South
Seattle,WA98144USA
返品・返金/交換について
商品の返品、または交換方法は、
備考欄 (返品理由など)
お客様のご注文に関する情報は、「アカウントサービス」でご確認ください。
¥1.070
¥7,980
¥570
¥12,671
   ¥0
¥12,671
¥12,671
-
 ¥0
I EPSON IC4CL32 (インク4色セット)(**D-4**)        エレクトロニクス    ¥3,051    ¥3,051
   Unknown,B00065SR5Y,4547426670074
数量 商品名                            種類            単価     金額

 どうです凄いでしょう!!文字として認識した部分については、殆ど間違いなく認識しています。
(「amazon.co.jp」を「a!!!190n.coJp°」と認識しているのはご愛嬌ですw)
さて、このOCRで認識した文字情報の利用方法ですが、ずばりインデックス用にすべきでしょう。
最近、手持ちの紙媒体を電子化しています。基本的には、保存場所や日付、タグ情報で分類できます。
でもシステム屋としては、全文検索もしたいという欲望もあります。
 そこで来るのがこの読取革命なんです。画像・PDFファイルに対してこのテキスト情報をインデックスとしてセットしておけば、後で使えるようになることは間違いないと思います。調べものしていて、本の全文検索したいと思ったことあるでしょ?極端な話、スキャンしてからOCRかけて使うってのも一つの手かもしれません。
 具体的なスキームについては、もうちょっと考えてみたいと思います。
バッチとかで自動化できたら良いですね。


 後は私の汚い字を認識してくれるかですねw
紙とペンを用意してどうぞ。図で考えるとすべてまとまる


2010/04/05追記
無料のOCRサービスもあるようですね。凄いっす
画像ファイルをメールで送るだけでOCRで読み取ってくれる「n1ne@freeOCR」 | Blog.IKUBON.com

Canon PIXUS インクジェット複合機 MP640
キヤノン (2009-09-17)
売り上げランキング: 3
おすすめ度の平均: 4.5
3 EPSON EP801Aとの比較
4 MP640
5 性能と値段に満足
4 canon一筋です。
5 なかなか良いです

読取革命Ver.14 製品版
読取革命Ver.14 製品版
posted with amazlet at 10.03.31
松下電器産業 (2010-02-12)
売り上げランキング: 555