<< 2007/04/14 | Home | 2007/04/16 >>

スパム業者 + OCRopus の脅威

Google がサポートするオープンソースの OCR ソフト、OCRopus 速攻レビュー
Google + OCRopus がもたらすインパクト
・スパム業者 + OCRopus の脅威

OCR が賢くなったら便利になるばかりではありません。
面倒なこともあります。

・メールクローラと OCR
スパム業者のクローラはいつでも Web を徘徊していて、メールアドレスとおぼしき文字列を発見したらすぐに送信先リストに加えて広告を送ってくれます。
スパム業者にひっかからないためにメールアドレスを画像化する方法があります。
OCRopus によって将来的には Google に普通の文字情報としてインデックス化され、検索可能になってしまうかもしれません。
または、スパム業者がクロールに OCRopus を組み込むこともできますね。


というわけで、画像化されたメールアドレスをどれくらい読み取ってくれるのか簡単な実験をしてみました。

- Hand M@il
http://handmail.org/
"メールアドレス 画像" でトップにヒットするサイト。
メールアドレスを入力すると色んな装飾を施した、「人間には読めるけど機械には読みにくい」画像を作ってくれます。
とくに設定せずフォームをサブミットするだけで20種類もの画像を作ってくれます。

Hand M@il で作成した画像

さて、OCRopus にかけてみると・・・

$ ./ocropus ocr /tmp/SnapNDrag25211/handmail.jpg >handmail.html
OCRopus pre-alpha (sauvola, rast, curved, tesseract, aspell)
Revision: 76; Sun Apr 15 02:16:41 JST 2007; Darwin yusukey.local 8.9.1 Darwin Kernel Version 8.9.1: Thu Feb 22 20:55:00 PST 2007; root:xnu-792.18.15~1/RELEASE_I386 i386 i386
$ grep "foo@bar.com" handmail.html
<span class='ocr_line' title='bbox 7 2 164 28'>foo@bar.com</span>
<span class='ocr_line' title='bbox 4 31 154 60'>foo@bar.com</span>
<span class='ocr_line' title='bbox 4 120 152 147'>foo@bar.com</span>
<span class='ocr_line' title='bbox 5 181 151 207'>foo@bar.com</span>
<span class='ocr_line' title='bbox 5 211 140 239'>foo@bar`com</span>

20個中4つのメールアドレスを正確に読み取ることができました。
遊びでやっているのでどの画像が読み取られたのか/読み取られなかったのかは調べていません。
解析結果の html - handmail.html

- E-Mail Icon Generator
http://services.nexodyne.com/email/
こちらはよく見かけるカラフルなメールアドレス画像を生成してくれるサービスです。
作成したのは以下の2つの画像。



前者は "yusuke@l1`IaC.com" として認識。惜しい!
後者は全く読み取れず。
カラフルなためか、またはGとMが結構装飾された文字なためか迷ってしまうのでしょう。
解析結果の html - dotmac.html , gmail.html


・CAPTCHA と OCR
機械が読み取りにくい文字列をパスコードとして表示することで、ロボットがコメントフォームなどのサブミットを防ぐ手法があります。
大抵人間ですら読みにくい文字列が表示されるのでいきなり現れた OCRopus 如きに読み取られるとは思いませんが、試してみました。

試したのは Wikipedia の CAPTHA の項に掲載されている画像。

読みにくいけれども人間なら SMWM と書かれているのがなんとなくわかります。
OCRopus にかけてみたら "S @@8%" と認識されました。
安心なような残念なような結果。
解析結果の html - capthca.html


ちょっと遊んでみた限り、現段階では各種ロボット対策を無効化してしまうほどのインパクトは見られませんでした。
しかし、確立/統計/学習的な手法を用いたアルゴリズムでなんでも賢く自動化してしまうのが得意な Google。
従来の OCR ソフトを遙かに凌駕する精度に仕立ててくれて、そんじょそこらの CAPTCHA 画像は簡単に読み取れるようになってしまうかも。

世の中は Google の技術でもっと便利に、同時にもっと面倒になるに違いありません。
しかし、技術はイタチごっこで進歩していくという側面もあると思います。
面倒になった分は別の技術で対応すれば良いわけですね。
たとえばコメント/トラックバックスパム対策は JavaScriptを使った対策 なんかと組み合わせておくと良いかもしれません。

スパム業者の命題はいかに安いコストで多くの人に広告メールを読んでもらうかという点にあります。
現在有効なスパム対策は、技術の進歩によって非常に安いコストで無力化されてしまう可能性があります。

OCRopus 0.1.0 リリース
Google + OCRopus がもたらすインパクト
Google がサポートするオープンソースの OCR ソフト、OCRopus 速攻レビュー

このエントリーをはてなブックマークに追加   

Google + OCRopus がもたらすインパクト

Google がサポートするオープンソースの OCR ソフト、OCRopus 速攻レビュー
・Google + OCRopus がもたらすインパクト
スパム業者 + OCRopus の脅威

Google が支援するという OCRopus。
従来からある OCR ソフトと比べてどの程度精度が高いのか/低いのかわかりませんが、Web 世界にはどのようなインパクトをもたらすのでしょうか?

直接的な目的は従来の文字情報のインデックスのみならず、画像や映像に埋め込まれた文字列のインデックス生成にあるのではないかと思います。
既に Google ではイメージの検索がありますが、これは恐らく画像の title や alt 属性、前後の文字列といった情報を元にインデックスを作っているもので画像そのものに埋め込まれた文字情報を認識しているわけでは(たぶん)ありません。
Google のパーサに OCRopus が組み込まれれば画像に埋め込まれた文字列もインデックス化され、イメージ検索の精度向上や、装飾のために画像化されている文字列も html 内のテキストと同じく(またはより高いウェイトで)インデックス化される可能性があります。
SEO の基本として、「画像には必ず alt 属性を付けましょう!」というのがありますが、そういった工夫をしなくてもしっかりとそのページのキーワードがなんなのか理解してくれるようになるかもしれません。
人間がロボットに合わせるのではなく、ロボットが人間に合わせるというのは素晴らしいことですね。
ロードマップには Google Desktop に組み込む計画も明記されています。
あとは YouTube 内の字幕や映っている物体の商品名が検索可能になったり、Google Book Search プロジェクトの効率化といった面でも役立ちそうですね。

OCRopus 0.1.0 リリース
スパム業者 + OCRopus の脅威
Google がサポートするオープンソースの OCR ソフト、OCRopus 速攻レビュー

このエントリーをはてなブックマークに追加