・Google がサポートするオープンソースの OCR ソフト、OCRopus 速攻レビュー
・Google + OCRopus がもたらすインパクト
・スパム業者 + OCRopus の脅威
Google が支援するという OCRopus。
従来からある OCR ソフトと比べてどの程度精度が高いのか/低いのかわかりませんが、Web 世界にはどのようなインパクトをもたらすのでしょうか?
直接的な目的は従来の文字情報のインデックスのみならず、画像や映像に埋め込まれた文字列のインデックス生成にあるのではないかと思います。
既に Google ではイメージの検索がありますが、これは恐らく画像の title や alt 属性、前後の文字列といった情報を元にインデックスを作っているもので画像そのものに埋め込まれた文字情報を認識しているわけでは(たぶん)ありません。
Google のパーサに OCRopus が組み込まれれば画像に埋め込まれた文字列もインデックス化され、イメージ検索の精度向上や、装飾のために画像化されている文字列も html 内のテキストと同じく(またはより高いウェイトで)インデックス化される可能性があります。
SEO の基本として、「画像には必ず alt 属性を付けましょう!」というのがありますが、そういった工夫をしなくてもしっかりとそのページのキーワードがなんなのか理解してくれるようになるかもしれません。
人間がロボットに合わせるのではなく、ロボットが人間に合わせるというのは素晴らしいことですね。
ロードマップには Google Desktop に組み込む計画も明記されています。
あとは YouTube 内の字幕や映っている物体の商品名が検索可能になったり、Google Book Search プロジェクトの効率化といった面でも役立ちそうですね。
・OCRopus 0.1.0 リリース
・スパム業者 + OCRopus の脅威
・Google がサポートするオープンソースの OCR ソフト、OCRopus 速攻レビュー