Using OCR in Google Docs

Google Docs を使うと、PDF/画像ファイルからテキストを復元できる。

やりかたは簡単で

  • 「Convert text from PDF or image files to Google Docs documents.」のチェックを入れ
  • ドキュメントが書かれている言語を指定するだけ(マイナーな言語の場合、何語かわからない場合もあるけど、、、)

—–
この機能は2010年の6月に開始され2011年2月末には34カ国語に対応している。

さらには Google Documents List Data API V3.0 にも対応してる。

肝心なのは文字の認識率。
フランス語、日本語で試した限り、テキスト埋め込みのPDFはともかく、画像埋め込みのPDFや画像そのものは実用とはほど遠い認識率。ポツポツとテキストを拾えている程度。
1年後を期待したいところ。

Background
重要なメールを受け取ったが、フォーマットはHTMLメールであり、先頭2行のテキスト文を除くと画像1枚のなかに主要情報が外国語で詰め込まれていた。
仕方なしに画像からOCRで文字を掘り起し翻訳しようとするも失敗。仕方なしに目視でカタカタ文字入力し、翻訳をかけて対応。

先頭1行目には「メールを見れなかったら、このリンクをクリックしてください」のようなことが書かれていた。クリックすれば一般人向けに英語ページでも用意されているのかと淡い期待を抱いたが、リンク先はHTMLに画像1枚のページで、HTMLメールを読めない人向けのページだった。

Advertisements
Tagged with: ,
Posted in tip

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Archives
%d bloggers like this: