Using OCR in Google Docs

Google Docs を使うと、PDF/画像ファイルからテキストを復元できる。

やりかたは簡単で

  • 「Convert text from PDF or image files to Google Docs documents.」のチェックを入れ
  • ドキュメントが書かれている言語を指定するだけ(マイナーな言語の場合、何語かわからない場合もあるけど、、、)

—–
この機能は2010年の6月に開始され2011年2月末には34カ国語に対応している。

さらには Google Documents List Data API V3.0 にも対応してる。

肝心なのは文字の認識率。
フランス語、日本語で試した限り、テキスト埋め込みのPDFはともかく、画像埋め込みのPDFや画像そのものは実用とはほど遠い認識率。ポツポツとテキストを拾えている程度。
1年後を期待したいところ。

Background
重要なメールを受け取ったが、フォーマットはHTMLメールであり、先頭2行のテキスト文を除くと画像1枚のなかに主要情報が外国語で詰め込まれていた。
仕方なしに画像からOCRで文字を掘り起し翻訳しようとするも失敗。仕方なしに目視でカタカタ文字入力し、翻訳をかけて対応。

先頭1行目には「メールを見れなかったら、このリンクをクリックしてください」のようなことが書かれていた。クリックすれば一般人向けに英語ページでも用意されているのかと淡い期待を抱いたが、リンク先はHTMLに画像1枚のページで、HTMLメールを読めない人向けのページだった。

Tagged with: ,
Posted in tip

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Archives
  • RT @__apf__: How to write a research paper: a guide for software engineers & practitioners. docs.google.com/presentation/d… /cc @inwyrd 1 week ago
  • RT @HayatoChiba: 昔、自然と対話しながら数学に打ち込んだら何かを悟れるのではと思いたち、専門書1つだけ持ってパワースポットで名高い奈良の山奥に1週間籠ったことがある。しかし泊まった民宿にドカベンが全巻揃っていたため、水島新司と対話しただけで1週間過ぎた。 それ… 3 weeks ago
  • RT @googlecloud: Ever wonder what underwater fiber optic internet cables look like? Look no further than this deep dive w/ @NatAndLo: https… 3 weeks ago
  • @ijin UTC+01:00 な時間帯で生活しています、、、 6 months ago
  • RT @mattcutts: Google's world-class Site Reliability Engineering team wrote a new book: amazon.com/Site-Reliabili… It's about managing produc… 9 months ago
%d bloggers like this: