2009-03-26から1日間の記事一覧

OCRの定番空目

空目というのは、Twitterで良く使われる言葉で「見間違い」のことです。 要するに、OCRが誤認識しやすいクセの話です。 0→a 0→oまたはO 0→D 0→c 1→l 1→i 5→sまたはS ,→. :→= 1005がlOoSになってたりして 苦笑い。 このパターン覚えとくと効率よく直せる気が…

PDFと、ちょう闘ってた

お隣の席のSさんに 「ヒマなときでいいから、これ、値をExcelに拾ってもらえる・・?」 と、渡された2つのPDFファイル。 海外出張で持って帰ってきたぽいファイルで 紙のプリントアウトをスキャニングした PDFです。 もちろん、文字データとしては認識され…