PDFと、ちょう闘ってた

お隣の席のSさんに
「ヒマなときでいいから、これ、値をExcelに拾ってもらえる・・?」
と、渡された2つのPDFファイル。


海外出張で持って帰ってきたぽいファイルで
紙のプリントアウトをスキャニングした
PDFです。


もちろん、文字データとしては認識されていないので
Docuworksに取り込んで
OCR認識できれば・・!と思って試してみたのですが
「イメージデータではないのでOCR読み込みできません」
と拒否されました。


ええとー・・。
テキストも含まず、イメージでもないってつまり何なの・・?(;´ω`)


タイムスタンプ:日付:行番号:値:値:値


という、ログデータなので、
データ量としてはそれほどでもない・・のですが
さすがに手で全部打ち直すのは、辛すぎるので、
どうにか変換できないかと四苦八苦。


JUST PDFの、データ変換機能で
Excelデータに変換できるかな・・?と思ったのですが
一部手書きの書き込みがあるので、そこで処理がこけて、
プレーンテキストのブツしかできません・゚・(ノД`)・゚・
(しかも段組がくずれまくり)


結果


PDFファイルを
Docuworksで1ページずつバラバラに分解
TIFFでイメージ出力
GIMP(画像処理ソフト)で、手書きの書き込み文字を白で消して保存
TIFFを1ページ分ずつ、Docuworksに読み込みなおして、OCR読み取り
テキストエディタで誤認識修正
EXCELに貼り付け


という作業になり
あまりの煩雑さに
しまいに自分がなにやってるのか判らなくなってきてました::(ヽ'ω`)::
(これでも試行錯誤の結果で、最初のうちはこれプラスJUST PDFで、
2工程くらい余分にやってた・・)


しかしこんな、しちめんどくさい作業
くそ忙しい4月になってからやる訳にはいかないので
なんとかして今週中で
カタをつけたい次第です。