お隣の席のSさんに
「ヒマなときでいいから、これ、値をExcelに拾ってもらえる・・?」
と、渡された2つのPDFファイル。
海外出張で持って帰ってきたぽいファイルで
紙のプリントアウトをスキャニングした
PDFです。
もちろん、文字データとしては認識されていないので
Docuworksに取り込んで
OCR認識できれば・・!と思って試してみたのですが
「イメージデータではないのでOCR読み込みできません」
と拒否されました。
ええとー・・。
テキストも含まず、イメージでもないってつまり何なの・・?(;´ω`)
タイムスタンプ:日付:行番号:値:値:値
という、ログデータなので、
データ量としてはそれほどでもない・・のですが
さすがに手で全部打ち直すのは、辛すぎるので、
どうにか変換できないかと四苦八苦。
JUST PDFの、データ変換機能で
Excelデータに変換できるかな・・?と思ったのですが
一部手書きの書き込みがあるので、そこで処理がこけて、
プレーンテキストのブツしかできません・゚・(ノД`)・゚・
(しかも段組がくずれまくり)
結果
PDFファイルを
→Docuworksで1ページずつバラバラに分解
→TIFFでイメージ出力
→GIMP(画像処理ソフト)で、手書きの書き込み文字を白で消して保存
→TIFFを1ページ分ずつ、Docuworksに読み込みなおして、OCR読み取り
→テキストエディタで誤認識修正
→EXCELに貼り付け
という作業になり
あまりの煩雑さに
しまいに自分がなにやってるのか判らなくなってきてました::(ヽ'ω`)::
(これでも試行錯誤の結果で、最初のうちはこれプラスJUST PDFで、
2工程くらい余分にやってた・・)
しかしこんな、しちめんどくさい作業
くそ忙しい4月になってからやる訳にはいかないので
なんとかして今週中で
カタをつけたい次第です。