OCR処理用の「ハーフトーン」画像のフィルタリング

10

スキャンしたPDF資料に非表示のテキストレイヤーを追加したいので、ドキュメントにインデックスを付けます。私はghostscript白黒のtiff出力デバイス（tiffg4）を使用して、ページをtiff画像として抽出しました。以下に、それらがどのように見えるかの例を示します。

ここに画像の説明を入力してください

この画像をテッセラクトで処理しても、良い結果は得られません。
ghostscript出力DPI（600、300、150、96）を変更すると、96 DPIの画像がテッセラクトから最良の結果が得られることを示していますが、それでも十分ではありません。

次に、OCR処理用にこのフィルターを強化するフィルターについてアドバイスを求めようと思いました。

imagemagick、またはnumpy / scipy / ndimageを使用できます

image-processing ocr

— ゼタ
ソース

9

あなたが本当に必要とするのは、おそらく膨張とそれに続く侵食のような何らかの形態学的操作でしょう。これは、クローズ操作と呼ばれます。あなたの場合かもしれません-ちょうど拡張自体が良いかもしれません。

以前に尋ねられた同様の質問がありました-これは他の側面を助けることができます。

— ディパン・メタ
ソース

2

ローパスフィルターを使ってこれを取り除くことができます。これは、周波数空間で行われるか、画像のガウシアン（の差）を取るだけです。

— クリストフ・ラックヴィッツ
ソース