スキャンしたPDF資料に非表示のテキストレイヤーを追加したいので、ドキュメントにインデックスを付けます。私はghostscript白黒のtiff出力デバイス(tiffg4)を使用して、ページをtiff画像として抽出しました。以下に、それらがどのように見えるかの例を示します。
この画像をテッセラクトで処理しても、良い結果は得られません。
ghostscript出力DPI(600、300、150、96)を変更すると、96 DPIの画像がテッセラクトから最良の結果が得られることを示していますが、それでも十分ではありません。
次に、OCR処理用にこのフィルターを強化するフィルターについてアドバイスを求めようと思いました。
imagemagick、またはnumpy / scipy / ndimageを使用できます