PDFがスキャンされたかどうかを確認する簡単な方法はありますか?
私には何千ものドキュメントがあり、それらのいくつかはスキャンされます。したがって、ディレクトリに属するすべてのPDFファイルをテストするスクリプトが必要です。それを行う簡単な方法はありますか? ほとんどのPDFはレポートです。したがって、彼らは多くのテキストを持っています。 それらは非常に異なりますが、以下で説明するようにスキャンされたものは、スキャンに結合された不安定なOCRプロセスにより、テキストを見つけることができます。 スキャンされていない スキャンした1 スキャン2 以下のコメントでのSudodusによる提案は非常に興味深いようです。スキャンしたPDFとスキャンしていないPDFの違いを見てください。 スキャン済み: grep --color -a 'Image' AR-G1002.pdf <</BitsPerComponent 8/ColorSpace/DeviceRGB/Filter[/DCTDecode]/Height 2197/Length 340615/Name/Obj13/Subtype/Image/Type/XObject/Width 1698>>stream <</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length 40452/Name/Obj18/Subtype/Image/Type/XObject/Width 1698>>stream <</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length 41680/Name/Obj23/Subtype/Image/Type/XObject/Width 1698>>stream <</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length 41432/Name/Obj28/Subtype/Image/Type/XObject/Width 1698>>stream <</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length 59084/Name/Obj33/Subtype/Image/Type/XObject/Width 1698>>stream <</BitsPerComponent 8/ColorSpace/DeviceRGB/Filter[/DCTDecode]/Height 2197/Length 472681/Name/Obj38/Subtype/Image/Type/XObject/Width …