ファイルタイプを判断するためのコンテンツスニッフィングはどれくらい正確ですか?


-1

MIMEタイプの拡張子のないファイル(PDF、doc、docxなどのドキュメントファイル形式)を識別する必要がありますが、既知のファイル署名がどれほど正確か疑問に思いますか?

ファイルタイプとその署名のマップを作成します。そして、各ファイルから16進値を読み取ります。これには.NETを使用し、アプリケーションにスニッフィングを含めます。問題は、.NETの世界でこれを行う優れたライブラリが見つからないことです。そのため、独自のライブラリを作成しようとします。私によると、私はそこにあるファイルフォーマットの小さなサブセットにしか興味がないという事実のために、かなり些細なことになるはずです。

回答:


1

一部の種類のファイルでは簡単になり、他の種類では不可能から不可能になります。各ファイルタイプは異なります。ファイルには、それがどのタイプであるかを識別するスポットは1つもありません。たとえば、JPEG画像には、特定の署名とフッターが付いた非常に認識可能なヘッダーがあり、簡単に識別できます。ただし、プレーンテキストファイルにはメタデータがまったく添付されていません。生データでそれらを見ると、テキスト情報が前のファイルと次のファイルの間でマッシュされていることがわかります。ただし、ファイルがある場合は、ファイル全体をスキャンして、ASCIIまたはUnicodeであることを確認できます。

かなりの量のファイルの種類について、このような識別方法を見つけるにはかなりの労力が必要です。あなたにとって重要なタイプのほとんどを識別することができる、このためにすでに利用可能なツールを探す必要があります。たとえば、次のようなWindowsプログラムは、このような処理を行い、5,944個のファイルタイプの定義を持っています。

あなたがやろうとしていることに関する詳細情報を提供できますか?マジックナンバーとは何ですか?


pdf、doc、docxなど、さまざまなドキュメントファイル形式にのみ興味があります。
BjBlazkowicz

TrIDNetソフトウェアの仕組みをご覧ください(実際には.NETで記述されています)。コマンドラインバージョンでは、一度に多くのファイルを操作したり、正しい拡張子を変更または追加したりするなど、あなたがしようとしていることにより柔軟性を与えることができるようです。mark0.net/soft-trid-e.html
Datarecovery.com MK
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.