深い畳み込みニューラルネットでは、画像認識、画像分類などに関して多くの進歩があったことを認識しています。
しかし、たとえばPNG画像でネットをトレーニングすると、そのようにエンコードされた画像でのみ機能しますか?これに影響する他の画像プロパティは何ですか?(アルファチャンネル、インターレース、解像度など?)
深い畳み込みニューラルネットでは、画像認識、画像分類などに関して多くの進歩があったことを認識しています。
しかし、たとえばPNG画像でネットをトレーニングすると、そのようにエンコードされた画像でのみ機能しますか?これに影響する他の画像プロパティは何ですか?(アルファチャンネル、インターレース、解像度など?)
回答:
Djib2011の答えは正しいですが、あなたの質問は、画質/特性が一般にニューラルネットワークの学習にどのように影響するかに焦点を合わせていると理解しています。このトピックに関する研究はほとんどありませんが(afaik)、今後さらに研究が行われる可能性があります。私はこの記事だけを見つけました。現時点での問題は、これは実際のアプリケーションで見られる問題であり、学術研究分野ではあまり見られないということです。研究者が写真を撮るために使用されたカメラでさえ大きな効果をもたらす可能性があることを観察した現在のポッドキャストを覚えています。
これは、Djib2011からの最初の回答のリフです。短い答えはノーでなければなりません。長い-まず、写真は常に次のようにテンソルとしてエンコードされます。画像はピクセル数です。写真にm行n列があると見なされる場合、各ピクセルは行と列の位置、つまりペア(m、n)によって指定されます。特に、「小さな」写真でも非常に大きいm * nピクセルがあります。写真が白黒の場合、写真の各ピクセルは0から1の間の数値(黒の強度)でエンコードされます。写真がカラーの場合、3つの数値(RGB強度)でエンコードされます。そのため、1xmxnまたは3xmxnのいずれかのテンソルが作成されます。画像認識はCNNを介して行われます。CNNは、写真がピクセルごとにそれほど変化しないという事実を利用して、圧縮します。フィルターとプーリングを介したデータ。したがって、ポイントは、写真の信じられないほど多数のデータポイント(または機能)をより少ない数の値に圧縮することによってCNNが機能することです。したがって、どの形式で始めても、CNNは写真のデータをさらに圧縮することから始めます。したがって、写真の表現のサイズからそれ自体は独立しています。
ただし、CNNで実行されるすべての画像はすべて同じサイズであることが要求されます。そのため、画像の保存方法に応じて変化する依存関係があります。さらに、同じサイズの異なるファイル形式でテンソルの値が異なる限り、同じCNNモデルを使用して異なる方法で保存された写真を識別することはできません。