画像形式（png、jpg、gif）は、画像認識ニューラルネットのトレーニング方法に影響しますか？

22

深い畳み込みニューラルネットでは、画像認識、画像分類などに関して多くの進歩があったことを認識しています。

しかし、たとえばPNG画像でネットをトレーニングすると、そのようにエンコードされた画像でのみ機能しますか？これに影響する他の画像プロパティは何ですか？（アルファチャンネル、インターレース、解像度など？）

neural-networks deep-learning image-processing

2

私は自信を持って答えを出すための画像の統計に関する十分な経験はありませんが、異なるモデルは完全に異なるスキームを使用して画像を機能にコーディングし、その一部は非可逆JPEG圧縮、アルファチャネルなどの影響を受けることを期待します。およびその一部はそうではなく、詳細はモデル固有です。各ピクセルを特徴として扱うモデルと、画像を領域に切り分け、領域のプロパティを特徴として使用するモデルの両方が存在することを知っています。

— コディオロジスト

20

短い答えはNOです。

画像がエンコードされる形式は、その品質に関係しています。ニューラルネットワークは、基本的に、多くの操作（行列の乗算、要素ごとの加算、マッピング関数）を実行する数学モデルです。ニューラルネットワークは、入力（つまり、多次元配列）としてTensorを認識します。通常、その形状は4-D（バッチあたりの画像数、画像の高さ、画像の幅、チャンネル数）です。

異なる画像形式（特に損失の多いもの）は異なる入力配列を生成する場合がありますが、厳密に言えば、ニューラルネットは入力では配列を参照し、画像は参照しません。

— Djib2011
ソース

4

Djib2011の答えは正しいですが、あなたの質問は、画質/特性が一般にニューラルネットワークの学習にどのように影響するかに焦点を合わせていると理解しています。このトピックに関する研究はほとんどありませんが（afaik）、今後さらに研究が行われる可能性があります。私はこの記事だけを見つけました。現時点での問題は、これは実際のアプリケーションで見られる問題であり、学術研究分野ではあまり見られないということです。研究者が写真を撮るために使用されたカメラでさえ大きな効果をもたらす可能性があることを観察した現在のポッドキャストを覚えています。

— ボビプエギ
ソース

ポッドキャストを教えてください。

— デビッドエルンスト

これは、iTunesのリンクを、彼らはアフリカ（最後まで約中間）に機械学習を実践する研究者との議論を持っている「話機」、の1時間のエピソードです：itunes.apple.com/de/podcast/talking-machines/...を

— ボビプエギ

2

これは、Djib2011からの最初の回答のリフです。短い答えはノーでなければなりません。長い-まず、写真は常に次のようにテンソルとしてエンコードされます。画像はピクセル数です。写真にm行n列があると見なされる場合、各ピクセルは行と列の位置、つまりペア（m、n）によって指定されます。特に、「小さな」写真でも非常に大きいm * nピクセルがあります。写真が白黒の場合、写真の各ピクセルは0から1の間の数値（黒の強度）でエンコードされます。写真がカラーの場合、3つの数値（RGB強度）でエンコードされます。そのため、1xmxnまたは3xmxnのいずれかのテンソルが作成されます。画像認識はCNNを介して行われます。CNNは、写真がピクセルごとにそれほど変化しないという事実を利用して、圧縮します。フィルターとプーリングを介したデータ。したがって、ポイントは、写真の信じられないほど多数のデータポイント（または機能）をより少ない数の値に圧縮することによってCNNが機能することです。したがって、どの形式で始めても、CNNは写真のデータをさらに圧縮することから始めます。したがって、写真の表現のサイズからそれ自体は独立しています。
ただし、CNNで実行されるすべての画像はすべて同じサイズであることが要求されます。そのため、画像の保存方法に応じて変化する依存関係があります。さらに、同じサイズの異なるファイル形式でテンソルの値が異なる限り、同じCNNモデルを使用して異なる方法で保存された写真を識別することはできません。

— め
ソース