ディープラーニングの1D畳み込み層とは


13

私は、2Dまたは3D実装の場合の画像処理のためのディープラーニングにおける畳み込み層の役割とメカニズムについて十分に理解しています。彼らは「単純に」画像の2Dパターンをキャッチしようとします

しかし最近、自然言語処理のコンテキストで1D畳み込み層にぶつかりました。これは、私にとっては驚きの種です。画像のピクセル。1Dコンボリューションの背後にあるロジックは何ですか?

回答:


16

つまり、畳み込みの次元数について特別なことは何もありません。問題に適合する場合、畳み込みの次元を考慮することができます。

次元数は、解決される問題の特性です。たとえば、オーディオ信号の場合は1D、画像の場合は2D、映画の場合は3Dです。。。

次元の数を簡単に無視すると、特定のタイプのデータを処理する場合、完全に接続されたモデルと比較して、畳み込みニューラルネットワーク(CNN)の長所は次のようになります。

  1. 畳み込みプロセスが処理する各場所に共有重みを使用すると、完全に接続されたネットワークを介して処理される同じデータと比較して、学習する必要があるパラメータの数が大幅に削減されます。

  2. 共有ウェイトは正則化の一形態です。

  3. たたみ込みモデルの構造は、データ内のローカルな関係について強い仮定を立てます。これは、真の場合、問題に適したものになります。

    3.1ローカルパターンは優れた予測データを提供します(および/または、より高い層でより複雑な予測パターンに便利に組み合わせることができます)

    3.2データで見つかったパターンのタイプは、複数の場所で見つけることができます。異なるデータポイントのセットで同じパターンを見つけることは意味があります。

CNNのこれらのプロパティは、次元の数に依存しません。1次元CNNは1次元のパターンで機能し、固定長信号の信号解析に役立つ傾向があります。たとえば、オーディオ信号の分析に適しています。また、一部の自然言語処理の場合-異なるシーケンス長を可能にするリカレントニューラルネットワークは、特にLSTMやGRUなどのメモリゲート配置を備えたものに適しています。それでもCNNの方が管理しやすく、入力を固定長になるように単純に埋めることができます。


2Dはグレースケール画像専用ですか?RGBを導入するとどうなりますか?
モハマドアタール

1
@MohammadAthar:RGBは個別の2D情報のチャネル(または機能マップ)として表され、通常CNNレイヤーを記述するときにも2Dと見なされます。TensorFlowまたはKerasを使用している場合は、間違いなくConv2Dレイヤー定義を使用してカラー画像を処理します。ただし、実装では、重みを格納するために内部に3Dおよび4D構造が含まれることがよくあります。。。複数のチャネルにわたる2D畳み込みは、数学的には3D畳み込みの特殊なケースです(入力とカーネルの次元は最後のレイヤーで一致する必要があります)。したがって、これは何よりも命名規則です。
ニールスレーター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.