回答:
CNNは、空間全体のパターンを認識することを学習します。ですから、あなたが言うように、CNNは画像のコンポーネント(線、曲線など)を認識し、これらのコンポーネントを組み合わせて大きな構造(顔、オブジェクトなど)を認識することを学習します。
非常に一般的な方法で、RNNは同様に時間をかけてパターンを認識することを学習すると言うことができます。そのため、テキストを翻訳するように訓練されたRNNは、「犬」の前に「ホット」という単語があれば、別の方法で翻訳する必要があることを学習する可能性があります。
ただし、2種類のNNがこれらのパターンを表すメカニズムは異なります。CNNの場合、同じものを探しています、画像のすべての異なるサブフィールドでパターンを。RNNの場合、(最も単純な場合)次のステップへの追加入力として、前のステップからの非表示レイヤーを供給しています。RNNはこのプロセスでメモリを構築しますが、CNNがスペースの異なる領域で同じパターンを探すのと同じように、異なる時間のスライスで同じパターンを探すのではありません。
また、ここで「時間」と「スペース」と言うとき、文字通りに解釈すべきではないことに注意してください。たとえば、画像キャプションのために1つの画像でRNNを実行できます。「時間」の意味は、単に画像のさまざまな部分が処理される順序です。したがって、最初に処理されたオブジェクトは、後で処理されたオブジェクトのキャプションを通知します。
CNNとRNNの違いは次のとおりです。
CNNは固定サイズの入力を受け取り、固定サイズの出力を生成します。
CNNはフィードフォワード人工ニューラルネットワークの一種です-最小量の前処理を使用するように設計された多層パーセプトロンのバリエーションです。
CNNは、そのニューロン間の接続パターンを使用して、動物の視覚皮質の組織に触発され、個々のニューロンは、視野をタイリングする重複領域に応答するように配置されます。
CNNは、画像やビデオの処理に最適です。
RNNは、任意の入力/出力長を処理できます。
RNNは、フィードフォワードニューラルネットワークとは異なり、内部メモリを使用して任意の入力シーケンスを処理できます。
リカレントニューラルネットワークは時系列情報を使用します(つまり、最後に話した内容が次に話す内容に影響します)。
RNNは、テキストおよび音声分析に最適です。
CNNはコンポーネントをサブコンポーネントに分割せず、同じパターンを見つけるために重複するサブコンポーネント(反復フィールド)の共有ウェイトを使用するため、2つのステートメントは正しくないと思います。分割統治アルゴリズムではありません。
一般的に、CNNは局所的および位置不変(それらの位置とは無関係に)特徴を抽出する傾向があり、RNNは、たとえ遠くにある場合でもディファレントパターンを見つける傾向があります。
たとえば、両方を自然言語に適用する場合、CNNはローカルおよび位置不変の特徴を抽出するのに適していますが、長距離のセマンティック依存性をキャプチャしません。ローカルのキーフレーズを考慮するだけです。
したがって、結果が文全体または長期の意味依存関係によって決定される場合、著者がNLPのタクで両方のアーキテクチュアを比較したこの論文に示すように、CNNは効果的ではありません。