1層ネットワークは線形分離可能ではないため、xor関数を予測できないことはよく知られている事実です。xorを予測するために、ロジスティックシグモイド関数とbackpropを使用して、2層ネットワークを作成しようとしました。私のネットワークには、入力層に2つのニューロン(および1つのバイアス)、非表示層に2つのニューロンと1つのバイアス、および1つの出力ニューロンがあります。驚いたことに、これは収束しません。新しいレイヤーを追加すると、入力(2 + 1)、hidden1(2 + 1)、hidden2(2 + 1)、出力の3レイヤーネットワークが機能します。また、2層ネットワークを維持しながら、非表示層のサイズを4ニューロン+ 1バイアスに増やした場合も、収束します。3つ以下の非表示ニューロンを持つ2層ネットワークがxor関数をモデル化できない理由はありますか?