本質的に、私の質問は、多層パーセプトロンにおいて、パーセプトロンがシグモイド活性化機能とともに使用されるということです。更新ルールでは、は次のように計算されます。
この「シグモイド」パーセプトロンは、ロジスティック回帰とどのように違いますか?
単一層のシグモイドパーセプトロンは、両方とも更新ルールの。また、両方とも予測でをます。ただし、多層パーセプトロンでは、シグモイド活性化関数を使用して、ロジスティック回帰と単層パーセプトロンとは対照的に、オンオフ信号ではなく確率を返します。記号( Y =1
「パーセプトロン」という用語の使用法は少し曖昧かもしれないと思うので、単層パーセプトロンについての私の現在の理解に基づいて背景を説明しましょう。
古典的なパーセプトロン規則
まず、ステップ関数があるF. Rosenblattによる古典的なパーセプトロン:
重みを更新するには
したがって、は次のように計算されます。
勾配降下
勾配降下法を使用して、コスト関数を最適化(最小化)します
「実際の」数字があるので、これは基本的に線形回帰に似ていますが、分類出力にはしきい値があります。
ここで、重みを更新すると、勾配の負の方向に一歩進みます
しかし、ここでは、代わりにます Yは =符号(wがTはxはIを)
また、新しいトレーニングサンプルが到着すると重みを更新する古典的なパーセプトロンルールとは対照的に、(バッチ学習モードで)トレーニングデータセット全体の完全なパスの2乗誤差の合計を計算します(確率的勾配降下法に類似-オンライン学習)。
シグモイド活性化機能
さて、ここに私の質問があります:
多層パーセプトロンでは、パーセプトロンはシグモイド活性化機能とともに使用されます。更新ルールでは、は次のように計算されます。
この「シグモイド」パーセプトロンは、ロジスティック回帰とどのように違いますか?