なぜロジスティック関数は2ではなくeを使用するのですか?


7

シグモイド関数は、機械学習のアクティベーション関数として使用できます。

S(x)=11+ex=exex+1.

eを2に置き換えると

def sigmoid2(z):
    return 1/(1+2**(-z))
x = np.arange(-9,9,dtype=float)
y = sigmoid2(x)
plt.scatter(x,y)

プロットは似ています。

ここに画像の説明を入力してください

なぜロジスティック関数は2ではなく使用するのですか?e

回答:


11

対数尤度を後で最小化するので、実際には大きな違いはありません log2x=xlog2 そして logex=x。違いは単に定数であることがわかります。
それにもかかわらず、使用することを主張することができます2x の代わりに ex undも使用 log2 の代わりに log最適化の段階になると 実際に使用することは可能です2xまた、いくつかの望ましいプロパティを示す他の多くの関数もあります。どれが:

  • limxf(x)=1
  • limxf(x)=0
  • f(x)=f(x)+1、(対称(0,0.5)

以下はウィキペディアの適切な関数の例です。


9
をベースとして使用する1つの良い理由は、の導関数があることも指摘する価値があると思います。実際の計算を行わないと、ベースが異なる場合、式は定数だけ再び異なるだけだと思いますが、これは固有の優れたプロパティです。eσ(x)=11+exσ(x)=σ(x)(1σ(x))e
Calvin Godfrey

を使用する場合、です。2xlog2
Andreas Look

@AndreasLookどういう意味かわかりません。を使用する場合、導関数に余分な要素があります(Calvin Godfreyが言ったように)。2xln(2)
sfmiller940

いいえ、バイナリ対数をチェックしてください。。log2(2x)=x
Andreas Look

4

だから、あなたが言及した2つを含めて、シグモイドに見える多くの関数がありますが、が特別な理由があります。その主な理由は、ロジスティック関数がもともと人口増加のモデル化に使用されていたためです。そして、人口は、関心のように、時間の経過とともに悪化する可能性があります。したがって、はこのため非常に自然なオブジェクトになります。さらに、glmの正準リンク関数に関する理論上の理由から、ロジスティックは理論的に最も簡単に操作できるオブジェクトの1つであり、物事を簡単に証明できます。ee


2
ご回答有難うございます。「glmの正規リンク関数」とはどういう意味ですか?
JJJohn

@baojieqhすべての一般化線形モデルでは、分布の指数ファミリのメンバーを指定する必要があります。これらの分布はすべて、分布のスケールパラメーターの関数が指数に「単独」で位置するように記述できるプロパティを共有します(関数はスケールパラメーターの関数にすぎません)。この関数は、一般的なリンク関数と呼ばれます。スケールパラメータがpであるベルヌーイ/二項分布の場合、この関数はロジットリンク関数であるln(p /(1-p))であることがわかります。
aranglol

したがって、各行のベルヌーイ分布を想定するロジスティック回帰の正準リンク関数は、ロジットリンクです。正準リンク関数を望ましいものにする他のより理論的な特性もあります。ただし、技術的には必要ありません。たとえば、プロビットを使用できます。
aranglol

@aranglolコメントありがとうございます。リンクmath.stackexchange.com/q/3253634/656371
JJJohn

これは、「eは特別です」、理由を正当化することなく e特別です。本当に、唯一の特別な点は、ddバツaバツ=aバツlna、つまり、です。ddバツeバツ=eバツ
David Richerby

0

継続的/潜在的/観測不能が存在するというモデルの基本的な仮定から来ています Y それは何らかの形で観測された値に関連しています Y。モデルはさらに、Y=1 の合図なら Y あるしきい値を超えている、またはそれ以外の場合 Y=0。3番目と最後の仮定は、Yロジスティック分布です。これらの仮定があれば、モデルを導出することは代数の問題です。

詳細については、私のブログをご覧ください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.