はい、係数ベクトルの1つが修正されない限り、識別可能性が不足していることは正しいです。これについて触れていないいくつかの理由があります。彼らがこの詳細を省略している理由について話すことはできませんが、それが何であるか、そしてそれを修正する方法の説明はここにあります。
説明文
観測と予測子とします。ここで、はからは、観測番号/インデックスを示します。次元の係数ベクトルを推定する必要があります。yi∈{0,1,2,…,K−1}x⊺i∈Rpi1nK pβ0,β1,…,βK−1
実際、softmax関数はとして定義されてい
微分可能性などの優れた特性を持ち、合計でになります。softmax(z)i=exp(zi)∑K−1l=0exp(zl),
1
多項ロジスティック回帰は、ベクトル上の
各観測値に対してソフトマックス関数を使用しますi⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
つまり、
⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
問題
ただし、複数のパラメーターコレクションが同じ可能性を与えるため、可能性は識別できません。たとえば、すべての係数ベクトルを同じベクトルシフトすると、同じ尤度が生成されます。これは、ベクトルの各要素の分子と分母に定数を乗算すると変化しません。cexp[−x⊺ic]
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺i(β0−c)]∑K−1k=0exp[x⊺i(βk−c)]exp[x⊺i(β1−c)]∑K−1k=0exp[x⊺i(βk−c)]⋮exp[x⊺i(βK−1−c)]∑K−1k=0exp[x⊺i(βk−c)]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
それを修正する
これを修正する方法は、パラメータを制約することです。それらの1つを修正すると、識別可能になります。これは、それらのすべてをシフトすることがもはや許可されないためです。
2つの一般的な選択肢があります。
- セット、つまり(これについて言及している)を意味し、c=β0β0=0
- set、つまりを意味します。c=βK−1βK−1=0
無視して
ただし、制限が不要な場合もあります。たとえば、数量信頼区間を作成することに興味があった場合、これはと同じであるため、比較的量は本当に重要ではありません。また、タスクがパラメーター推論ではなく予測である場合、すべての係数ベクトルが推定されても(制約なしで)、予測は影響を受けません。β01−β21β01−c−[β21−c]