Rのglmコマンドを数学表記に変換する


8

次の一般化線形モデルがあります。オブジェクトglmDVは、試行全体に対する成功の割合としてモデル化されます。オブジェクトx_iは連続変数です。

これは数学表記ではどのように見えますか?

winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, 
               data=myData, family=binomial("logit"))

1
応答が0sと1sのセット(説明に基づいて収集したもの)ではなく比率である場合は、weights引数w / ?glmを使用する必要がありますここで、重みは総試行回数です。各観測について。
ガン-モニカの復活

回答:


11

1

Pr(y=1)=θ=logit1(β0+β1x1+β2x2+...+β7x7)

ここで、および。logit-1x=expxlogit(x)=log(x1x)logit1(x)=exp(x)1+exp(x)

これに関するより徹底的で非常に親しみやすい説明は、Agrestiの「カテゴリーデータ分析の概要」にあります。

しかし、あなたの特定の質問に対して、あなたは成功割合をモデル化していると述べていますこれは、実際には二項GLMを使用するものではありません。しかし、あなたが本当に望んでいるのは、二項GLMが行うことであり、Rでも可能です。それは、あなたがしていることを少し調整するだけで済みます。試行回数が有限で、成功する可能性がある場合でも、密度を持つ同じモデルを使用できます。 値は実験計画法によって固定され、は観測された成功であるため、パラメーターで推論を実行していますY { 0 ... N } のPr Y Nny{0...n}NYθ

Pr(y)(ny)θy(1θ)ny
nyθは、より一般的なバイナリ応答の場合(上記)と同じです。この場合、は1に固定され、は確率1で値1を取り、であり、はパラメーターの関数です。ロジットリンクの場合、をモデル化しこれは、主に、この変換されたが単位間隔ではなく、実線全体に存在するためです。(ロジットリンクの他の望ましいプロパティは、ケースコントロール設計などの非ランダムサンプルが使用される設定での係数の有効性を含め、Agrestiで説明されています。これは、たとえば、プロビットリンク関数には当てはまりません。)Y θ θ ロジットθ = β 0 + β 1 X 1 + + β I X I θnyθθ
logit(θ)=β0+β1x1+...+βixi
θ

Rに関しては、単純にglmDV2列の行列であるオブジェクトを作成します。最初の列は成功の数、2番目の列は失敗の総数です。ステートメントの残りの部分は同じままです!n yyny


この相互検証は非常に役に立ちました。図書館でアグレスティをチェックアウトします。ご協力ありがとうございました。
user2205916 2014年

@Sycoraxまたは@ user2205916、具体的には、成功と失敗の数を含む「2列の行列」をRにどのように渡しますか。Rはこれをどのように利用しますか?私は使い慣れています。glm私の知る限り、2列ではなく1列の応答変数のみを受け入れます。私が間違っている場合は訂正し、可能であれば関連ドキュメントを引用してください。ありがとうございました!
clarpaul 2017年

@clarpaul stat.ethz.ch/R-manual/R-patched/library/stats/html/glm.htmlglmドキュメントの「詳細」の最初の段落。R関数がどのように機能するかを学ぶ良い方法は、Googleに関数名を教えることです。これは通常、関連するドキュメントを表示します。?glmRコンソールに入力することもできます
Sycoraxは

@Sycorax、私を探してくれてありがとう。昨日実践してみたところ、うまくいったようです!
clarpaul 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.