タグ付けされた質問 「generalized-linear-model」

「リンク関数」を介して非線形関係を可能にし、応答の分散を予測値に依存させることができる線形回帰の一般化。(通常の線形モデルを一般的な共分散構造と多変量応答に拡張する「一般線形モデル」と混同しないでください。)

9
参照リクエスト:一般化線形モデル
Generalized Linear Modelsに関する中級レベルの入門書を探しています。理想的には、モデルの背後にある理論に加えて、アプリケーションやサンプルをRまたは他のプログラミング言語に含めたいと思います-SASも人気のある選択肢だと聞きます。私は自分でそれを勉強するつもりですので、それがそれ自身の演習への答えを提供するならば、それは役立つでしょう。 あなたは、私が微積分学と確率論の伝統的な一年のコースを取ったと仮定することができます。また、回帰分析の基本にも精通しています。

5
統計学者は、植物を水に浸すことができないと考えていますか、それとも曲線回帰に間違った検索用語を使用しているだけですか?
私は、線形回帰とGLMについて読んほとんどすべてがこれに沸く:の非増加もしくは非減少関数であると、パラメータあなたです仮説を推定し、テストします。を一次関数にするために、多数のリンク関数とと変換があります。f (x 、β )xy= f(x 、β)y=f(x,β)y = f(x,\beta)f(x 、β)f(x,β)f(x,\beta)バツxxY 、X 、Y 、F (X 、β )ββ\betayyyバツxxyyyf(x 、β)f(x,β)f(x,\beta) ここで、非増加/非減少の要件を削除すると、パラメトリック線形モデルを近似するための2つの選択肢(trig関数と多項式)しかわかりません。どちらも、予測された各とセット全体の間に人為的な依存関係を作成し、データが実際に循環プロセスまたは多項式プロセスによって生成されると信じる事前の理由がない限り、非常に非ロバストな適合にします。y Xf(x 、β)f(x,β)f(x,\beta)yyyバツXX これはある種の難解なエッジケースではありません。これは、実際の常識的な関係であり、水と作物の収穫量(プロットが水面下で十分に深くなると、作物の収穫量は減少し始めます)、または朝食で消費されるカロリーと数学のクイズのパフォーマンス、または工場の労働者の数との関係ですそして、それらが生成するウィジェットの数...要するに、線形モデルが使用されるほとんどすべての実際のケースですが、データが十分な範囲をカバーしており、収益が減少してから負の収益になります。 「凹」、「凸」、「曲線」、「非単調」、「バスタブ」という用語を探してみましたが、他にいくつあるか忘れています。関連する質問はほとんどなく、使用可能な回答はさらに少なくなります。したがって、実際には、次のデータがある場合(Rコード、yは連続変数xと離散変数グループの関数です): updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); 最初にBox-Cox変換を試して、それが機械的な意味をなすかどうかを確認し、それができない場合は、非線形最小二乗モデルをロジスティックまたは漸近リンク関数に適合させることができます。 したがって、完全なデータセットが次のようになっていることがわかったときに、パラメトリックモデルを完全に放棄し、スプラインなどのブラックボックスメソッドにフォールバックする必要があるのはなぜですか? plot(y~x,updown,col=group); 私の質問は: このクラスの機能的関係を表すリンク関数を見つけるには、どの用語を検索する必要がありますか? または このクラスの機能的関係へのリンク機能を設計する方法、または現在単調な応答のみを目的とする既存の関係を拡張する方法を習得するには、何を読んで検索する必要がありますか? または 一体、このタイプの質問に最も適切なStackExchangeタグですら!

4
増加した患者数を説明するために二項モデルでオフセットを使用する
私からの2つの関連する質問。1つの列に患者の数(範囲10〜17人の患者)と、その日にインシデントが発生したかどうかを示す0と1を含むデータフレームがあります。私は二項モデルを使用して、多数の患者のインシデントの確率を回帰しています。しかし、患者の数が増えると、その日の病棟での患者の総時間は長くなるため、必然的にインシデントが増えるという事実に合わせて調整したいと思います。 だから私はこのようなオフセット二項モデルを使用しています(Rコード): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) 私の質問は: 正確に同じ変数を予測してオフセットに入れても大丈夫ですか?インシデントの可能性の強大な増加を部分的に取り除き、本質的に何かが残っているかどうかを確認したい 私には理にかなっていますが、私が間違っている場合には少し慎重です。 オフセットは正しく指定されていますか?ポアソンモデルでは次のようになります。 offset=log(Numbers) ここに同等のものがあるかどうかはわかりませんが、Googleで二項オフセットを見つけることができないようです(主な問題は、私が負の二項を取得し続けることです、もちろん良くありません)。

5
予測にlmerを使用する
こんにちは私は、マルチレベル/混合モデルの自然な候補のように聞こえる2つの問題を抱えています。より簡単な、導入として試してみたいものは次のとおりです。データはフォームの多くの行のように見えます x y innergroup outergroup ここで、xはy(別の数値変数)を回帰する数値共変量であり、各yは内部グループに属し、各内部グループは外部グループにネストされます(つまり、特定の内部グループのすべてのyは同じ外部グループに属します) 。残念ながら、内部グループには多くのレベル(数千)があり、各レベルにはyの観測値が比較的少ないため、この種のモデルが適切であると考えました。私の質問は この種のマルチレベルの数式を作成するにはどうすればよいですか? いったんlmerフィットモデル、どのようにして、それから予測するのでしょうか?いくつかの簡単なおもちゃの例に適合しましたが、predict()関数は見つかりませんでした。ほとんどの人は、この種の手法での予測よりも推論に興味があるようです。数百万の行があるため、計算が問題になる可能性がありますが、必要に応じていつでも削減できます。 しばらくは2番目の操作を行う必要はありませんが、考えてみて、遊んでみてください。以前と同様のデータがありますが、xがなく、yは形式の二項変数です。yは、内部グループ内であっても、多くの過剰分散を示します。nのほとんどは2または3(またはそれ以下)であるため、各y iの成功率の推定値を導出するには、ベータ二項収縮推定量(α + k i)/(α + β + n i)、ここで(n,n−k)(n,n−k)(n,n-k)nnnyiyiy_i(α+ki)/(α+β+ni)(α+ki)/(α+β+ni)(\alpha+k_i)/(\alpha+\beta+n_i)および βは、MLEによって各内部グループに対して個別に推定されます。これはある程度適切ですが、データのスパース性は依然として私を悩ませているので、利用可能なすべてのデータを使用したいと思います。1つの観点からは、この問題は共変量がないためより簡単ですが、他の観点からは、二項の性質によりそれはより困難になります。高い(または低い)レベルのガイダンスはありますか?αα\alphaββ\beta

1
なぜロジスティック回帰最適化にニュートンの方法を使用するのが反復再加重最小二乗と呼ばれるのですか?
なぜロジスティック回帰最適化にニュートンの方法を使用するのが反復再加重最小二乗と呼ばれるのですか? ロジスティック損失と最小二乗損失は完全に異なるため、私には明らかではないようです。

2
ポアソンGLMが非整数の数値を受け入れることはどのように可能ですか?
ポアソンGLMが整数以外の数値を受け入れるという事実に本当に驚かされます!見て: データ(の内容data.txt): 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 Rスクリプト: t <- read.table("data.txt") names(t) <- c('site', 'year', 'count', 'weight') tm <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, family = …

5
Rのglmファミリー引数で対数正規分布を指定するにはどうすればよいですか?
簡単な質問:RのGLMファミリ引数で対数正規分布を指定するにはどうすればよいですか?これをどのように達成できるかわかりませんでした。対数正規(または指数)がファミリー引数のオプションではないのはなぜですか? R-Archivesのどこかで、対数正規分布を指定するために、GLMでガウスに設定されたファミリのログリンクを使用するだけでよいことを読みました。ただし、これは非線形回帰に適合し、Rは開始値を求め始めるため、これはナンセンスです。 GLMの対数正規(または指数)分布を設定する方法を知っている人はいますか?

2
応答変数の0と1をベータ回帰で正確に処理できないのはなぜですか?
多くの場合、0から1の間の値をとる分数、比率、確率などの応答を処理するために、ベータ回帰(ベータ分布と通常はロジットリンク関数を使用するGLM)が推奨されます:結果の回帰(比率または分数) 0と1の間。 ただし、応答変数が0または1に少なくとも1回等しくなるとすぐにベータ回帰を使用できないと常に主張されています。その場合、ゼロ/ 1膨張ベータモデルを使用するか、応答の変換などを行う必要があります。1および0を含む比率データのベータ回帰。 私の質問は次のとおりです。ベータ分布のどのプロパティが、ベータ回帰が正確な0と1を処理するのを妨げますか、そしてその理由は何ですか? とはベータ配布をサポートしていないと思います。しかし、すべての形状パラメータのためにと、両方の0と1があるベータ分布の支援では、分布が片側または両側に無限大に行くことをより小さな形状パラメータのみです。そしておそらく、サンプルデータは、とが最適に適合し、両方とも超えるようなものです。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 場合によっては、実際にはゼロ/ 1でもベータ回帰を使用できるということですか? もちろん、0と1がベータ分布をサポートしている場合でも、正確に0または1を観測する確率はゼロです。しかし、他の与えられた数えられる値のセットを観察する確率はそうなので、これは問題になりえないでしょうか?(@Glen_bによるこのコメント)。 \hskip{8em} ベータ回帰のコンテキストでは、ベータ分布は異なる方法でパラメーター化されますが、では、すべてのに対してで明確に定義される必要があります。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu

3
Rのglm関数で使用される最適化アルゴリズムはどれですか?
このようなコードを使用して、Rでロジット回帰を実行できます。 > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 最適化アルゴリズムが収束したようです-フィッシャースコアリングアルゴリズムのステップ数に関する情報があります。 Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

2
Rの複数の従属変数を使用して一般化線形モデルを実行する方法は?
6つの従属変数(カウントデータ)といくつかの独立変数があります。MMRでは、スクリプトは次のようになります。 my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) しかし、私のデータはカウントなので、一般化された線形モデルを使用したいので、これを試しました: my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") そして、このエラーメッセージが表示されます: Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, : (subscript) logical subscript …

1
ロジスティック回帰の特性
いくつかのロジスティック回帰を使用しており、平均推定確率は常にサンプル内の確率の割合に等しいことがわかりました。つまり、近似値の平均はサンプルの平均に等しくなります。 誰かが私に理由を説明したり、このデモを見つけることができる参照を教えてもらえますか?

3
使用するglmファミリを決定する方法は?
いくつかの異なる収集手法を比較しようとしている魚の密度データがあり、データには多くのゼロがあり、ヒストグラムはポアソン分布に適しているように見えますが、密度としては整数データではありません。私はGLMに比較的不慣れで、使用するディストリビューションをどのように判断するかをオンラインで探していましたが、この決定に役立つリソースを見つけることができませんでした。データのサンプルヒストグラムは次のようになります。 GLMに使用する適切なファミリを決定する方法についてはわかりません。誰かがアドバイスをしたり、私がチェックアウトするリソースを私に提供できるなら、それは素晴らしいでしょう。

1
ロジスティック回帰におけるピアソンVS逸脱残差
標準化されたPearson Residualsは、従来の確率論的な方法で取得されることを知っています。 r私= y私- π私π私(1 - π私)−−−−−−−−√r私=y私−π私π私(1−π私) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} および逸脱残差は、より統計的な方法(各ポイントの尤度への寄与)によって取得されます。 d私= s私− 2 [ y私ログπ私^+ (1 − y私)ログ(1 - π私)]−−−−−−−−−−−−−−−−−−−−−−−−−−√d私=s私−2[y私ログ⁡π私^+(1−y私)ログ⁡(1−π私)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} ここで、 = 1の場合 = 1及び = -1であれば = 0。s私s私s_iy私y私y_is私s私s_iy私y私y_i 逸脱残差の式をどのように解釈するか、直感的に説明できますか? さらに、1つを選択したい場合、どちらがより適切で、なぜですか。 ところで、いくつかの参考文献は、用語に基づいて逸脱残差を導出すると主張しています − 12r私2−12r私2-\frac{1}{2}{r_i}^2 ここで、は上記のとおりです。r私r私r_i

4
カウントデータの適切なモデルを決定するための戦略
カウントデータで使用するモデルを決定するための適切な戦略は何ですか?マルチレベルモデルとしてモデル化する必要があるデータを数えていますが、これを行うための最良の方法はバグまたはMCMCglmmを使用することを(このサイトで)推奨されました。しかし、私はまだベイジアン統計について学ぼうとしています。最初にデータを一般化線形モデルとして適合させ、データのネスト構造を無視することを試みるべきだと思いました(期待することについて漠然としたアイデアを得ることができるように)。 データの約70%は0であり、平均に対する分散の比率は33です。そのため、データは非常に分散しています。 いくつかの異なるオプション(ポアソン、負の二項、クアッシ、ゼロ膨張モデルを含む)を試した後、結果に一貫性がほとんど見られません(すべてから変化することは重要であり、何も意味がない)。 インフレと過剰分散に基づいて、どのタイプのモデルを選択するかについて、情報に基づいた決定を下すにはどうすればよいですか?たとえば、どのようにクアッシポアソンが負の二項(またはその逆)よりも適切であると推測できますか?また、どちらを使用しても超過ゼロが適切に処理された(または処理されなかった)ことをどのように確認できますか?同様に、ゼロ膨張モデルが使用された場合、これ以上の過分散がないことをどのように評価しますか?または、ゼロ膨張ポアソンとゼロ膨張負の二項式の間でどのように決定する必要がありますか?

2
GLMを適合させるときに、フィッシャーのスコアリングを使用することに大騒ぎするのはなぜですか?
なぜフィッティングGLMSが特別な最適化問題であるかのように扱う理由に興味があります。彼らは?それらは最大尤度であり、尤度を書き留めてから...最大化するように思えます!それでは、なぜ応用数学文献で開発された無数の最適化スキームの代わりにフィッシャースコアリングを使用するのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.