タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
LOESSの予測間隔の計算方法
RのLOESSモデルを使用して適合させたデータがあり、これを提供します。 データには1つの予測子と1つの応答があり、不均一です。 信頼区間も追加しました。問題は、区間がラインの信頼区間であるのに対して、予測区間に興味があることです。たとえば、下部パネルは上部パネルよりも可変性がありますが、これは間隔でキャプチャされません。 この質問はやや関連しています: 多項式回帰からの信頼帯、特に@AndyWによる答えを理解しますが、彼の例では、にinterval="predict"存在する比較的単純な引数を使用していますがpredict.lm、にはありませんpredict.loess。 したがって、非常に関連する2つの質問があります。 LOESSのポイントごとの予測間隔を取得するにはどうすればよいですか? その間隔をキャプチャする値をどのように予測できますか?つまり、最終的に元のデータのように見える一連の乱数を生成できますか? LOESSを必要とせず、他の何かを使用する必要がある可能性がありますが、自分のオプションに慣れていません。基本的には、ローカル回帰または多重線形回帰を使用してラインに適合し、ラインのエラー推定値に加えて、さまざまな説明変数のさまざまな分散も提供するため、特定のx値で応答変数(y)の分布を予測できます。

3
Hosmerらを使用したモデルの構築と選択 2013. Rでロジスティック回帰を適用
これはStackExchangeでの最初の投稿ですが、かなり以前からリソースとして使用してきました。適切な形式を使用して適切な編集を行うために最善を尽くします。また、これは複数の部分からなる質問です。質問を複数の異なる投稿に分割すべきか、それとも1つの投稿に分割すべきかはわかりませんでした。質問はすべて同じテキストの1つのセクションからのものであるため、1つの質問として投稿する方が関連性が高いと考えました。 私は修士論文のために大型哺乳類種の生息地利用を研究しています。このプロジェクトの目標は、森林管理者(統計学者ではない可能性が高い)に、この種に関して管理する土地の生息地の品質を評価するための実用的なフレームワークを提供することです。この動物は比較的とらえどころのない、生息地の専門家であり、通常は遠隔地に位置しています。特に季節ごとに、種の分布に関する研究は比較的少ない。数匹の動物に1年間GPSカラーを取り付けました。100の場所(50夏と50冬)は、各動物のGPSカラーデータからランダムに選択されました。さらに、「利用可能」または「擬似欠席」の場所として機能するように、各動物のホーム範囲内で50ポイントがランダムに生成されました。 各場所について、フィールドでいくつかの生息地変数(樹木直径、水平カバー、粗い木質の破片など)がサンプリングされ、いくつかがGISを介してリモートでサンプリングされました(標高、道路までの距離、凹凸など)。変数は、7レベルの1つのカテゴリ変数を除き、ほとんど連続しています。 私の目標は、回帰モデリングを使用してリソース選択関数(RSF)を構築し、リソースユニットの使用の相対確率をモデル化することです。動物の個体群(デザインタイプI)と個々の動物(デザインタイプIII)の季節(冬と夏)RSFを構築したいと思います。 Rを使用して統計分析を実行しています。 プライマリテキスト私が使用しているは... 「Hosmer、DW、Lemeshow、S。、およびSturdivant、RX2013。AppliedLogisticRegression。Wiley、Chicester」。 Hosmer et al。の例の大部分。STATA を使用し、Rで参照するために次の2つのテキストも使用しています。 「クローリー、MJ2005。統計:イギリス、ウェストサセックス州チチェスターのRJワイリーを使用した紹介。」 「植物、RE2012。R.CRC Pressを使用した生態学および農業における空間データ分析、ロンドン、GBR。」 私は現在、Hosmer et al。の第4章の手順に従っています。「共変量の目的の選択」のために、プロセスについていくつか質問があります。私は私の質問に役立つように、以下のテキストの最初のいくつかのステップを概説しました。 ステップ1:各独立変数の単変数分析(単変数ロジスティック回帰を使用しました)。単一変数テストのp値が0.25未満の変数は、最初の多変数モデルに含める必要があります。 ステップ2:ステップ1で含めるために特定されたすべての共変量を含む多変数モデルを近似し、そのWald統計量のp値を使用して各共変量の重要性を評価します。従来の有意水準では寄与しない変数は削除し、新しいモデルを適合させる必要があります。部分尤度比検定を使用して、新しい小さなモデルを古い大きなモデルと比較する必要があります。 ステップ3:小さいモデルの推定係数の値を、大きいモデルのそれぞれの値と比較します。モデルに残っている変数の効果の必要な調整を提供するという意味で重要であるため、係数が大きさで著しく変化した変数はモデルに追加し直す必要があります。すべての重要な変数がモデルに含まれ、除外された変数が臨床的および/または統計的に重要でないと思われるまで、ステップ2および3を繰り返します。ホスマー等。係数の大きさの変化の尺度として「delta-beta-hat-percent」を使用します。彼らは、デルタベータハットパーセントが20%を超える大きな変化を示唆しています。ホスマー等。delta-beta-hat-percentを次のように 定義しますΔのβ^%= 100 θ^1- β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}。ここで、は小さなモデルの係数で、は大きなモデルの係数です。 β 1θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} ステップ4:ステップ1で選択されていない各変数をステップ3の最後に取得したモデルに一度に1つずつ追加し、カテゴリーの場合はWald統計p値または部分尤度比検定のいずれかでその有意性を確認します2レベル以上の変数。このステップは、単独では結果にあまり関係しないが、他の変数の存在下で重要な貢献をする変数を識別するために不可欠です。ステップ4の最後のモデルを、予備的な主効果モデルと呼びます。 ステップ5〜7:ここまで進んでいません。そのため、これらのステップは今のところ省略するか、別の質問のために保存します。 私の質問: ステップ2では、従来の重要度レベルとして適切なものは何でしょうか。p値が<0.05の場合、<。25のように大きくなりますか? 再びステップ2で、部分尤度テストに使用していたRコードが正しいことを確認し、結果を正しく解釈していることを確認します。ここに私がやっていることがあります... anova(smallmodel,largemodel,test='Chisq')p値が有意(<0.05)である場合、変数をモデルに追加し、有意でない場合は削除を続行しますか? ステップ3では、delta-beta-hat-percentに関する質問と、除外された変数をモデルに戻すのが適切な場合について質問があります。たとえば、モデルから1つの変数を除外すると、異なる変数のが20%以上変化します。ただし、 20%を超える変更がある変数は重要ではないようで、手順2および3の次の数サイクルでモデルから除外されるように見えます。両方の変数をモデルに含めるか除外するかを決定しますか?最下位の変数を最初に削除することにより、一度に1つの変数を除外することで進めているため、順序が狂った変数を除外することにheしています。Δ β%Δのβ^%Δβ^%\Delta\hat{\beta}\%Δのβ^%Δβ^%\Delta\hat{\beta}\% 最後に、計算に使用するコードが正しいことを確認します。私は次のコードを使用しています。私のためにこれを行うパッケージまたはそれを行うより簡単な方法がある場合、私は提案を受け入れます。 Δのβ^%Δβ^%\Delta\hat{\beta}\% 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

3
極端な外れ値を持つボックスプロットを表示する方法は?
データの提示に関するガイダンスを使用できます。 この最初のプロットは、サイトカインIL-10の症例対照比較です。y軸を手動で設定して、データの99%を含めました。 これを手動で設定したのは、ケースグループに極端な異常値があるためです。 私の共同研究者は、データセットの外れ値の削除をためらっています。私はそれでいいですが、彼らはむしろそうではありません。それは明らかな解決策です。しかし、すべてのデータを保持し、この外れ値を削除しない場合、どのようにこの箱ひげ図を最適に提示できますか?軸を分割しますか?最初のグラフだけを使用して、すべてのデータを含むように作成されていることに注意してください。(このオプションは私にとって不誠実です)。どんなアドバイスも素晴らしいでしょう。


2
順序ロジスティック回帰の解釈
この順序ロジスティック回帰をRで実行しました。 mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 私はこのモデルの概要を得ました: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …

2
回帰における定性的変数コーディングは「特異点」につながります
「品質」という独立変数があります。この変数には、応答の3つのモダリティ(低品質、中品質、高品質)があります。この独立変数を多重線形回帰に導入したいと思います。バイナリ独立変数(ダミー変数、0/ をコーディングできます1)がある場合、それを多重線形回帰モデルに導入するのは簡単です。 しかし、応答の3つのモダリティを使用して、この変数を次のようにコーディングしようとしました。 Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 しかし、多重線形回帰を行おうとすると問題がありMedium qualityますNA:モダリティは私に与えます: Coefficients: (1 not defined because of singularities) この変数「品質」を3つのモダリティでどのようにコーディングできますか?因子(factorin R)として変数を作成する必要がありますが、この因子を多重線形回帰に導入できますか?

1
Rの関数「効果」は何をしますか?
effects()Rののヘルプファイルの説明がわかりません。 lmまたはによって近似された線形モデルの場合aov、効果は、近似プロセス中にQR分解によって生成された連続する直交部分空間にデータを投影することによって得られた無相関の単一自由度の値です。 誰もこれが何を意味するのか説明できますか? 直交部分空間は、QR分解のQ部分の列にまたがる(したがって、互いに直交する)1次元部分空間を暗示していますか?または、それらは他の何かに直交することになっていますか?
17 r  regression 

2
離散分布を適合させてデータをカウントする方法は?
次のカウントデータのヒストグラムがあります。そして、離散分布をそれに当てはめたいと思います。これについてどうすればいいかわかりません。 最初に離散分布、たとえば負の二項分布をヒストグラムに重ね合わせて、離散分布のパラメーターを取得し、Kolmogorov–Smirnov検定を実行してp値を確認する必要がありますか? この方法が正しいかどうかはわかりません。 このような問題に取り組む一般的な方法はありますか? これは、カウントデータの度数分布表です。私の問題では、ゼロ以外のカウントのみに焦点を合わせています。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:質問したい:Rのfitdistr関数を使用して、データを近似するためのパラメーターを取得しました。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 次に、ヒストグラムの上にポアソン分布の確率質量関数をプロットします。 ただし、ポアソン分布はカウントデータのモデル化に失敗したようです。何か私にできることはありますか?

4
RでANCOVAを実行する方法
植物着生植物の密度に関するデータのANCOVA分析を行いたい。最初は、NとSの2つの斜面の間で植物密度に違いがあるかどうかを知りたいのですが、宿主植物の高度、キャノピーの開放性、高さなどの他のデータがあります。私の共変量は2つの勾配(NとS)でなければならないことを知っています。Rで実行するこのモデルを作成しましたが、うまく機能するかどうかはわかりませんが。また、シンボル+またはを使用した場合の違いを知りたい*です。 model1 <- aov(density~slope+altitude+canopy+height) summary(model1) model1
17 r  ancova 

2
コンピューターベースの実験/シミュレーションにおける残差の独立性?
古科学で使用されている特定のタイプのモデルに適合するさまざまな方法のコンピューターベースの評価を実施しました。大規模なトレーニングセットがあるため、テストセットをランダムに(階層化されたランダムサンプリングで)設定しました。トレーニングセットサンプルに異なる方法を適合させ、結果モデルを使用して、テストセットサンプルの応答を予測し、テストセット内のサンプルのRMSEPを計算しました。これは単一の実行です。mmmmmm その後、新しいテストセットをランダムにサンプリングして異なるトレーニングセットを選択するたびに、このプロセスを何度も繰り返しました。 これを行った後、メソッドのいずれかがRMSEPのパフォーマンスを改善するか、悪化させるかを調査したいと思います。また、ペアワイズ法の複数の比較を行いたいです。mmm 私のアプローチは、線形混合効果(LME)モデルをRunの単一のランダム効果に適合させることでした。私は使用lmer()からlme4のからの私のモデルや機能に合わせてパッケージmultcompの多重比較を行うためのパッケージ。私のモデルは本質的に lmer(RMSEP ~ method + (1 | Run), data = FOO) ここmethodで、テストセットのモデル予測を生成するために使用されたメソッドを示す要因であり、「実験」のRun特定の実行ごとのインジケータです。 私の質問は、LMEの残差に関するものです。実行の単一のランダム効果を考えると、ランダム効果がもたらす誘導相関に基づいて、その実行のRMSEP値はある程度相関しているが、実行間で無相関であると想定しています。 この実行間の独立性の仮定は有効ですか?そうでない場合は、LMEモデルでこれを説明する方法がありますか、または質問に答えるために別のタイプの静的分析を採用する必要がありますか?

3
Rのゼロ膨張負の二項混合効果モデル
Rでゼロ膨張した負の二項混合効果モデル推定を提供するようなパッケージはありますか? ということは: パッケージpsclの関数zeroinflのように、ゼロインフレの二項モデルを指定できるゼロインフレ: zeroinfl(y〜X | Z、dist = "negbin") ここで、Zはゼロインフレモデルの式です。 モデルのカウント部分の負の二項分布。 パッケージlme4の関数lmerと同様に指定されたランダム効果。 glmmADMBはそれをすべて実行できることを理解していますが、ゼロインフレーションの式を指定することはできません(これは単なる切片です。つまり、Zは1になります)。しかし、それをすべて実行できる他のパッケージはありますか? あなたの助けにとても感謝します!

2
分割表のふるい/モザイクプロットの代替
インターネット上のカテゴリデータ(コンティンジェンシーテーブル)のタイプのプロットに出くわしましたが、それは本当に好きでしたが、それを二度と見つけたことがなく、それが何であるかさえ知りません。行の高さと列の幅が限界確率に対してスケーリングされているという点で、それは本質的にふるいプロットのようなものでした。したがって、各ボックスは、独立性の下で予想される相対頻度にスケーリングされました。ただし、各ボックス内にクロスハッチングをプロットするのではなく、各観測の二変量ユニフォームからランダムに選択された位置に点(散布図のように)をプロットするという点で、シーブプロットとは異なりました。このように、ポイントの密度は、観測されたカウントが期待されるカウントとどれだけ一致しているかを反映しています。つまり、すべてのボックスで密度が類似している場合、nullモデルは妥当です。)は、nullモデルではあまりありそうにないかもしれません。クロスハッチングの代わりにポイントがプロットされるため、プロットされる要素と観測カウントの間にはシンプルで直感的な対応がありますが、これは必ずしもシーブプロットには当てはまりません(以下を参照)。さらに、ポイントのランダムな配置は、プロットに「有機的な」感触を与えます。さらに、色を使用して、ヌルモデルから大きく分岐するボックス/セルを強調表示することができ、プロットマトリックスを使用して多くの異なる変数間のペアワイズ関係を調べることができるため、同様のプロットの利点を組み込むことができます。 i,ji,ji,j 誰もこのプロットが何と呼ばれているのか知っていますか? Rや他のソフトウェア(モンドリアンなど)でこれを簡単に行うパッケージ/関数はありますか?vcdにその ようなものが見つかりません。もちろん、ゼロからハードコーディングすることもできますが、それは苦痛です。 ふるいプロットの簡単な例を次に示します。さまざまなカテゴリの予想カウントがnullモデルの下でどのように再生されるかは簡単にわかりますが、クロスハッチングを実際の数値と一致させるのは難しく、非常に読みやすく、審美的に恐ろしい: B ~B A 38 4 ~A 3 19 価値があることに関しては、モザイクプロットには逆の問題があります:どのセルが(多すぎる)または(少なすぎる)カウント(nullモデルに対して)を持っているかを確認するのは簡単ですが、その関係を認識することはより困難です期待されたカウントはそうだったでしょう。具体的には、列の幅は限界確率に比例してスケーリングされますが、行の高さはスケーリングされないため、その情報を抽出することはほぼ不可能になります。 そして今、完全に異なるもののために... 「多すぎる」に青を、「少なすぎる」に赤を使用する規則がどこから来たのか誰もが知っていますか?これは常に私にとって直観に反するものでした。非常に高い密度(または観測値が多すぎる)は高温になり、低密度は低温になり、(少なくともステージ照明では)赤は暖かく、青は冷たくなるように思えます。 更新: 正しく覚えていれば、私が見たプロットは、マーケティングのティーザーとしてオンラインで自由に利用できるようになった本の章(紹介またはch1)のpdfにありました。ここにゼロからコーディングしたアイデアの大まかなバージョンがあります: この粗いバージョンでも、シーブプロットよりも読みやすく、モザイクプロットよりもいくつかの点で簡単だと思います(たとえば、関係の認識が簡単です)セル周波数の間は独立しています)。次の機能があると便利です。任意の分割表でこれを自動的に行います。プロットマトリックスの構成要素として使用でき、c。 上記のプロットに付属する優れた機能があります(モザイクプロットの標準化された残差凡例など)。


2
分割表:実行するテストとタイミング
私は、古くからのカイ二乗対フィッシャーの正確なテストの議論に関するこの議論の延長を見て、少し範囲を広げたいと思っています。分割表には相互作用のテストが数多くあり、頭を回転させるのに十分です。私は、どのテストをいつ使用するべきか、そしてもちろん、あるテストが別のテストよりも優先される理由についての説明を取得したいと思っています。 私の現在の問題は、古典的な場合ですが、Rでさまざまなソリューションを実装するためのヒントと同様に、次元の高さに関する回答は大歓迎です。n×mn×mn \times m 以下に、私が知っているすべてのテストをリストしました。エラーを公開することで修正できることを願っています。 χ2χ2\chi^2。古いスタンバイ。ここには3つの主要なオプションがあります。 2x2テーブルのRに組み込まれた修正:「すべての差から半分が差し引かれます。」私はいつもこれをやるべきですか?|O−E||O−E||O-E| " "テスト、Rでこれを行う方法がわからないN−1N−1N-1χ2χ2\chi^2 モンテカルロシミュレーション。これは常に最高ですか?これを行うとRがdfをくれないのはなぜですか? フィッシャーの正確検定。 従来、セルが4未満になると予想されていましたが、このアドバイスに異論があるようです。 辺縁が固定されているという(通常は誤った)仮定は、本当にこのテストの最大の問題ですか? バーナードの正確検定 別の正確なテスト、私はそれを聞いたことがないことを除いて。 ポアソン回帰 glmsについて私を常に混乱させる1つのことは、この重要性テストを正確に行う方法です。ネストされたモデルの比較を行うのが最善ですか?特定の予測子のWaldテストはどうですか? 本当に常にポアソン回帰を行うべきですか?これとテストの実際の違いは何ですか?χ2χ2\chi^2

2
Rの複数の従属変数を使用して一般化線形モデルを実行する方法は?
6つの従属変数(カウントデータ)といくつかの独立変数があります。MMRでは、スクリプトは次のようになります。 my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) しかし、私のデータはカウントなので、一般化された線形モデルを使用したいので、これを試しました: my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") そして、このエラーメッセージが表示されます: Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, : (subscript) logical subscript …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.