タグ付けされた質問 「assumptions」

統計手順が有効な推定値および/または推論を生成する条件を指します。たとえば、多くの統計手法では、データが何らかの方法でランダムにサンプリングされるという仮定が必要です。推定量に関する理論的な結果には、通常、データ生成メカニズムに関する仮定が必要です。


10
t検定を有効にするために必要な最小サンプルサイズはありますか?
現在、準実験的な研究論文に取り組んでいます。選択したエリア内の人口が少ないため、サンプルサイズは15のみで、基準に適合するのは15のみです。15は、t検定とF検定で計算する最小サンプルサイズですか?もしそうなら、この小さなサンプルサイズをサポートする記事や本はどこで入手できますか? この論文は先週の月曜日にすでに弁護されており、パネルの1人は、私のサンプルサイズが小さすぎるため、支持する参考文献を求めました。彼は、少なくとも40人の回答者がいるべきだったと言った。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

3
なぜ必要ないのに、線形回帰の正規分布誤差項(および同次分散性)にそれほど注意を払うのですか?
残差の非正規性および/または不均一分散性がOLSの仮定に違反していると誰かが言うのを聞くたびにイライラするでしょう。OLSモデルのパラメーターを推定するには、これらの仮定はどちらもガウスマルコフの定理では必要ありません。OLSモデルの仮説検定で、これがどのように重要であるかがわかります。これらのことから、t検定、F検定、およびより一般的なWald統計のきちんとした公式が得られるからです しかし、それらなしで仮説検定を行うことはそれほど難しくありません。等分散性だけを落とすと、ロバストな標準誤差とクラスター化された標準誤差を簡単に計算できます。正規性を完全に落とす場合は、ブートストラップを使用し、エラー項、尤度比、およびラグランジュ乗数検定の別のパラメーター仕様を指定できます。 多くの人がそもそも満たす必要のない仮定に苦しんでいるのを見るので、このように教えるのは残念です。 より堅牢な手法を簡単に適用できる能力があるのに、なぜこれらの仮定にそれほど重点を置いているのでしょうか?重要なものが欠けていますか?

3
ANOVA仮定の正規性/残差の正規分布
ANOVAのウィキペディアのページには、次の3つの仮定がリストされています。 ケースの独立性-これは、統計分析を簡素化するモデルの仮定です。 正規性-残差の分布は正規です。 等分散性と呼ばれる分散の平等(または「均一性」)... ここで重要な点は、2番目の仮定です。いくつかのソースは、仮定を異なってリストしています。生データの正常性、残差の主張などがあります。 いくつかの質問が表示されます: 残差の正規性と正規分布は同じ人ですか(Wikipediaのエントリに基づいて、正規性はプロパティであり、残差に直接関係しないと主張します(しかし、残差のプロパティ(括弧内の深くネストされたテキスト、気紛れ)))? そうでない場合、どの仮定を保持する必要がありますか?1?両方? 正規分布の残差の仮定が正しい場合、生の値のヒストグラムのみの正規性をチェックすることで重大な間違いを犯していますか?

5
OLS残差が正規分布していない場合の回帰
このサイトには、OLS残差が漸近的に正規分布しているかどうかを判断する方法を議論するいくつかのスレッドがあります。Rコードで残差の正規性を評価する別の方法はこのすばらしい答えで提供されます。これは、標準化された残差と観測された残差の実際の違いに関する別の議論です。 しかし、この例のように、残差は明らかに正規分布していないとしましょう。ここには数千の観測があり、明らかに正規分布の残差の仮定を拒否しなければなりません。問題に対処する1つの方法は、回答で説明されているように、何らかの形式の堅牢な推定量を使用することです。しかし、私はOLSに限定されず、実際、他のglmまたは非線形の方法論の利点を理解したいと思います。 残差の仮定のOLS正規性に違反するデータをモデル化する最も効率的な方法は何ですか?または、少なくとも健全な回帰分析方法論を開発するための最初のステップは何ですか?

10
生存時間が指数関数的に分布していると仮定されるのはなぜですか?
私はUCLA IDREに関するこの投稿から生存分析を学んでおり、セクション1.2.1でトリップしました。チュートリアルには次のように書かれています: ...生存時間が指数関数的に分布していることがわかっている場合、生存時間を観察する確率... 生存時間が指数関数的に分布していると仮定されるのはなぜですか?私には非常に不自然に思えます。 なぜ普通に配布されないのですか?特定の条件(日数など)でクリーチャーの寿命を調査していると仮定します。ある分散(100日と分散3日)を中心にすべきでしょうか。 時間を厳密に正にしたい場合は、平均が高く分散が非常に小さい正規分布を作成してください(負の数を取得する機会はほとんどありません)。

2
線形モデルの仮定を検証するための残差対適合値プロットの解釈
Rを使用したFarawayの線形モデル(2005年、59ページ)の次の図を検討してください。 最初のプロットは、残差と適合値が無相関であることを示しているようです。これらは、正規分布誤差のあるホモセダスティック線形モデルにあるはずです。したがって、2番目と3番目のプロットは、残差と近似値の間の依存関係を示しているように見えますが、異なるモデルを示唆しています。 しかし、Farawayが指摘しているように、なぜ2番目のプロットは異分散線形モデルを示唆し、3番目のプロットは非線形モデルを示唆しているのでしょうか? 2番目のプロットは、残差の絶対値が近似値と強く正の相関があることを示しているようですが、3番目のプロットではそのような傾向は明らかではありません。そのため、理論的に言えば、正規分布誤差を持つ不均一線形モデルである場合 Cor(e,y^)=⎡⎣⎢⎢1⋮1⋯⋱⋯1⋮1⎤⎦⎥⎥Cor(e,y^)=[1⋯1⋮⋱⋮1⋯1] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (左の式は残差と近似値の間の分散共分散行列です)、これは2番目と3番目のプロットがFarawayの解釈と一致する理由を説明します。 しかし、これは事実ですか?そうでない場合、2番目と3番目のプロットに対するFarawayの解釈は他にどのように正当化できますか?また、なぜ3番目のプロットが必ずしも非線形性を示しているのですか?線形である可能性はありますが、エラーが正規分布していないか、または正規分布しているがゼロを中心にしない可能性がありますか?

2
50%信頼区間は95%信頼区間よりも堅牢に推定されていますか?
私の質問はAndrew Gelmanのブログ投稿のこのコメントから流れています。AndrewGelmanのブログ投稿では、95%の信頼区間の代わりに50%の信頼区間の使用を提唱しています。 次の3つの理由から、50%から95%の間隔が好ましいです。 計算の安定性、 より直感的な評価(50%間隔の半分に真の値を含める必要があります)、 用途では、パラメータと予測値がどこにあるのかを把握することが最善であり、非現実的なほぼ確実性を試みるのではないという意味。 コメント者の考えは、信頼区間の構築の基礎となる仮定に関する問題は、50%CIである場合よりも95%CIである場合により大きな影響を与えると思われる。しかし、彼はその理由を本当に説明していません。 [...]間隔を大きくすると、一般的にモデルの詳細や仮定に敏感になります。たとえば、99.9995%の間隔を正しく識別したとは思わないでしょう。または、少なくともそれが私の直感です。正しい場合、50パーセントが95パーセントよりも適切に推定されるべきであると主張します。それとも、おそらくノイズに関する仮定の影響を受けにくいため、「より堅牢に」推定されるのでしょうか? 本当ですか?なぜ/なぜないのか?

2
負の二項回帰の仮定は何ですか?
私は大規模なデータセット(機密情報なので、あまり共有することはできません)を使用しており、負の二項回帰が必要であるという結論に達しました。私は以前にglm回帰を行ったことがなく、仮定が何であるかについて明確な情報を見つけることができません。MLRでも同じですか? 変数を同じ方法で変換できますか(自然変数である必要があるため、従属変数の変換は不適切な呼び出しであることが既にわかっています)。私はすでに、負の二項分布がデータの過剰分散に役立つと判断しました(分散は約2000、平均は48)。 助けてくれてありがとう!!

1
仮定が満たされない場合、回帰モデルはどの程度間違っていますか?
回帰モデルをフィッティングするとき、出力の仮定が満たされない場合、具体的にはどうなりますか: 残差が等分散でない場合はどうなりますか?残差対残差対適合プロットでパターンが増加または減少する場合。 残差が正規分布されず、Shapiro-Wilkテストに失敗するとどうなりますか?Shapiro-Wilkの正規性のテストは非常に厳密なテストであり、Normal-QQプロットがある程度合理的である場合でも、データはテストに失敗します。 1つ以上の予測変数が正規分布していない場合、Normal-QQプロットで正しく表示されない場合、またはデータがShapiro-Wilkテストに失敗した場合はどうなりますか? 私は、ハードな白黒の分割がないこと、0.94が正しいこと、0.95が間違っていることを理解しています。質問では、私は知りたいです: 正規性に失敗するとは、R-Squaredの値に応じて適切に適合するモデルを意味します。信頼性が低下したり、まったく役に立たなくなったりしませんか? 偏差はどの程度許容されますか、それともまったく許容されますか? 正規性の基準を満たすためにデータに変換を適用する場合、データがより正常な場合(Shapiro-Wilk検定のP値が高く、通常のQQプロットの方が良い場合)、または役に立たない場合(同等に良好またはデータが正規性テストに合格するまで、元のものと比べて悪いですか?

3
「独立した観測」とはどういう意味ですか?
私は、独立した観測の仮定が意味するものを理解しようとしています。いくつかの定義は次のとおりです。 「2つのイベントは、場合にのみ独立しています。」(統計用語辞書)P(a∩b)=P(a)∗P(b)P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) 「あるイベントが発生しても、別のイベントの確率は変わりません」(ウィキペディア)。 「1つの観測値のサンプリングは、2番目の観測値の選択に影響しません」(David M. Lane)。 しばしば与えられる従属的な観察の例は、以下のように教師内にネストされた学生です。教師は生徒に影響を与えますが、生徒はお互いに影響を与えないと仮定しましょう。 では、これらのデータの定義はどのように違反されますか?[student = 1]のサンプリング[grade = 7]は、次にサンプリングされるグレードの確率分布に影響しません。(または、もしそうなら、観測1は次の観測に関して何を予測しますか?) gender 代わりに 測定した場合、観測はなぜ独立しているのteacher_idでしょうか?同じように観測に影響しませんか? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9

5
線形回帰の等分散性の仮定に違反する危険性は何ですか?
例として、ChickWeightRのデータセットを考えてみましょう。分散は明らかに時間とともに増大するため、次のような単純な線形回帰を使用すると、 m <- lm(weight ~ Time*Diet, data=ChickWeight) 私の質問: モデルのどの側面に疑問があるか? 問題はTime範囲外の外挿に限定されていますか? この仮定の違反に対する線形回帰の許容度(つまり、問題を引き起こすためにはどの程度異分散が必要か)。

3
生データまたは残差の正常性を確認する必要がありますか?
生データではなく、その残差で正規性をテストする必要があることを学びました。残差を計算してからShapiro–WilkのW検定を実行する必要がありますか? 残差はとして計算されますか?バツ私− 平均バツ私−平均X_i - \text{mean} 私のデータと設計については、この前の質問をご覧ください。

1
Mantelテストを非対称行列に拡張できますか?
マンテル検定は通常、対称距離/差分行列に適用されます。私が理解している限り、テストの前提は、差を定義するために使用される尺度が少なくとも半メトリックでなければならないということです(メトリックの標準要件を満たしますが、三角形の不等式は満たしません)。 対称性の仮定を緩和することができますか(事前測定基準を与える)?この場合、完全行列を使用して置換テストを適用することはできますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.