タグ付けされた質問 「assumptions」

統計手順が有効な推定値および/または推論を生成する条件を指します。たとえば、多くの統計手法では、データが何らかの方法でランダムにサンプリングされるという仮定が必要です。推定量に関する理論的な結果には、通常、データ生成メカニズムに関する仮定が必要です。

1
ロジットの線形性の違反に対するロジスティック回帰のロバスト性の調査
バイナリの結果(開始と開始ではない)でロジスティック回帰を行っています。私の予測因子の組み合わせは、すべて連続変数または二分変数です。 Box-Tidwellアプローチを使用すると、私の連続予測子の1つがロジットの線形性の仮定に違反する可能性があります。適合度の統計から、適合度に問題があるという兆候はありません。 その後、元の連続変数を次のように置き換えて、回帰モデルを再度実行しました。1つ目は平方根変換、2つ目は変数の二分法バージョンです。 出力を調べると、適合度はわずかに向上しているようですが、残差が問題になります。パラメータ推定値、標準誤差、およびは比較的似ています。データの解釈は、3つのモデル間で私の仮説の観点からは変わりません。exp(β)exp⁡(β)\exp(\beta) したがって、私の結果の有用性とデータの解釈の観点から、元の連続変数を使用して回帰モデルを報告するのが適切なようです。 私はこれを思っています: ロジスティック回帰は、ロジット仮定の線形性の潜在的な違反に対して堅牢なのはいつですか? 上記の例を考えると、元の連続変数をモデルに含めることは許容できると思われますか? モデルがロジットの線形性の潜在的な違反に対してロバストであることを受け入れることが十分である場合に推奨するためのリファレンスまたはガイドはありますか?

2
ウィルコクソン符号順位検定に順序データまたは区間データは必要ですか?
複数のオンラインソースを見て、正直な答えが得られないようです。序数データが​​WSRTに使用するのに十分であるかどうかを誰かが私に明確にしてもらえますか?そうでない場合、サインテストは適切な代替ですか?最後に、これは大学での論文プロジェクトのためのものであり、参考文献や文学を回答に含めることができれば、どちらの方法でもテストの選択を正当化する必要があり、これまでのところWebサイト(私は参照できません!)

3
因子分析で因子によって読み込まれるアイテム(変数)が2つ(またはそれ以下)だけであっても問題ありませんか?
SPSSで因子分析を行った20個の変数のセットがあります。研究のために、私は6つの要因を開発する必要があります。SPSSは、8つの変数(20のうち)が低い重みでロードされているか、いくつかの要因によって等しくロードされていることを示したため、それらを削除しました。残りの12個の変数は、6つの要素の2つのペアで読み込まれています。これは完全な構造です。私が望んでいたとおりですが、私と一緒に働いている教授の1人が、なぜ(またはどのような条件下で)正当化するのかを求めています因子分析は、因子ごとに3つ以上の項目がロードされた結果で有用であることが一般に知られているため、因子ごとに2項目のみを保持することが適切です。 誰かがこの問題について、できれば公開されたリファレンスも助けてくれますか?


1
尖度によって生成された外れ値の処理
誰かが尖度に関する情報を手伝ってくれるかどうか疑問に思っていました(つまり、データを変換して削減する方法はありますか?) 多数のケースと変数を含むアンケートデータセットがあります。いくつかの変数について、データはかなり高い尖度値(すなわち、レプトクルト分布)を示しています。これは、多くの参加者が変数に対して正確に同じスコアを与えたという事実から派生しています。私は特に大きなサンプルサイズを持っているので、中心極限定理によれば、正規性の違反はまだ問題ないはずです。 ただし、問題は、特に高レベルの尖度が私のデータセットに多くの単変量の外れ値を生成しているという事実です。そのため、データを変換したり、外れ値を削除/調整したりしても、高レベルの尖度は、次に最も極端なスコアが自動的に外れ値になることを意味します。(判別関数分析)を利用することを目指しています。DFAは、違反が外れ値ではなく歪度によって引き起こされている場合、正常からの逸脱に対して堅牢であると言われています。さらに、DFAはデータの外れ値の影響を特に受けているとも言われています(Tabachnick&Fidel)。 これを回避する方法のアイデアはありますか?(私の最初の考えは尖度を制御する何らかの方法でしたが、私のサンプルのほとんどが同様の評価を与えているのであれば、それは一種の良いことではありませんか?)

3
線形回帰における線形性の仮定は単に
線形回帰を修正しています。 グリーンによる教科書はこう述べている: ここで、もちろん、線形回帰モデルにはなどの他の仮定があります。この仮定と線形性の仮定(実際にはdefinesを定義する)を組み合わせると、モデルに構造が適用されます。E(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0ϵϵ\epsilon しかし、直線性の仮定自体によっては以来、私たちのモデルにどのような構造を入れていません完全に任意でよいです。変数X 、yについては、2つの関係が何であれ、線形性の仮定が成り立つようにϵを定義できます。したがって、線形性「仮定」は、仮定ではなく、実際にはϵの定義と呼ばれるべきです。ϵϵ\epsilonX,yX,yX, yϵϵ\epsilonϵϵ\epsilon したがって、私は不思議に思っています: グリーンはだらしないですか?彼は、実際に書かれている必要があります:?これは実際にモデルに構造を置く「線形性の仮定」です。E(y|X)=XβE(y|X)=XβE(y|X)=X\beta それとも私は、直線性の仮定がモデルに構造を置いていないことを受け入れなければならないだけ定義します他の仮定はのその定義に使用する、εをモデルに構造を置くことを?ϵϵ\epsilonϵϵ\epsilon 編集:他の仮定については混乱があるようですので、ここに仮定の完全なセットを追加しましょう: これはグリーン、計量経済分析、第7版からです。p。16。

2
パラメトリックモデルでの比例ハザード仮定のテスト
Cox PHモデルのコンテキストで比例ハザードの仮定をテストすることは知っていますが、パラメトリックモデルに関連するものは何もありませんか?特定のパラメトリックモデルのPH仮定をテストする実行可能な方法はありますか? パラメトリックモデルはセミパラメトリックCoxモデルとわずかに異なるだけであると考える必要があるようです。 たとえば、ゴンペルツの死亡率曲線(下図)を近似したい場合、PHの仮定をどのようにテストしますか? μxHx(t)Sx(t)=abeax+βZ=∫t0μx+tdt=b(eat−1)eax+βZ=exp(−Hx(t))μx=abeax+βZHx(t)=∫0tμx+tdt=b(eat−1)eax+βZSx(t)=exp(−Hx(t))\begin{align} \mu_{x}&=abe^{ax+\beta Z}\\ H_{x}(t)&=\int_{0}^{t}\mu_{x+t}\,dt=b(e^{at}-1)e^{ax+\beta Z}\\ S_{x}(t)&=\text{exp}(-H_{x}(t)) \end{align} 一般的に私が求めているのは、パラメトリック生存モデルの場合、モデルの適合度を評価し、モデルの仮定(存在する場合)をテストする方法は何ですか? パラメトリックモデルでPHの仮定を確認する必要がありますか、それともCoxモデルだけですか?

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
相互作用項をロジスティック回帰モデルに含めると、線形性の仮定を評価するのに役立つのはなぜですか?
でSPSS使って発見統計アンディ・フィールドで第4版を、それが独立変数間の相互作用の項含めることをお勧めしとそれに対応する自然対数変換直線性の仮定の違反をチェックするための変数を。この背後にある統計理論は何ですか?xxxln(x)ln⁡(x)\ln(x) これは本からの引用: この仮定は、予測子とその対数変換の間の交互作用項が有意であるかどうかを調べることによってテストできます(Hosmer&Lemeshow、1989)。 最近、この変換がBox-Tidwell変換と呼ばれていることもわかりました。


2
最小二乗仮定
次の線形関係を仮定: ここで、Y iは従属変数であり、X I単一の独立変数及びU I誤差項。Yi=β0+β1Xi+uiYi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_iYiYiY_iXiXiX_iuiuiu_i Stock&Watson(計量経済学入門; 第4章)によると、3番目の最小二乗の仮定は、とu iの4次モーメントは非ゼロで有限(0 &lt; E (X 4 i)&lt; ∞ および 0 &lt; E (u 4 i)&lt; ∞ )。XiXiX_iuiuiu_i(0&lt;E(X4i)&lt;∞ and 0&lt;E(u4i)&lt;∞)(0&lt;E(Xi4)&lt;∞ and 0&lt;E(ui4)&lt;∞)(0<E(X_i^4)<\infty \text{ and } 0<E(u_i^4)<\infty) 3つの質問があります。 私はこの仮定の役割を完全には理解していません。この仮定が成り立たない場合、または推論にこの仮定が必要な場合、OLSは偏っており、矛盾していますか? ストックとワトソンは、「この仮定は、またはu iの非常に大きな値で観測値を描画する確率を制限します。」と書いています。しかし、私の直感では、この仮定は極端です。外れ値が大きい場合(4次モーメントが大きい場合など)に問題がありますが、これらの値がまだ有限である場合はどうでしょうか。ところで、外れ値の根底にある定義は何ですか?XiXiX_iuiuiu_i これを次のように再定式化できますか:「とu iの尖度は非ゼロで有限ですか?」XiXiX_iuiuiu_i

1
経験的測定値の「正規分布を仮定した」と書いてもよいですか。
人口などの生物医学的量の測定が通常の「ベルカーブ」に従うことは、医学などの応用分野の教育に根付いています。文字列のA Google検索「我々は正規分布と仮定」リターンをの結果を!気候変動に関する研究では、「極端なデータポイントの数が少ない場合は、温度異常の正規分布を想定した」ように聞こえます。または、ペンギンに関する異論の少ない可能性のある文書で「ニワトリの孵化日の正規分布を仮定した」。または 「GDP成長ショックの正規分布を想定」、23,90023,900\small 23,900、 ... と他のこと)。 最近、私はカウントデータの厳密に肯定的な性質のために正規分布としての扱いに疑問を感じました。もちろん、カウントデータは離散的であるため、正規性はさらに人為的になります。しかし、この後者の点を別にしても、原型的に「連続的」と見なされる、グルコースの重量、高さ、または濃度などの連続的な経験的測定が正常と見なされるのはなぜですか?カウントがする以上に否定的な実現観察はあり得ません! 標準偏差が平均より大幅に低く、負の値がほとんどない場合( "95%範囲チェック")、それは実際的な仮定である可能性があり、頻度ヒストグラムが歪んでいない場合はそれをサポートします。しかし、質問は些細なことのように思われませんでした、そして迅速な検索は興味深いものを見つけました。 で自然我々は、上の次のステートメントを見つけることができDFヒースによって手紙を:「私は特定のタイプのデータの統計的分析のためのデータを正規母集団から引き出されていることを仮定は通常間違っている、との代替ということを指摘したいです対数正規分布の仮定の方が優れています。この代替手段は統計学者、経済学者、物理学者に広く使用されていますが、他の分野の科学者には何らかの理由で無視されることがよくあります。」 Limpertは、「対数正規モデルは、現在多くの科学者が正規を有効な近似として認識しているという意味での近似として機能する可能性がある」と述べ、正規性の適合度テストの低い検出力と選択の難しさを指摘しています。小さなサンプルを扱う場合、経験的に正しい分布。 したがって、問題は「応用科学の実証的測定値の正規分布をさらに裏付けとなる証拠なしに仮定することはいつ受け入れられるのか」ということです。そして、なぜ対数正規のような他の代替案が、なぜ、そしておそらくおそらく定着しないのでしょうか?

2
これら2つのBreusch-Paganテストの違いは何ですか?
一部のデータでRを使用し、データが不均一であるかどうかを確認しようとしたところ、Breusch-Paganテストの2つの実装、bptest(パッケージlmtest)とncvTest(パッケージcar)が見つかりました。ただし、これらの結果は異なります。2つの違いは何ですか?どちらを使用するかをいつ選択すべきですか? &gt; model &lt;- lm(y ~ x) &gt; bp &lt;- bptest(model) &gt; bp studentized Breusch-Pagan test data: model BP = 3.3596, df = 1, p-value = 0.06681 &gt; ncvTest(model) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 3.858704 Df = 1 p = 0.04948855 これらの例は、テストによると、私のデータはある場合には異分散性であり、別の場合には同分散性であることを示しています。ここでこの質問を見つけたので、bptestが学生化されている可能性があり、ncvTestはそうではない可能性がありますが、これはどういう意味ですか?

1
t検定の正規性の仮定に関する質問
t検定の場合、ほとんどのテキストによれば、母集団データは正規分布しているという仮定があります。なぜだかわかりません。t検定は、標本平均の標本分布が母集団ではなく正規分布であることのみを要求しませんか? t検定が最終的にサンプリング分布の正規性のみを必要とする場合は、母集団は任意の分布のように見えますか?適切なサンプルサイズがある限り。それは中心極限定理が述べていることではありませんか? (ここでは1標本または独立標本のt検定を参照しています)

2
残差は根本的な障害とどのように関連していますか?
最小二乗法では、モデルの未知のパラメーターを推定します。 Yj=α+βxj+εj(j=1...n)Yj=α+βxj+εj(j=1...n)Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n) (いくつかの観測値について)それを実行すると、近似回帰直線が得られます。 Yj=α^+β^x+ej(j=1,...n)Yj=α^+β^x+ej(j=1,...n)Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n) ここで明らかに、いくつかのプロットをチェックして、仮定が満たされていることを確認します。等分散性をチェックしたいとしますが、これを行うには、実際には残差チェックしています。残差対予測値のプロットを調べて、不等分散性が明らかであることがわかった場合、それが外乱項とどのように関係しているのでしょうか。残差の異分散性は、外乱条件の異分散性を意味しますか? ε Jejeje_jεjεj\varepsilon_j

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.