タグ付けされた質問 「chi-squared」

テスト(通常、分布、独立性、または適合度)またはそのようなテストに関連する分布のファミリー。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
分散の信頼区間を作成するときにカイ二乗が使用されるのはなぜですか?
これは非常に基本的な質問です。なぜカイ二乗分布を使用するのですか?この分布の意味は何ですか?なぜ分散の信頼区間を作成するためにこの分布が使用されるのですか? 私が説明のためにグーグルで検索するすべての場所は、これを事実として提示し、chiを使用するタイミングを説明しますが、chiを使用する理由と、chiが使用される理由を説明しません。 正しい方向に私を向けることができる人に感謝します-それは、分散の信頼区間を作成するときにchiを使用している理由を本当に理解しています。

4
期待値と最も可能性の高い値(モード)
分布の期待値はf(x)f(x)f(x)平均、つまり加重平均値 E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx 最も可能性の高い値はモードであり、最も可能性の高い値です。 しかし、何回かを何度も見ると予想しますか?ここから引用:E[x]E[x]E[x] 結果確率が等しくない場合、単純平均を加重平均に置き換える必要があります。これは、一部の結果が他の結果よりも高い可能性があるという事実を考慮に入れています。ただし、直観は同じままですの期待値は、平均して発生すると予想される値です。xixix_ixxx。 「平均して」とはどういう意味か理解できませんが、これは、重要な意味で、他のの値よりもを見るのに多くの時間を費やすことを意味しますE[x]E[x]E[x]xxxますか?しかし、これはモードの定義ではありませんか? それでは、ステートメントをどのように解釈するのでしょうか?そして、確率的意味は何ですか?E[x]E[x]E[x] また、私が混乱する例を示したいと思います。研究χ2χ2\chi^2分布私はそれを学んだモードが あるχ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2、つつ、E[χ2]=νE[χ2]=νE[\chi^2]=\nu、νν\nuデータの自由度です。 私がやったときに、ことを大学で聞いたχ2χ2\chi^2のデータセットにフィットするように最小二乗法を使用した後にテストを、私は得ることを期待すべきであるχ2≈νχ2≈ν\chi^2 \approx \nu「それは一般的に何が起こるかだ」ので。 私はこのすべてを誤解しましたか、それとも期待値はどういうわけか非常にありそうですか?(最も可能性の高い値がもちろんモードであっても)

1
カイ二乗特徴選択はどのように機能しますか?
各フィーチャクラスペアについて、カイ二乗統計の値が計算され、しきい値と比較されることを知っています。 私は少し混乱しています。特徴とクラスが場合、分割表をどのように作成しますか?どの機能を保持し、どの機能を削除するかをどのように決定しますか?mmmkkk どんな説明でも大歓迎です。前もって感謝します

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

1
以下のための最も鋭い知ら尾の境界何である
ましょのカイ二乗分布するランダム変数であるk個の自由度。以下の確率の最もシャープな既知の境界は何ですかX∼χ2kX∼χk2X \sim \chi^2_kkkk P[X&gt;t]≤1−δ1(t,k)P[X&gt;t]≤1−δ1(t,k) \mathbb{P}[X > t] \leq 1 - \delta_1(t, k) そして P[X&lt;z]≤1−δ2(z,k)P[X&lt;z]≤1−δ2(z,k) \mathbb{P}[X < z] \leq 1 - \delta_2(z, k) ここで、及びδ 2は、いくつかの機能があります。関連する論文へのポインタをいただければ幸いです。δ1δ1\delta_1δ2δ2\delta_2

1
カールピアソンはどのようにしてカイ2乗統計量を算出しましたか?
ピアソンは、1900年に次のピアソンのカイ2乗統計をどのように思いついたのですか? K=∑(Oij−Eij)2EijK=∑(Oij−Eij)2Eij K = \sum \frac{(O_{ij} -E_{ij})^2}{E_{ij}} その K∼χ2K∼χ2 K \sim \chi^2 彼はカイ二乗を念頭に置いて、メトリック(ボトムアップアプローチ)を考案しましたか、それとも統計を考案し、後でカイ二乗分布に従うことを証明しましたか(トップダウン)?KKK 彼がやなどの他の形式ではなく特定の形式を選択した理由を知りたい 、また、彼が正方形を分母で分割した理由。Σ (O私はj- E私はj)2∑(O私j−E私j)2\sum(O_{ij} -E_{ij})^2∑ | O私はj- E私はj|∑|O私j−E私j|\sum|O_{ij} -E_{ij}|

2
二乗正規変数とカイ二乗変数の畳み込みの分布?
最近、データの分析中に次の問題が発生しました。確率変数Xが正規分布に従い、Yが分布(n dof)に従う場合、はどのように分布しますか?これまで PDFを思いついた: Z = X 2 + Y 2 Y 2 ψ 2 N(X )χ2nχn2\chi^2_nZ=X2+Y2Z=X2+Y2Z = X^2 + Y^2Y2Y2Y^2ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} \cdot …

1
2つの経験的な離散分布の差をテスト
経験的分布として使用している離散分布からいくつかの大きなサンプルがあるテストデータがあります。分布が実際に異なるかどうか、実際に異なる分布の平均の違いは何かをテストしたいと思っています。 それらは離散分布なので、基礎となる連続分布の仮定により、コルモゴロフ-スミルノフ検定は無効であると理解しています。カイ二乗検定は、分布が実際に異なるかどうかの正しいテストでしょうか? 平均の違いにどのテストを使用しますか?より良いアプローチは、分布からサンプリングして差を取り、次に差の分布に対して分析を実行することですか?

3
爆弾はどこにありますか:行と列の合計を与えられた確率を推定する方法は?
この質問は、ポケモンソウルシルバーのミニゲームに触発されたものです。 この5x6領域に15個の爆弾が隠れていると想像してください(編集:最大1個の爆弾/セル): 行/列の合計を考慮して、特定のフィールドで爆弾を見つける確率をどのように推定しますか? 列5(合計爆弾= 5)を見ると、次のように思うかもしれません。この列では、行2で爆弾を見つけるチャンスは行1で見つける可能性の2倍です。 この(間違った)直接比例の仮定は、基本的に標準の独立テスト操作(カイ二乗など)を間違ったコンテキストに描画すると説明できるため、次の推定につながります。 ご覧のように、直接比例は100%を超える確率の推定につながり、それ以前でも間違っています。 そこで、考えられるすべての順列の計算シミュレーションを実行し、15個の爆弾を配置する276のユニークな可能性を導きました。(与えられた行と列の合計) 276のソリューションの平均は次のとおりです。 これは正しい解決策ですが、指数関数的な計算作業のため、推定方法を見つけたいと思います。 私の質問は今です:これを推定する確立された統計的方法はありますか?これが既知の問題であるかどうか、それがどのように呼ばれるか、お勧めできる論文/ウェブサイトがあるかどうか疑問に思っていました!

1
ガンマ分布とカイ二乗分布の関係
場合、すなわち、全て、同じ分散を有するゼロ平均の正規確率変数IIDれます次いで、 X 、I〜N(0 、σ 2)X 、I Y 〜Γ (NY=∑i=1NX2iY=∑i=1NXi2Y=\sum_{i=1}^{N}X_i^2Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim \mathcal{N}(0,\sigma^2)X私X私X_iY〜 Γ (N2、2σ2)。Y∼Γ(N2、2σ2)。Y \sim \Gamma\left(\frac{N}{2},2\sigma^2\right). カイ2乗分布はガンマ分布の特殊なケースですが、ランダム変数Yのカイ2乗分布を導出できませんでしたYYY。助けてください?

2
多くのセルの周波数が5未満の場合のカイ2乗検定の適用性
ピアのサポート(独立変数)と仕事の満足度(従属変数)の関連を見つけるために、カイ2乗検定を適用したいと思います。ピアのサポートは、サポートの範囲に応じて4つのグループに分類されます。1=非常に少ない、2 =ある程度、3 =非常に大きい、4 =非常に大きい。仕事の満足度は2つのカテゴリに分類されます。0=満足していない、1 =満足しています。 SPSSの出力では、37.5パーセントのセル周波数が5未満であることが示されています。私のサンプルサイズは101であり、独立変数のカテゴリをより小さな数に減らしたくありません。この状況で、この関連付けをテストするために適用できる他のテストはありますか?

5
カイ二乗を使用して比率を比較できますか?
カイ二乗検定は、サンプルが期待値のセットと大きく異なるかどうかを確認するのに役立ちます。 たとえば、ここに人々のお気に入りの色に関する調査の結果の表があります(n = 15 + 13 + 10 + 17 = 55回答者): red,blue,green,yellow 15,13,10,17 カイ二乗検定は、このサンプルが、各色を好む人々の等しい確率の帰無仮説と有意に異なるかどうかを教えてくれます。 質問:特定の色を好む回答者の合計の割合でテストを実行できますか?以下のように: red,blue,green,yellow 0.273,0.236,0.182,0.309 もちろん、0.273 + 0.236 + 0.182 + 0.309 = 1です。 この場合、カイ二乗検定が適切でない場合、どのような検定になりますか?ありがとう! 編集:私は以下の@RomanLuštrikの答えを試して、次の出力を得ました、なぜp値が得られないのですか?なぜRは「カイ二乗近似が間違っている可能性がある」と言うのですか? &gt; chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)) Chi-squared test for given probabilities data: c(0, 0, 0, 8, 6, 2, 0, 0) X-squared = NaN, …

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

1
カイ2乗検定とカイ2乗分布の理解
私はカイ二乗検定の背後にある論理を理解しようとしています。 カイ2乗検定は。χ2は、その後、帰無仮説を棄却かないためにp.valueを見つけるためにカイ二乗分布と比較されます。H0:観測値は、期待値の作成に使用した分布から取得されます。たとえば、取得の確率が予想どおりpで与えられるかどうかをテストできます。したがって、100回反転し、nHと1−nHを見つけます。我々は(期待されているものに我々の発見を比較したい100⋅P)。二項分布を使用することもできますが、それは問題のポイントではありません…問題は次のとおりです。χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p あなたはなぜ、帰無仮説の下で、説明していただけますはカイ二乗分布に従いますか?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} カイ2乗分布について知っているのは、次のカイ2乗分布がkの標準正規分布の2乗の合計であることだけです。kkkkkk

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.