タグ付けされた質問 「chi-squared」

テスト(通常、分布、独立性、または適合度)またはそのようなテストに関連する分布のファミリー。

2
カイ二乗確率変数の二乗の合計の分布はどのようになっていますか?
次の方程式の分布はどうなりますか: y= a2+ 2 a d+ d2y=a2+2ad+d2y = a^2 + 2ad + d^2 ここでとは、自由度を持つ独立した非中心カイ二乗確率変数です。d 2 Maaaddd2 M2M2 \textbf{M} OBS:RVの生成の両方と持っていると、のは言わせ。D μ = 0 σ 2 ≠ 1 σ 2 = Caaadddμ = 0μ=0\mu = 0σ2≠ 1σ2≠1\sigma^2 \neq 1σ2= cσ2=c\sigma^2 = c

1
マルコフ連鎖が理論的な連鎖と等しいかどうかをテストする
経験的な遷移カウント行列Qがあります。理論的な1次のマルコフ連鎖Pがあります。Nは遷移の数です。QがPと互換性があるかどうかをテストしたいと思います。カイ二乗統計計算する理論的なカウント遷移行列(N * P)、次に自由度の分布のp値を計算します? χ2K*(K-1)∑Ki,j(Qij−(N∗Pij))2N∗Pij∑i,jK(Qij−(N∗Pij))2N∗Pij\sum_{i,j}^{K} \frac{(Q_{ij}-(N*P_{ij}))^2}{N*P_{ij}}χ2χ2\chi^2K∗(K−1)K∗(K−1)K*(K-1)

3
残差逸脱度と自由度を使用してロジスティック回帰モデルをテストする
私はPrinceton.eduでこのページを読んでいました。彼らはロジスティック回帰を実行しています(Rを使用)。ある時点で、モデルの自由度と等しい自由度の分布で得られたものよりも高い残差を得る確率を計算します。ウェブサイトからコピーして貼り付けています...χ2χ2\chi^2 > glm( cbind(using,notUsing) ~ age + hiEduc + noMore, family=binomial) Call: glm(formula = cbind(using, notUsing) ~ age + hiEduc + noMore, family = binomial) Coefficients: (Intercept) age25-29 age30-39 age40-49 hiEduc noMore -1.9662 0.3894 0.9086 1.1892 0.3250 0.8330 Degrees of Freedom: 15 Total (i.e. Null); 10 Residual Null Deviance: 165.8 …

1
R 2乗および高次の多項式回帰
以下のプロットは、移動時間への影響に対する道路の飽和度を示しています(自由流の移動時間に正規化)。 青い(BPR関数)曲線は、移動時間と飽和度を関連付けるためにフィールドで使用される標準化されたモデルを示しています。 私が収集した経験的データについて、赤で示されている3次多項式近似をプロットしました。この近似を評価するために、この3次近似のを見つけました。これは0.72と指定されました。R2R2R^2 私は同僚にについて話しました、そして彼は私にこの記事を指摘しました。非線形回帰のR-Squaredがないのはなぜですか?R2R2R^2 がより高次の多項式の適合を評価するために使用されているという多くの記事を見つけましたが、今はかなり混乱しています。R2R2R^2 あるこの場合、不適切な?代わりに何を使用すればよいですか?R2R2R^2

1
二項分布がデータに適合するかどうかのテスト
そのような離散分布からのサンプルがあります: Type: 0 1 2 3 4 5 Occurrences: 88 12 52 43 21 5 私の仕事は、二項分布(n = 5、p)がこのデータに適合するかどうかをテストすることです。 私は仮説検定を使用することを意図しており、カイ2乗検定はこの種のタスクの主要なものであることを理解しています。私はこの関連する質問を見ましたが、それでもテストの設定方法がわかりません。どうすればよいですか?

2
カイ二乗から正規分布への変換
標準正規分布とカイ2乗分布の関係はよく知られています。でも、 から標準正規分布に戻る変換はあるのでしょうか。χ2(1)χ2(1)\chi^2 (1) その範囲は正の数値のみであるため、平方根変換が機能しないことが簡単にわかります。結果の分布は、折りたたまれた正規分布と呼ばれていると思います。ここで機能する巧妙なトリックはありますか?

5
ランダムな量の信頼区間?
仮定a⃗ a→\vec{a}未知であるppp -ベクトル、及び一方が観察。観測されたと既知のパラメーターのみに基づいて、ランダムな量信頼区間を計算したいと思います。つまり、与えられた、ような見つけます。b⃗ ∼N(a⃗ ,I)b→∼N(a→,I)\vec{b} \sim \mathcal{N}\left(\vec{a}, I\right)b⃗ ⊤a⃗ b→⊤a→\vec{b}^{\top} \vec{a}b⃗ b→\vec{b}pppα∈(0,1)α∈(0,1)\alpha \in (0,1)c(b⃗ ,p,α)c(b→,p,α)c(\vec{b}, p, \alpha)Pr(b⃗ ⊤a⃗ ≤c(b⃗ ,p,α))=αPr(b→⊤a→≤c(b→,p,α))=αPr\left(\vec{b}^{\top}\vec{a} \le c(\vec{b},p,\alpha)\right) = \alpha 信頼区間に寄与するランダム性も影響するため、これは奇妙な質問です。単純明快なアプローチは、、として、、は、これはの期待値です。(は、最大スケーリングでは、非中心カイ二乗RVであり、非中心パラメーターはb⃗ b→\vec{b}b⃗ b→\vec{b}a⃗ ∼N(b⃗ ,I)a→∼N(b→,I)\vec{a} \sim\mathcal{N}\left(\vec{b}, I\right)b⃗ ⊤a⃗ ∼N(b⃗ ⊤b⃗ ,b⃗ ⊤b⃗ I)b→⊤a→∼N(b→⊤b→,b→⊤b→I)\vec{b}^{\top}\vec{a} \sim\mathcal{N}\left(\vec{b}^{\top}\vec{b}, {\vec{b}^{\top}\vec{b}}I\right)b⃗ ⊤b⃗ b→⊤b→\vec{b}^{\top}\vec{b}a⃗ ⊤a⃗ a→⊤a→\vec{a}^{\top}\vec{a}b⃗ ⊤a⃗ b→⊤a→\vec{b}^{\top}\vec{a}b⃗ ⊤b⃗ b→⊤b→\vec{b}^{\top}\vec{b}a⃗ ⊤a⃗ a→⊤a→\vec{a}^{\top}\vec{a} ; …

2
2x2分割表のテスト:男性/女性、雇用/非雇用
私は科学を専攻していて、私の統計学の知識は表面的なものです。 問題 データセットを見つけ、統計コースの課題として自分の能力を最大限に活用して分析する必要がありました。これはもはや課題ではありません。分析がうまくいかなかった理由と代わりに何をすべきかを解釈するのに助けが必要です。 私はニュージーランドの雇用率のカテゴリーデータセットを使用して、2x2分割表に配置し、ピアソンのカイ2乗検定とフィッシャーの正確確率検定を使用して、性別が雇用と相関しているかどうかを検定しました。 答えたいこと この問題に対してカイ2乗検定とフィッシャーの正確確率検定を使用できない理由を理解し、代わりに何を使用すべきかを理解してください。「時間の関数としてのオッズ比」と思いますか?Rで完全にそれを行う方法に関する有用なリンクはありますか? 割り当ての最初の部分に関する「順次相関」コメントと、正確に何をすべきかを理解してください。 私を助ける方法#1(短い) データは次のとおりです(国勢調査に基づく)。 Male Female Employed 1201600 1060200 Unemployed 73300 75000 Rでカイ2乗検定とフィッシャーの正確確率検定を行いました。得られたp値から、nullがtrue(男性と女性)である場合に、このような仕事の分布(または1つ以上の極値)の確率がわかると想定しています。就職のチャンスは同じです)。私は非常に小さいp値を取得しました。フィッシャーのテストでは、オッズ比1.16が得られました。これは、相関関係があり、特に男性がニュージーランドで就職する可能性が16%高いことを意味します。 しかし、私の講師によると、私はこれらのテストを不適切に使用しました。理由はよくわかりませんでしたが、これらのテストは独立性を前提としていると彼は言っていたと思います。NZには一定量の求人があるため、サンプルは独立していないので...下に引用されている彼のフィードバックを見ることができます)。 私を助ける方法#2(長い) 時間に余裕があれば、課題全体をご覧いただければ幸いです。講師からのフィードバックも添えてお伝えしますので、よろしくお願いします!割り当ては数学者/統計学者にとって非常に簡単であり、そこには2つの質問しかありません。私がやっていることを知っていることを実証しようとしたところ、パディングでいっぱいになりました。ほとんどはスキップできます。 これが、私が成功しなかった割り当てを含むPDFファイルへのリンクです。statisticsassignment.pdf。 講師のフィードバック 図1は逐次相関を示しています。これが線形回帰が機能しない本当の理由です。フィッシャーのテストもカイ二乗も、2x2テーブルには適していません。これは、均一性をテストしたいが、独立性がないためnullを拒否しているためです(これは興味深いことではありません)。この2つの違いはここでは関係ありません(どちらの場合も漸近的に同一です)。時間の関数としてオッズ比をプロットすることもできます。

2
期待値0のカイ2乗検定
私の分割表: heterozygous homozygous.minor homozygous.major observed 2 0 3 expected 0 0 5 予想される母集団はAA遺伝子型のみで構成されますが、観測された母集団では2つのAB遺伝子型が観察されます。このためのカイ二乗を計算するには、期待される= 0の2つのケースを無視しますか?だから私はやります: (3 − 5 )2/ 5=0.8(3−5)2/5=0.8(3-5)^2/5=0.8

1
逸脱vsピアソン適合度
負の二項回帰(負の二項GLM)を使用してモデルを作成しようとしています。サンプルサイズが比較的小さく(300を超える)、データがスケーリングされていません。適合度を測定するには2つの方法があることに気付きました。1つは逸脱度であり、もう1つはピアソン統計です。使用する適合度の測定値をどのように決定できますか?適合度測定を選択する際に検討できる基準はありますか?

1
調査デザインカイスクエア
変数が異なるsvydesign()ステートメントの異なる調査からのものである場合に、2変数をカイ二乗検定で比較する方法を知っている人はいますか?調査の2つの波全体の変数分布の違いをテストしようとしていますが、svychisq()ステートメントは1つの設計オブジェクトに限定されています。 2つの変数を新しいにスタックし、集合的な重みをdata.frame使用して新しいsvydesignステートメントを作成してから、テストを実行することは正当ですか?
8 r  chi-squared  survey 

3
2つの母集団で同じカテゴリ変数をテストするにはどうすればよいですか?
次のようなデータがあります。 ID Status 01 A 02 G 03 E ... ... 100 G あなたはアイデアを理解していると思います。2つの異なる母集団(コホート)からのこのデータがあり、ある母集団の状態変数の分布を別の母集団の分布と比較したいと思います。私が回答している質問は次のようなものです。あなたがこれ以上知らなければ、これらは同じ母集団からのものである可能性がありますか?確かではありませんが、これは人のカイ二乗を実行する必要があることを意味します。また、テストを実行できるように変数を変換する方法もわかりません。(私は特にこれをRで行う方法を知りたいです。)

1
エントロピーと圧縮/暗号化データのバイト分布の比較
しばらくの間、自分自身を占める質問があります。 暗号化されたデータを識別するために、エントロピーテストがよく使用されます。分析されたデータのバイトが均一に分散されると、エントロピーが最大になります。エントロピーテストは、暗号化されたデータを識別します。これは、このデータが、エントロピーテストの使用時に暗号化されたものとして分類される圧縮データのように均一な分布を持っているためです。 例:一部のJPGファイルのエントロピーは7,9961532ビット/バイト、一部のTrueCryptコンテナーのエントロピーは7,9998857です。つまり、エントロピーテストでは、暗号化されたデータと圧縮されたデータの違いを検出できません。しかし、最初の写真でわかるように、JPGファイルのバイトは均一に分散されていません(少なくとも、truecrypt-containerからのバイトほど均一ではありません)。 別のテストは、周波数分析です。各バイトの分布が測定され、たとえば、分布を仮説の分布と比較するためにカイ2乗検定が実行されます。その結果、p値が得られます。JPGとTrueCrypt-dataでこのテストを実行すると、結果が異なります。 JPGファイルのp値は0です。これは、統計ビューからの分布が均一でないことを意味します。TrueCryptファイルのp値は0,95です。これは、分布がほぼ完全に均一であることを意味します。 私の質問:エントロピーテストでこのような誤検知が発生する理由を誰かに教えてもらえますか?情報の内容が表現されている単位のスケール(ビット/バイト)ですか?より細かいスケールのため、例えばp値はより良い「単位」ですか? 回答/アイデアをありがとうございました! JPG-Image TrueCrypt-Container

2
ユーザー設定のテスト
M1とM2の2つの方法を比較するユーザーテストを生成しました。私は40のテストケースを生成し、テストケースの各メソッドの結果を20人の個人に並べて表示します。個人は、どのメソッドからどのような結果が得られたかがわかりません。各テストケースについて、M1によって計算された結果が優れているか、M2が優れているか、それとも同等に優れているかを各人が言わなければなりません。 M1がM2よりも良いかどうか知りたい。すべての結果を合計して、3-Dヒストグラムを生成し、M1に投票し、同点に投票し、M2に投票します。 M1とM2を2次元ヒストグラムとしてのみ見た場合。M1とM2が同等に優れていれば、このヒストグラムは均一になることを知っています。次に、テストを実行します。χ2χ2\chi^2 モデル化の方法がわからないのは同点投票です。私が考えた2つのオプションは次のとおりです。 カイ2乗検定の基本は、ヒストグラムが相互に排他的であり、合計が1になることです。引き分けの票は2つに分割され、M1とM2のそれぞれに追加されます(引き分けは削除されます)ようですが、これはあまり原則的ではないようです。 もう1つのオプションは、関連付けを無視することです。「1つに追加」プロパティを壊すため、欠陥があるようです。たとえば、(M1:2、ties:98 M2:0)の場合、両方の方法の差は統計的に有意ではありません。 他に何ができますか?私はこれを間違って見ていますか?これは、ユーザーの投票をモデル化するときに人々が直面する一般的な問題のようです。絆をモデル化する正しい方法は何ですか?

3
二項データでRの適合度を使用する場合のNaN p値
二項式へのカウントデータのベクトルの適合度をテストしようとしています。そのためにgoodfit()、vcdパッケージの関数を使用しています。ただし、関数を実行するNaNと、カイ2乗検定のp値が返されます。私のセットアップでは、75要素のカウントデータのベクトルがあります。 > library(vcd) > counts <- c(32, 35, 44, 35, 41, 33, 42, 49, 36, 41, 42, 45, 38, 43, 36, 35, 40, 40, 43, 34, 39, 31, 40, 39, 36, 37, 37, 37, 32, 48, 41, 32, 37, 36, 49, 37, 41, 36, 34, 37, 41, 32, 36, 36, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.