タグ付けされた質問 「contingency-tables」

(少なくとも)2つの周辺カテゴリによって配置された、二変量または多変量の頻度を表示するカウント(時々、周辺カウントの比率)のテーブル。クロスタブと呼ばれることもあります。

2
最近のコンピューターの能力を考えると、フィッシャーの正確なテストではなくカイ2乗テストを行う理由はありますか?
ソフトウェアがフィッシャーの正確なテスト計算を非常に簡単に行えるようになったことを考えると、理論的または実用的に、カイ2乗テストがフィッシャーの正確なテストよりも実際に望ましい状況はありますか? フィッシャーの正確なテストの利点は次のとおりです。 2x2より大きい分割表(つまり、任意のr x c表)へのスケーリング 正確なp値を与える 有効な最小予想セル数を持つ必要はありません

2
カイ二乗検定と等比率検定の関係は何ですか?
相互に排他的な4つの特性を持つ3つの母集団があるとします。各母集団からランダムサンプルを取得し、測定する特性のクロス集計表または頻度表を作成します。私はそれを言って正しいですか: 母集団と特性の間に関係があるかどうかをテストしたい場合(たとえば、ある母集団が特性のいずれかの頻度が高いかどうか)、カイ2乗検定を実行して、結果が有意であるかどうかを確認します。 カイ2乗検定が重要な場合、母集団と特性の間に何らかの関係があることのみが示されますが、それらの関係は示されません。 さらに、すべての特性を母集団に関連付ける必要はありません。たとえば、異なる母集団の特性AとBの分布が有意に異なるが、CとDの分布が異なる場合、カイ2乗検定は再び有意である可能性があります。 特定の特性が母集団の影響を受けているかどうかを測定したい場合は、その特性だけで等しい比率のテストを実行できます(これはz検定と呼ばれprop.test()ていますR)。 言い換えるとprop.test()、カイ二乗検定で有意な関係があると言われたときに、2つのカテゴリセット間の関係の性質をより正確に判断するためにを使用するのが適切でしょうか?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
2x2より大きい分割表でのフィッシャーの正確検定
2x2の分割表にのみFisherの正確検定を適用するように教えられました。 質問: フィッシャー自身がこのテストを2x2より大きいテーブルで使用することを想像していました(私は彼がテストを考案している間に、老婦人がミルクがお茶に追加されたのか、お茶がミルクに追加されたのかを推測しようとしていたのを知っています) Stataを使用すると、Fisherの正確なテストを任意の分割表に使用できます。これは有効ですか? 分割表の予想セル数が5未満の場合、FETを使用することをお勧めしますか?

4
分割表の最適な視覚化はどれですか?
統計的観点から、通常はカイ二乗検定で分析されている分割表を表示するのに最適なプロットはどれですか?覆い隠された棒グラフ、積み上げ棒グラフ、ヒートマップ、等高線プロット、ジッター散布図、複数線プロットなどですか?絶対値またはパーセンテージを表示する必要がありますか? 編集:または@forecasterがコメントで示唆しているように、数値の表自体は単純なプロットであり、十分なはずです。


2
分割表:実行するテストとタイミング
私は、古くからのカイ二乗対フィッシャーの正確なテストの議論に関するこの議論の延長を見て、少し範囲を広げたいと思っています。分割表には相互作用のテストが数多くあり、頭を回転させるのに十分です。私は、どのテストをいつ使用するべきか、そしてもちろん、あるテストが別のテストよりも優先される理由についての説明を取得したいと思っています。 私の現在の問題は、古典的な場合ですが、Rでさまざまなソリューションを実装するためのヒントと同様に、次元の高さに関する回答は大歓迎です。n×mn×mn \times m 以下に、私が知っているすべてのテストをリストしました。エラーを公開することで修正できることを願っています。 χ2χ2\chi^2。古いスタンバイ。ここには3つの主要なオプションがあります。 2x2テーブルのRに組み込まれた修正:「すべての差から半分が差し引かれます。」私はいつもこれをやるべきですか?|O−E||O−E||O-E| " "テスト、Rでこれを行う方法がわからないN−1N−1N-1χ2χ2\chi^2 モンテカルロシミュレーション。これは常に最高ですか?これを行うとRがdfをくれないのはなぜですか? フィッシャーの正確検定。 従来、セルが4未満になると予想されていましたが、このアドバイスに異論があるようです。 辺縁が固定されているという(通常は誤った)仮定は、本当にこのテストの最大の問題ですか? バーナードの正確検定 別の正確なテスト、私はそれを聞いたことがないことを除いて。 ポアソン回帰 glmsについて私を常に混乱させる1つのことは、この重要性テストを正確に行う方法です。ネストされたモデルの比較を行うのが最善ですか?特定の予測子のWaldテストはどうですか? 本当に常にポアソン回帰を行うべきですか?これとテストの実際の違いは何ですか?χ2χ2\chi^2

2
Palantirのアジア差別事件:確率はどのように計算されましたか?
労働省がアジア人に対する差別で彼らを非難しているパランティールの事例について、私はこの記事を読みました。誰がどこからこれらの確率推定値を取得したか知っていますか? 項目(a)で1/741が得られません。 (a)QAエンジニアポジションでは、730人以上の適格な応募者のプール(約77%がアジア人)から、Palantirは6人の非アジア人応募者と1人のアジア人応募者のみを採用しました。OFCCPによって計算された悪影響は、3つの標準偏差を超えています。この結果が偶然に発生した可能性は、741分の1です。 (b)ソフトウェアエンジニアの立場では、1,160人を超える適格な応募者(約85%がアジア人)のプールから、Palantirはアジア以外の応募者14人とアジアの応募者11人のみを採用しました。OFCCPによって計算された悪影響は、5標準偏差を超えています。この結果が偶然に発生した可能性は、340万分の1です。 (c)QAエンジニアのインターンポジションでは、130人を超える適格な応募者のプール(約73%がアジア人)から、Palantirは17人のアジア人以外の応募者と4人のアジア人応募者を採用しました。OFCCPによって計算された悪影響は、6標準偏差を超えています。この結果が偶然に発生した可能性は、およそ10億分の1です。

1
分割表の条件は何ですか?
メリアム・ウェブスターの辞書は定義されて偶発事象や状況などを 1 : likely but not certain to happen : possible 2 : not logically necessary; especially : empirical 3 a : happening by chance or unforeseen causes b : subject to chance or unseen effects : unpredictable c : intended for use in circumstances not completely foreseen 4 : …

2
多くのセルの周波数が5未満の場合のカイ2乗検定の適用性
ピアのサポート(独立変数)と仕事の満足度(従属変数)の関連を見つけるために、カイ2乗検定を適用したいと思います。ピアのサポートは、サポートの範囲に応じて4つのグループに分類されます。1=非常に少ない、2 =ある程度、3 =非常に大きい、4 =非常に大きい。仕事の満足度は2つのカテゴリに分類されます。0=満足していない、1 =満足しています。 SPSSの出力では、37.5パーセントのセル周波数が5未満であることが示されています。私のサンプルサイズは101であり、独立変数のカテゴリをより小さな数に減らしたくありません。この状況で、この関連付けをテストするために適用できる他のテストはありますか?

2
ファイ、マシューズ、ピアソンの相関係数の関係
ファイとマシューズの相関係数は同じ概念ですか?2つのバイナリ変数のピアソン相関係数とどのように関連または同等ですか?バイナリ値は0と1であると仮定します。 2つのベルヌーイ確率変数xxxと間のピアソンの相関yyyは次のとおりです。 ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}} どこ E[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11nE[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11n \mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] …

2
正および負の予測値の統計的検定
私は論文を読んでいて、PPV(正の予測値)とNPV(負の予測値)を比較した表を見ました。彼らは彼らのためにある種の統計的検定を行いました。これはテーブルのスケッチです: PPV NPV p-value 65.9 100 < 0.00001 ... すべての行は特定の分割表を参照します。 彼らはどのような仮説検定をしましたか?ありがとう!

2
nxm分割表の統計的検定
3つのグループの要素で構成されるデータセットがあります。それらをG1、G2、G3と呼びましょう。これらの要素の特定の特性を分析し、3つのタイプの「動作」T1、T2、およびT3に分けました(クラスター分析を使用してそれを行いました)。 したがって、3つのグループの要素の数をタイプ別に分割した、次のような3 x 3の分割表ができました。 | T1 | T2 | T3 | ------+---------+---------+---------+--- G1 | 18 | 15 | 65 | ------+---------+---------+---------+--- G2 | 20 | 10 | 70 | ------+---------+---------+---------+--- G3 | 15 | 55 | 30 | これで、Rのこれらのデータに対してFisherテストを実行できます data <- matrix(c(18, 20, 15, 15, 10, 55, 65, 70, 30), …


2
遺伝子重複レベルによる濃縮分析
生物学的背景 時間の経過とともに、一部の植物種はゲノム全体を複製して、各遺伝子の追加のコピーを取得する傾向があります。このセットアップが不安定なため、これらの遺伝子の多くは削除され、ゲノムは再配置されて安定し、再び複製できるようになります。これらの複製イベントは、種分化および侵入イベントに関連付けられており、理論は、複製が植物の新しい環境への迅速な適応を支援するというものです。 顕花植物の属であるルピナスは、これまでに検出された最も迅速な種分化イベントの1つでアンデスに侵入しました。さらに、最も密接に関連する属であるバプティシアよりも、ゲノムに重複コピーが多いようです。 そして今、数学的問題: ルピナスのメンバーとバプティシアのメンバーのゲノムが配列決定され、各種の約25,000遺伝子の生データが提供されています。既知の機能を持つ遺伝子のデータベースに対してクエリを実行することで、その遺伝子が実行する機能を「推測」できるようになりました。たとえば、Gene1298は「フルクトース代謝、塩ストレス応答、低温ストレス応答」に関連付けられている可能性があります。バプティシアとルピナスの間に重複イベントがあったかどうか、遺伝子の喪失がランダムに起こったかどうか、または特定の機能を実行する遺伝子が維持または削除される可能性が高かったかどうかを知りたいです。 以下のようなテーブルを出力するスクリプトがあります。L *は、機能に関連するすべてのルピナス遺伝子の数です。L 1+は、少なくとも1つの重複コピーが存在する機能に関連するルピナス遺伝子の数です。L 2 +、L 3+などを生成することができますが、L 1+はシーケンス処理のため、L 2+よりもはるかに信頼性の高いグループです。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.