統計とビッグデータ statistical-significance

2

離散検定統計の場合、対応する値の分布は離散的であり、一様分布よりも確率的に大きくなります。したがって、p値に基づく対応する仮説検定（たとえば、p値が0.05未満の場合は拒否）は、タイプIのエラーが発生する確率が0.05未満になるという意味で常に保守的です。mid-pvalueを使用することが推奨されることもあります。しかし、mid-pvalueを使用してもType Iエラーが制御されるという証拠はないと思います。保守性を減らす他の方法はありますか？この分野に精通している人は、これに関するいくつかのヒントや既存の文献を指摘できますか？ppp

8 distributions statistical-significance hypothesis-testing discrete-data

1

ベイズの定理を使用する場合の信頼区間

いくつかの条件付き確率と、95％の信頼区間を計算しています。私のケースの多くでは、（分割表からの）試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合：baaabbb P（a | b ）= P（B |）⋅ P（a ）P（b ）P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}（\＃\ left（b \ cap {} a）、\＃（a）\ right）を使用してP（b | a）の周りの95％信頼区間を計算でき、比率P（a）/ P（b）を周波数比\＃（a）/ \＃（b）として。この情報を使用してP（a | b）の周囲の信頼区間を導出することは可能ですか？P（b | a ）P(b|a)P(b|a)binom.confint（＃（B ∩a ）、＃（a ））binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P（a ）/ P（b ）P(a)/P(b)P(a)/P(b)＃（a ）/＃（b ）#(a)/#(b)\#(a)/\#(b)P（a | b ）P(a|b)P(a|b) ありがとう。

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

2

2つの遺伝子発現サンプル間の重複は重要ですか？

私は、熱ショックによって引き起こされたストレスに対する酵母（5000個の遺伝子を含む）の応答を研究する実験を行いました。37℃で過剰発現している48遺伝子のリストと42℃で過剰発現している145遺伝子のリストがあります。それらの両方で過剰発現する38の遺伝子があります。偶然にも、両方で1つの遺伝子のみが過剰発現すると予想していましたが、取得したオーバーラップが有意である場合、どうすれば計算できますか？どうすれば値を取得できますか？私は生物統計学や数学のソフトウェアについて何も知りません。どうもありがとうございます！！！どんな助けでも大歓迎です:)ppp

8 statistical-significance microarray

1

SciPyのttest_ind（）関数によって行われた仮定を追跡する

1つおよび2つのテールの独立したt検定のt統計とp値を計算するために、独自のPythonコードを記述しようとしています。通常の近似を使用できますが、現時点ではt分布のみを使用しようとしています。SciPyの統計ライブラリの結果をテストデータと照合することに失敗しました。私はどこかでばかげた間違いをしているかどうかを確認するために新鮮な目を使用することができました。これは「なぜこの計算で正しいt統計が得られないのか」ということなので、これはコーディングの問題ではありません。完全を期すためにコードを提供しますが、ソフトウェアのアドバイスは期待していません。これが正しくない理由を理解するのに役立ちます。私のコード： import numpy as np import scipy.stats as st def compute_t_stat(pop1,pop2): num1 = pop1.shape[0]; num2 = pop2.shape[0]; # The formula for t-stat when population variances differ. t_stat = (np.mean(pop1) - np.mean(pop2))/np.sqrt( np.var(pop1)/num1 + np.var(pop2)/num2 ) # ADDED: The Welch-Satterthwaite degrees of freedom. df = ((np.var(pop1)/num1 + np.var(pop2)/num2)**(2.0))/( (np.var(pop1)/num1)**(2.0)/(num1-1) …

8 statistical-significance t-test python

3

コンピュータサイエンティストのための統計的仮説検定の優れた導入とは何ですか？

最近、職場でいくつかの統計的仮説検定法（例：フリードマン検定）に曝されたので、このトピックに関する知識を増やしたいと思います。コンピュータサイエンティストのための統計的有意性/統計的仮説検定への良い導入を提案できますか？ PDFブックなどを考えていますが、それ以外のサポートは大歓迎です。編集：私はすでにこのウェブサイトを見つけましたが、簡単に印刷できるものを探していました。ありがとう Tunnuz

8 hypothesis-testing statistical-significance p-value

1

私が見ている問題の種類を理解するのを手伝ってくれる人はいますか？これが仮説検定として分類されるかどうかわからない

この質問が明確でない場合はご容赦ください。適切な用語を使用しているかどうかはわかりません。さまざまな環境で何度も実験を行いました。だから私のデータは次のようになります： Environment1 1.2 2.1 1.1 1.5 1.6 Environment2 4.2 2.6 3.5 2.5 2.9 Environment3 7.2 4.6 5.3 4.5 1.6 Environment4 0.0 0.0 1.2 15.0 0.0 Environment5 3.2 2.4 7.2 5.5 6.6 Environment6 23.2 32.1 18.1 1.5 19.6 実験がEnvironment4（低すぎて変動が激しい）とEnvironment5（高すぎる）で適切に行われなかったことははっきりと（またはおそらく私の直感では）わかりますが、これを証明する方法がわかりません。私は仮説を用いた仮説テストに依存することになっていますか？実験は、環境4および6では適切に行われませんでした。そして、これを証明するためにいくつかの手順を使用しますか？またはこれを示す標準的な方法はありますか？誰かが私にこの種の問題に取り組む方法を助けてくれませんか？私はRを使用しています。

8 r distributions hypothesis-testing statistical-significance experiment-design

2

正確な検定では常に、近似検定よりも高いP値が得られますか？

その上でmcnemarテストのシミュレーションを実行しましたが、答えは「はい」のようでした。これは常に、正確なP値が近似によって到達したp値よりも高い（または小さくない）場合であると言えるのではないかと思っていました。たとえばいくつかのコード： set.seed(234) n <- 100 # number of total subjects P <- numeric(100) P_exact <- numeric(100) for(i in 1:100) { x = table(sample(1:2, n, T), sample(1:2, n, T)) P[i] <- mcnemar.test(x, correct = F)$p.v P_exact[i] <- binom.test(x[2,1],x[1,2]+x[2,1])$p.valu } #for different n - the level of problem is worse …

8 probability statistical-significance p-value

5

分類子の精度の統計的有意性を評価する方法は？

パーセンテージと入力サンプル数で分類子の精度を出力します。この情報に基づく結果が統計的に有意であるかどうかを判断できるテストはありますか？ありがとう

8 statistical-significance classification

4

PCAの第1因子によって説明される分散が反復測定条件間で異なるかどうかをテストする方法は？

環境： 2つの反復測定実験条件（n = 200）のそれぞれで6つの数値変数が測定される研究があります。条件を呼び出しましょうAAAおよびと変数および。理論的には、条件では、変数の分散が主成分分析（PCA）の最初の要素によって説明されるはずだと私は予想しています。BBBA1,A2,...,A6A1,A2,...,A6A_1, A_2,..., A_6B1,B2,...,B6B1,B2,...,B6B_1, B_2,..., B_6BBB 一般的な値は次のとおりです。のPCAの第1因子は、分散の30％を占めますA1,...,A6A1,...,A6A_1, ..., A_6 のPCAの第1因子は、分散の40％を占めます。B1,...,B6B1,...,B6B_1, ..., B_6 質問：この違いが統計的に有意であるかどうかをどのようにテストできますか？これはどのようにRに実装できますか？

8 r correlation statistical-significance pca

3

ロジスティック回帰における交互作用項の有意性と信頼区間

私はWinBugsにベイジアンロジスティック回帰を適合させました。これには相互作用項があります。このようなもの： P R O B（y私= 1 ）=L O G I T− 1（a +b1∗バツ私+b2∗w私+b３∗バツ私∗w私）Prob(yi=1)=logit−1(a+b1∗xi+b2∗wi+b3∗xi∗wi)\mathrm{Prob}(y_{i}=1) = \mathrm{logit}^{-1} (a + b_{1}*x_{i} + b_{2}*w_{i} + b_{3}*x_{i}*w_{i}) ここで、は標準化された連続変数、はダミー変数です。実際にはモデルはもっと複雑ですが、私は物事を単純に保ちたいです。バツxxwww 相互作用の項は「有意」ですが、単一の予測子ではありません。例えば、 mは電子nは（b1）= − .2mean(b1)=−.2\mathrm{mean}(b_{1}) = -.2および分位数：および959595%（− 1.3(−1.3(-1.3.7 ）.7).7) mは電子nは（b2）= − .4mean(b2)=−.4\mathrm{mean}(b_{2}) = -.4および分位数： -および959595%(−1.3(−1.3(-1.3.5).5).5) mean(b3)=1.4mean(b3)=1.4\mathrm{mean}(b_{3}) = 1.4および分位数：（.および959595%(.4(.4(.42.5)2.5)2.5) この発見にどう反応するかについてアドバイスはありますか？場合、影響全体に対して95％の信頼区間を計算できると思いました。これは次のようになります。xの合計効果の95％値、条件付き： -およびxxxw=1w=1w=1w=1w=1w=1(−1.3+.4(−1.3+.4(-1.3+.4.7+2.5)=(−.9+3.2).7+2.5)=(−.9+3.2).7+2.5) = (-.9 + 3.2) これは正しいです？そうでない場合、どうすればよいですか？この件に関する参考資料はありますか？

8 logistic bayesian statistical-significance interaction

1

ギャンブルマシン検証の統計

問題は、政府が電子ルーレットを閉鎖することを望んでおり、ルーレットが統計的検定で失敗したと主張していることです。私の言語では申し訳ありませんが、これはスロベニアの法律から可能な限り翻訳された公式の（法律による）要件は次のとおりです。各イベントの頻度は、予想される頻度と3シグマを超えてはなりません。正規分布のカイ二乗検定は0.025のリスクレベル内にある必要があります連続相関の検定は、3シグマ検定とカイ2乗検定に合格する必要があります。最初の2つの要件をテストし、それらはテストに合格しましたが、3番目の要件を理解するのに問題があります。（これは翻訳されており、「連続した相関」は別のものになる可能性があることに注意してください） 3番目の要件をテストするにはどうすればよいですか？誰かが興味を持っている場合のデータ：http : //pastebin.com/ffbSKpr1 編集：カイ二乗は2％の確率で失敗します（アルファが0.025であるために予想されることです）、sigma3テストは5％失敗しますが、3sigmaでは9％の失敗が予想されます（それに従って周波数が分散されていないようです）乱数でも正規分布）私はこの法則を正しく理解していないかもしれませんが、すべての自己相関ベクトルに対して3シグマテストに合格する確率はほぼ0％です。 Pythonコード： from math import sqrt from itertools import * import random #uncoment for python 2.x #zip = izip #range = xrange #with open("rng.txt","r") as wr: # n = [int(i) for i in wr] n = [random.randint(0,36) for i …

8 correlation statistical-significance chi-squared

2

中央値の差をテストする

2つの分布のサンプルを考えて、中央値の差のテストを探しています（中央値が異なるという証拠のためにnullを拒否します）。両方の分布について何も仮定しません。この状況の標準テストはありますか？ムードの中央値検定は知っていますが、分布がシフトしていることを前提としています。一部の。私はこれらの情報源でこの主張を支持します：F2（t ）=F1（t − a ）F2(t)=F1(t−a)F_2(t) = F_1(t-a)A ∈ Ra∈Ra \in \mathbb{R} リンク1 リンク2 LINK3

8 hypothesis-testing statistical-significance median

2

このカイ二乗検定結果を再現できますか？

時が経つにつれてSkeptics.StackExchange、答えは電磁過敏症への研究を引用しています： McCarty、Carrubba、Chesson、Frilot、Gonzalez-Toledo＆Marino、Electromagnetic Hypersensitivity：Evidence for a New Neurological Syndrome International Journal of Neuroscience、00、1–7、2011、DOI：10.3109 / 00207454.2011.608139。使用されている統計の一部について疑わしいので、それらが適切に使用されていることを再確認する専門知識に感謝します。図5aは、電磁場発生器がオンになったときに被験者が検出を試みた結果を示しています。簡略版は次のとおりです。 Actual: Yes No Detected: Yes 32 19 No 261 274 彼らはカイ二乗検定を使用したと主張し、有意性を見出した（pが何であるかを述べずにp <0.05）。フィールドの存在下と不在下での体性反応と行動反応の頻度は、カイ2乗検定（2×2テーブル）またはフィッシャーの正確確率検定のフリーマンハルトン拡張（2×3テーブル;フリーマン＆ハルトン、1951年）。いくつか問題があります。彼らは一部のデータを除外しました-表5bを参照-長期間デバイスをオフにした。そのデータを分離することの正当性がわかりません。彼らは、実際のデバイスがオンの場合は結果が統計的に有意であると主張しているようですが、そうでない場合はそうではありません。（私はこれを誤解しているかもしれませんが、はっきりしていません。）カイ2乗検定で得られる結果ではありませんか。このテストをオンラインの計算機で再現しようとしたところ、統計的に重要ではないことがわかりました。これが私の本当の質問です。私はこれを正しいと思いますか？：フィッシャーの正確確率検定を使用した両側カイ2乗検定は、このデータを分析する正しい方法であり、統計的に有意ではありません。

7 statistical-significance chi-squared

3

なぜ人々は重要性レベルを権力と交換しないのですか？

慣例として、有意水準がで検出力がある多くの研究があります。ただし、べき乗で研究を見つけることは非常にまれです。0.050.050.050.80.80.8α = 0.2α=0.2\alpha = 0.20.950.950.95 私の理解では、実験が行われた後、結果が有意でない場合、有意水準はまったく問題になりません。なぜなら、この場合、私たちはnullを受け入れることが理にかなっているかどうかを検討しており、すべての重要なことです力です。同様に、結果が有意である場合、有意水準は証拠となり、検定の検出力はまったく差がありません。（「重要ではない」とは、「この実験の目的ではない」という意味です。メタスタディでは、重要度とパワーの両方が重要であるため、両方をレポートで報告してください！）私が正しい場合、帰無仮説と代替案はある程度対称的です。帰無仮説は本質的にそれ以上の保護を必要としません。代替案を証明したい場合は、「この新薬は患者に影響を与える」と言ってから、非常に小さなと適度に高いパワーを使用します。一方、たとえば正規性テストでnullを証明する場合は、適度に小さいと非常に高いパワーを選択して、nullを秘密裏に受け入れることができるようにする必要があります。αα\alphaαα\alpha 適度に小さいと非常に高いパワーでの実験がそれほど珍しいのはなぜですか？αα\alpha

7 hypothesis-testing statistical-significance power-analysis methodology philosophical

4

合計のA / Bテスト比率

環境オンラインで商品を販売する会社について、次のシナリオを考えます。ユーザーは複数のアイテム（つまり、アイテムのバスケット）を購入できます。そのうちのいくつかは特に重要で、特に追跡されます（スターアイテムと呼びましょう）。販売されたスターアイテムの数と総売上の両方に影響を与える可能性のあるアルゴリズムの変更（推奨、リスク評価、ターゲティングの追加など）をテストしたいと考えています。これは標準のA / Bテストセットアップです。ランダム化ユニットはユーザーレベルにあります。 A / Bテストの目的は、アルゴリズム変更の影響を比較することです。コントロールグループには元のアルゴリズムがあり、バリアントには新しいアルゴリズムがあります。重要な指標の1つは、総売上に対するスターアイテムの売上の比率として定義されます。これは、各AまたはBグループのスコープ内のすべてのユーザーのすべてのトランザクションにわたる合計です。つまり、分析単位はトランザクションレベルにあり、ランダム化単位とは異なります。メトリックは、テストの全期間（2週間など）にわたって計算されます。使用されるメトリックの詳細グループAと一連のユーザー与えられた場合、各ユーザーは多数のトランザクションに関与しています。テスト期間中のグループAのすべてのユーザーのすべてのトランザクションのセットは、。UA={u1,u2,...,uNA}UA={u1,u2,...,uNA}U_A = \{u_1,u_2,...,u_{N_A} \}tuntunt_{u_n}TATAT_ATA={tu11,tu12,...tunm}TA={tu11,tu12,...tunm}T_A = \{ t_{u_{11}}, t_{u_{12}}, ... t_{u_{nm} } \} グループAの対象メトリックは、グループAのスコープ内のすべてのトランザクションに対して定義されます。合計は、ユーザーレベルではなくトランザクションレベルです。 MetricA=∑ti∈TAsales star items $∑ti∈TAsales $MetricA=∑ti∈TAsales star items $∑ti∈TAsales $\text{Metric}_A = \frac{\sum_{t_{i} \in T_A} \text{sales star items }$}{\sum_{t_{i} \in T_A} \text{sales }$ } もちろん、ユーザーレベルの平均を計算するように定義を変更することもできます。これによりすべてが簡略化されますが、これは使用されているメトリックではありません。ご質問 …

7 hypothesis-testing statistical-significance ab-test

タグ付けされた質問 「statistical-significance」

タグ付けされた質問「statistical-significance」