タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
2つの独立したランダム変数の積
約1000個の値のサンプルがあります。これらのデータは、2つの独立したランダム変数の積から取得されます。最初のランダム変数は、一様分布持っています。2番目の確率変数の分布は不明です。2番目の()確率変数の分布を推定するにはどうすればよいですか?ξ 〜U (0 、1 )ψξ∗ψξ∗ψ\xi \ast \psi ξ∼U(0,1)ξ∼U(0,1)\xi \sim U(0,1)ψψ \psi

2
コインをひっくり返して分類器を組み合わせる
私は機械学習コースを勉強しており、講義のスライドには推奨されている本と矛盾する情報が含まれています。 問題は次のとおりです。3つの分類子があります。 低い範囲のしきい値でより良いパフォーマンスを提供する分類子A より高い範囲のしきい値でより優れたパフォーマンスを提供する分類子B 分類子C pコインを反転し、2つの分類子から選択することで得られるもの。 ROC曲線で見た分類器Cのパフォーマンスはどうなりますか? 講義のスライドでは、このコインを反転させるだけで、分類器AとBのROC曲線の魔法の「凸包」が得られると述べています。 私はこの点を理解していません。コインをひっくり返すだけで、どのようにして情報を得ることができますか? 講義スライド 本が言うこと 一方、推奨される本(Ian H. Witten、Eibe Frank、Mark A. HallによるData Mining ...)は次のように述べています。 これを確認するには、tAとfAのそれぞれ正と偽の正の割合を与えるメソッドAの特定の確率カットオフと、tBとfBを与えるメソッドBの別のカットオフを選択します。これら2つのスキームを確率pとq(p + q = 1)でランダムに使用すると、pの真と偽の陽性率が得られます。tA + q tBおよびp fA + q fB。これは、ポイント(tA、fA)と(tB、fB)を結ぶ直線上にあるポイントを表し、pとqを変えることにより、これら2つのポイント間のライン全体をトレースできます。 私の理解では、本が言うことは、実際に情報を得て凸包に到達するためには、単にpコインをひっくり返すよりも高度なことをする必要があるということです。 私の知る限り、正しい方法は(本で提案されているように)次のとおりです。 分類器Aの最適なしきい値Oaを見つける必要があります 分類器Bの最適なしきい値Obを見つける必要があります Cを次のように定義します。 t <Oaの場合、tで分類器Aを使用します t> Obの場合、tで分類器Bを使用 Oa <t <Obの場合、OaとObの間の位置の線形結合としての確率により、Oaを持つ分類器AとObを持つBの間を選択します。 これは正しいです?はいの場合、スライドが示唆するものと比較していくつかの重要な違いがあります。 それは単純なコインの反転ではなく、どの地域に属するかに基づいて手動で定義されたポイントとピックを必要とするより高度なアルゴリズムです。 OaとObの間のしきい値で分類子AとBを使用することはありません。 私の理解が正しくなかった場合、この問題とそれを理解する正しい方法は何ですか? スライドが示すように、単にpコインを反転させるだけで何が起こるでしょうか?AとBの間のROC曲線が得られると思いますが、特定のポイントでより良い曲線よりも「良い」曲線になることはありません。 私が見る限り、私はスライドがどのように正しいかを本当に理解していません。左側の確率的計算は私には意味がありません。 更新: …

2
大きなデータセットの有意水準を選択する方法は?
Nが約200,000のデータセットを使用しています。回帰では、r = 0.028などの非常に小さな効果サイズに関連する非常に小さな有意値<< 0.001が見られます。私が知りたいのは、サンプルサイズに関連して適切な有意性閾値を決定する原則的な方法がありますか?このような大きなサンプルを使用してエフェクトサイズを解釈する際に、他に重要な考慮事項はありますか?

3
ある母集団のランダムなメンバーが別の母集団のランダムなメンバーよりも「良い」確率をどのように推定できますか?
2つの異なる母集団からのサンプリングがあるとします。各メンバーがタスクを実行するのにかかる時間を測定すると、各母集団の平均と分散を簡単に推定できます。 ここで、各母集団からの1人の個人とのランダムなペアリングを仮定した場合、最初の人が2番目の人よりも速い確率を推定できますか? 具体的な例を念頭に置いています。測定値は、AからBへのサイクリングのタイミングであり、人口は私が取ることができるさまざまなルートを表しています。次のサイクルでルートAを選択する方がルートBを選択するよりも速くなる確率を計算しようとしています。実際にサイクルを実行すると、サンプルセットに別のデータポイントがあります:)。 私はこれがこれを解決しようとする恐ろしく単純な方法であることを知っています、特にどんな日でも風が他の何よりも私の時間に影響する可能性が高いので、私が尋ねていると思うなら教えてください間違った質問...

5
用語「共同分布」と「多変量分布」の違いは?
「多変量分布」を理解する可能性が高い視聴者に対して「結合確率分布」を使用することについて書いているので、後者を使用することを検討しています。ただし、これを行っている間は意味を失いたくありません。 ウィキペディアは、これらが同義語であることを示しているようです。 彼らは?そうでない場合は、なぜですか?

4
期待値と最も可能性の高い値(モード)
分布の期待値はf(x)f(x)f(x)平均、つまり加重平均値 E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx 最も可能性の高い値はモードであり、最も可能性の高い値です。 しかし、何回かを何度も見ると予想しますか?ここから引用:E[x]E[x]E[x] 結果確率が等しくない場合、単純平均を加重平均に置き換える必要があります。これは、一部の結果が他の結果よりも高い可能性があるという事実を考慮に入れています。ただし、直観は同じままですの期待値は、平均して発生すると予想される値です。xixix_ixxx。 「平均して」とはどういう意味か理解できませんが、これは、重要な意味で、他のの値よりもを見るのに多くの時間を費やすことを意味しますE[x]E[x]E[x]xxxますか?しかし、これはモードの定義ではありませんか? それでは、ステートメントをどのように解釈するのでしょうか?そして、確率的意味は何ですか?E[x]E[x]E[x] また、私が混乱する例を示したいと思います。研究χ2χ2\chi^2分布私はそれを学んだモードが あるχ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2、つつ、E[χ2]=νE[χ2]=νE[\chi^2]=\nu、νν\nuデータの自由度です。 私がやったときに、ことを大学で聞いたχ2χ2\chi^2のデータセットにフィットするように最小二乗法を使用した後にテストを、私は得ることを期待すべきであるχ2≈νχ2≈ν\chi^2 \approx \nu「それは一般的に何が起こるかだ」ので。 私はこのすべてを誤解しましたか、それとも期待値はどういうわけか非常にありそうですか?(最も可能性の高い値がもちろんモードであっても)

2
マルコフ連鎖とマルコフ連鎖モンテカルロの関係は何ですか
SASを使用してマルコフ連鎖を理解しようとしています。マルコフ過程は、将来の状態が現在の状態にのみ依存し、過去の状態には依存せず、ある状態から別の状態への遷移確率をキャプチャする遷移行列があることを理解しています。 しかし、その後、私はこの用語に出くわしました:マルコフチェーンモンテカルロ。私が知りたいのは、マルコフ連鎖モンテカルロが上記のマルコフ過程に関係があるかどうかです。

2
信頼区間の解釈
注:これが重複している場合は事前に謝罪しますが、検索で同様のqが見つかりませんでした 真のパラメーターpがあるとします。信頼区間C(X)は、たとえば95%の時間を含むpを含むRVです。ここで、Xを観察してC(X)を計算するとします。一般的な答えは、「pを含むまたは含まない」ため、「95%の確率でpを含む」と解釈するのは間違っているようです。 しかし、シャッフルされたデッキの一番上からカードを選び、裏向きのままにしておきましょう。直感的には、このカードがスペードのエースである確率は、実際には「スペードのエースであるか、そうではない」としても1/52であると思います。この推論を信頼区間の例に適用できないのはなぜですか? あるいは、カードが「あり」または「なし」であるためにスペードのエースであるという「確率」について話すのが意味がない場合でも、スペードのエースではないという51:1のオッズがあります。この情報を説明する別の言葉はありますか?この概念は「確率」とどう違うのですか? 編集:確率のベイジアン解釈から、より明確になるかもしれません、確率変数の実現が95%の確率で含まれていると言われた場合、その確率変数の実現(および条件付けする他の情報はありません)確率変数がpを含む95%の確率を持っていると言って正しいですか? 編集:また、頻度の頻度の確率の解釈から、頻度の専門家が「信頼区間にpが含まれる確率は95%である」などのことを言わないことに同意するとします。信頼区間にpが含まれているという「信頼」を頻繁に持っている人にとって、それはまだ論理的ですか? alphaを有意水準とし、t = 100-alphaとします。K(t)は、信頼区間にpが含まれているという頻度主義者の「信頼」です。K(t)はtで増加するはずです。t = 100%の場合、周波数範囲は(定義により)信頼区間にpが含まれているという確実性があるはずです。したがって、K(1)= 1を正規化できます。同様に、K(0)= 0。 0と1、およびK(0.999999)は大きいです。頻度論者はどのようにKをP(確率分布)とは異なると考えますか?



4
決定論的な世界でのチャンスの操作
Steven Pinkerの著書「Better Angels of Our Nature」で、彼は 確率は見通しの問題です。十分に近い範囲で見ると、個々のイベントには明確な原因があります。コインフリップでさえ、開始条件と物理法則から予測することができ、熟練した魔術師は、それらの法則を悪用して毎回頭を投げることができます。しかし、これらの多数のイベントの広角ビューをズームアウトすると、互いに打ち消し合ったり、同じ方向に整列したりする膨大な数の原因の合計が表示されます。物理学者であり哲学者でもあるアンリ・ポアンカレは、多数のちっぽけな原因が恐ろしい効果をもたらすか、私たちの通知を逃れる小さな原因が見逃すことのできない大きな効果を決定するかのいずれかで、決定論的な世界でチャンスの操作を見ると説明しました。組織的な暴力の場合、誰かが戦争を始めたいと思うかもしれません。彼は、来るかもしれないし、来ないかもしれない、都合の良い瞬間を待ちます。彼の敵は交戦するか撤退するかを決定します 弾丸が飛ぶ; 爆弾が破裂した。人は死ぬ。すべてのイベントは、神経科学と物理学および生理学の法則によって決定される場合があります。しかし、集計では、このマトリックスに含まれる多くの原因が極端な組み合わせにシャッフルされることがあります。(p。209) 私は太字の文に特に興味がありますが、文脈のために残りを与えます。私の質問:ポアンカレが説明した2つのプロセスを説明する統計的な方法はありますか?私の推測は次のとおりです。 1)「多数のちっぽけなことが原因で恐ろしい効果になります。」「多数の原因」と「追加」という音は、中心極限定理のように聞こえます。しかし、CLT(の古典的な定義)では、原因は決定論的効果ではなく、ランダム変数である必要があります。ここで、これらの決定論的効果を何らかのランダム変数として近似する標準的な方法はありますか? 2)「通知を逃れる小さな原因が、見逃せない大きな影響を決定します。」あなたはこれをある種の隠れマルコフモデルと考えることができるように思えます。しかし、HMMの(観測不可能な)状態遷移確率は、それだけの確率であり、定義上、再び決定論的ではありません。


2
ベイズ定理の正規化定数
私は、ベイズルール、分母にこれを読んでPr (データ)Pr(データ)\Pr(\textrm{data})の Pr(parameters∣data)=Pr(data∣parameters)Pr(parameters)Pr(data)Pr(parameters∣data)=Pr(data∣parameters)Pr(parameters)Pr(data)\Pr(\text{parameters} \mid \text{data}) = \frac{\Pr(\textrm{data} \mid \textrm{parameters}) \Pr(\text{parameters})}{\Pr(\text{data})} は正規化定数と呼ばれます。正確には何ですか?その目的は何ですか?なぜように見えるのですか?なぜパラメーターに依存しないのですか?Pr(data)Pr(data)\Pr(data)

5
ベイジアン主義以上の確率がありますか?
物理学の学生として、「なぜ私はベイジアンなのか」という講義を6回ほど経験しました。それは常に同じです-プレゼンターは、ベイズの解釈が、大衆によって採用されているとされる頻度の高い解釈よりも優れている方法を説明しています。彼らは、ベイズ規則、周辺化、事前分布、事後分布について言及しています。 本当の話は何ですか? 頻繁な統計の適用の正当なドメインはありますか?(確かに、ダイのサンプリングまたはローリングで何度も適用する必要がありますか?) 「ベイジアン」と「頻度論」を超えた有用な確率論的哲学はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.