タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

5
ペアの観測値の分散の比較
私がしている観測(ペア、有限の第一及び第二モーメントを有する共通の未知の分布から引き出された)を、平均の周りに対称です。NNNバツ私バツ私X_iY私Y私Y_i してみましょうの標準偏差(上の無条件の)、および Y.私のために同じことが仮説を検証したいと思います σバツσバツ\sigma_XバツバツXYYYσYσY\sigma_Y H0H0H_0:σバツ= σYσバツ=σY\sigma_X = \sigma_Y H1H1H_1:σバツ≠ σYσバツ≠σY\sigma_X \neq \sigma_Y 誰でもそのようなテストを知っていますか?最初の分析では、分布が正規であると仮定できますが、一般的なケースの方が興味深いです。閉じた形式のソリューションを探しています。ブートストラップは常に最後の手段です。

3
ディストリビューションとは正確には何ですか?
私は確率と統計についてほとんど知らないので、学びたいと思っています。「分布」という言葉は、さまざまな文脈のあちこちで使われています。 たとえば、離散確率変数には「確率分布」があります。私はこれが何であるかを知っています。連続確率変数は、その後のため、確率密度関数を有するから積分、に確率密度関数のは、で評価累積分布関数である。x∈Rx∈Rx\in\mathbb{R}−∞−∞-\inftyxxxxxx そして、少なくとも連続的なランダム変数について話すとき、明らかに「分布関数」は「累積分布関数」と同義です(質問:それらは常に同義語ですか?)。 その後、多くの有名なディストリビューションがあります。 分布分布など。しかし、分布とは正確には何ですか?ランダム変数の累積分布関数ですか?または、確率変数の確率密度関数?ΓΓ\Gammaχ2χ2\chi^2ΓΓ\GammaΓΓ\GammaΓΓ\Gamma しかし、その場合、有限データセットの頻度分布はヒストグラムのように見えます。 長い話:確率と統計では、「分布」という言葉の定義は何ですか? 数学(誘導極限トポロジーを備えたテスト関数の集合の二重空間の要素)の分布の定義は知っていますが、確率と統計はわかりません。

5
サンプル平均のサンプリング分布は、母平均をどのように近似しますか?
統計を習得しようとしているのは、統計があまりにも普及しているため、適切に理解しなければ、いくつかのことを学ぶことができないからです。サンプル平均のサンプリング分布のこの概念を理解するのに苦労しています。一部の書籍やサイトで説明されている方法がわかりません。私は理解していると思いますが、正しいかどうかはわかりません。以下はそれを理解しようとする私の試みです。 正規分布をとる現象について話すとき、それは一般に(常にではないが)母集団に関するものです。 推測統計を使用して、特定の母集団に関する情報を予測したいのですが、すべてのデータがありません。ランダムサンプリングを使用し、サイズnの各サンプルが選択される可能性が等しくなります。 したがって、多くのサンプル、たとえば100を取得すると、これらのサンプルの平均の分布は中心極限定理に従ってほぼ正規になります。サンプル平均の平均は母平均に近似します。 さて、私が理解していないのは、「100人のサンプル...」と表示されることが多いことです。平均の人口を概算するために、100人のサンプルを10から100枚必要としないでしょうか。それとも、十分な大きさの単一のサンプル(たとえば1000)を取得し、その平均が母平均に近似すると言うことができるのでしょうか?または、1000人のサンプルを取得してから、元の1000人のサンプルから各サンプルの100人のランダムなサンプルを100個取得し、それを近似値として使用しますか? (ほぼ)平均を近似するのに十分な大きさのサンプルを取得することは常に機能しますか?これが機能するためには、人口も正常である必要がありますか?

2
サーバーの応答時間をモデル化するために最も一般的に使用される分布は何ですか?
サーブレットベースのアプリケーションがあり、そのサーブレットへの各リクエストを完了するのにかかる時間を測定しています。平均値や最大値などの単純な統計をすでに計算しています。ただし、さらに洗練された分析を作成したいので、これらの応答時間を適切にモデル化する必要があると思います。 確かに、応答時間はよく知られた分布に従うので、その分布が正しいモデルであると信じるのには十分な理由があります。しかし、この分布がどうあるべきかはわかりません。 対数正規とガンマが思い浮かび、実際の応答時間データのいずれかの種類を適合させることができます。応答時間はどの分布に従うべきかについて誰かが考えていますか?

2
ブラウン橋の最高点にコルモゴロフ–スミルノフ分布があるのはなぜですか?
コルモゴロフ–スミルノフ分布は、コルモゴロフ–スミルノフ検定から知られています。しかし、それはブラウン橋の最高点の分布でもあります。 これは(私には)明らかではないので、この偶然の直観的な説明をお願いしたいと思います。参照も歓迎します。

2
列車が到着する前に時間をモデル化するために使用する分布は何ですか?
電車の到着時間に関するデータをモデル化しようとしています。「長く待つほど、電車が現れる可能性が高くなります」をキャプチャするディストリビューションを使用したいと思います。そのような分布はCDFのように見えるはずなので、P(train show up | waited 60 minutes)は1に近くなります。ここでどの分布を使用するのが適切ですか?


4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
不適切な分布からのサンプリング(MCMCなどを使用)
私の基本的な質問は、不適切な分布からどのようにサンプリングするのですか?不適切な分布からサンプリングすることも理にかなっていますか? ここでの西安のコメントは、この種の問題に対処するものですが、これについての詳細を探していました。 MCMCに固有: MCMCについて話し、論文を読む際に、著者は適切な事後分布を取得したことを強調します。著者が後部が適切かどうかを確認するのを忘れた有名なGeyer(1992)の論文があります(そうでない場合は優れた論文)。 しかし、尤度と事前分布が不適切であり、結果の事後分布も不適切であり、MCMCを使用して分布からサンプリングするとします。この場合、サンプルは何を示していますか?このサンプルに役立つ情報はありますか?ここで、マルコフ連鎖は一時的またはヌル再帰的であることを認識しています。null再発の場合、肯定的なテイクアウェイはありますか?f(x|θ)f(x|θ)f(x|\theta)θθ\theta 最後に、ここでのニールGの回答では、彼は 通常、MCMCを使用して、たとえ不適切であったとしても、後方からサンプリングできます。 彼は、このようなサンプリングはディープラーニングでは一般的だと述べています。これが正しい場合、これはどのように意味がありますか?

1
統計アルゴリズム開発者候補者にとって、面接に適した質問は何ですか?
統計/機械学習/データマイニングのコンテキストにおけるアルゴリズム開発者/研究者の立場について、人々にインタビューしています。 具体的には、基礎となる理論に対する候補者の親しみやすさ、理解、流動性、たとえば期待値と分散の基本的な性質、一般的な分布などを判断するための質問を探しています。 私の現在のゴーへの質問は:「未知数がある。我々は推定したいと思い、この目的を達成するために、我々は推定持っY 1、Y 2、... 、Y nは与えられた、、すべての公平かつ独立しており、それぞれに既知の分散、それぞれ異なる。最適な推定量を見つけます。XXXY1,Y2,…,YnY1,Y2,…,YnY_1, Y_2, \ldots, Y_nXXXσ2iσi2\sigma_i^2Y=f(Y1,…,Yn)Y=f(Y1,…,Yn)Y=f(Y_1,\ldots, Y_n) 真面目な候補者なら誰でも簡単に処理できると期待しています(計算に時間をかけます)が、関連する分野からの候補者が、ほんの少しでも進歩しなかったのではないかと驚いています。したがって、私はそれを良い、差別的な問題だと考えています。この質問の唯一の問題は、それが1つしかないことです。 これには他にどのような質問を使用できますか?または、そのような質問のコレクションはどこで見つけることができますか?

5
一度に転がされるさまざまな多面体ダイスの分布は何ですか?
Dungeons&Dragonsサイコロのセットから5つのプラトンの立体を取ります。これらは、4面、6面(従来)、8面、12面、および20面のサイコロで構成されています。すべては1から始まり、合計で1ずつ増加します。 一度にすべてを転がし、合計を取ります(最小合計は5、最大は50)。複数回行います。ディストリビューションとは何ですか? 明らかに、それらはより高い数値よりも低い数値があるため、ローエンドに向かう傾向があります。しかし、個々のダイの各境界に顕著な変曲点がありますか? [編集:どうやら、明らかと思われたものはそうではありません。解説者の一人によると、平均は(5 + 50)/2=27.5です。私はこれを期待していませんでした。まだグラフを見たいです。] [Edit2:n個のサイコロの分布が、それぞれのサイコロと別々に同じであり、合計されていることを確認する方が理にかなっています。]

2
さまざまな分布の絶対偏差(MAD)およびSDの中央値
正規分布データの場合、標準偏差σσ\sigmaと絶対偏差中央値MADMAD\text{MAD}は次の関係にあります。 σ=Φ−1(3/4)⋅MAD≈1.4826⋅MAD,σ=Φ−1(3/4)⋅MAD≈1.4826⋅MAD,\sigma=\Phi^{-1}(3/4)\cdot \text{MAD}\approx1.4826\cdot\text{MAD}, ここで、Φ()Φ()\Phi()は標準正規分布の累積分布関数です。 他の分布にも同様の関係はありますか?

2
サンプリング分布は推論に合法ですか?
一部のベイジアンは、研究者の意図に依存するため、「固有のサンプリング分布は存在しない」と述べる頻繁な推論を攻撃します(Kruschke、Aguinis、&Joo、2012、733)。 たとえば、研究者がデータ収集を開始したが、40人の参加者がいた後、予想外に資金が削減されたとします。サンプリング分布(および後続のCIとp値)は、ここでどのように定義されますか?各構成サンプルにN = 40があると仮定しますか?または、異なるNのサンプルで構成され、各サイズは、彼の資金が削減された可能性のある他のランダムな時間によって決定されますか? 教科書にあるt、F、カイ2乗(等)、null分布はすべて、Nがすべての構成サンプルに対して固定され、一定であると仮定していますが、実際にはそうではない場合があります。さまざまな停止手順(たとえば、特定の時間間隔の後、またはアシスタントが疲れるまで)ごとに、異なるサンプリング分布があるようです。これらの「試行された」固定N分布の使用は不適切です。 この批判は、頻度の高いCIとp値の正当性をどの程度損ないますか?理論上の反論はありますか?サンプリング分布の概念を攻撃することにより、頻繁な推論の全体の構造は希薄になっているようです。 学術的な参考文献は大歓迎です。

4
変換しても正常ではない非正常データで回帰を実行するにはどうすればよいですか?
21個のアンケート項目に対するリッカート尺度の回答から得られたデータ(158件)があります。アンケートのどの項目が全体的な項目(満足度)に対する応答を予測するかを確認するために、回帰分析を実行したい/本当に必要です。応答は(KSテストによると)通常は分散されておらず、考えられるあらゆる方法(逆、ログ、log10、sqrt、2乗)に変換しました。残差プロットはあちこちに見えるので、線形回帰を行い、正常に動作するふりをすることは本当に合法ではないと思います(ポアソン分布ではありません)。これは、回答が非常に密集しているためだと思います(平均は3.91、95%CI 3.88〜3.95)。 そのため、データを変換する新しい方法が必要か、何らかのノンパラメトリック回帰が必要かと考えていますが、SPSSでできることはわかりません。

1
2つの独立したランダム変数の積
約1000個の値のサンプルがあります。これらのデータは、2つの独立したランダム変数の積から取得されます。最初のランダム変数は、一様分布持っています。2番目の確率変数の分布は不明です。2番目の()確率変数の分布を推定するにはどうすればよいですか?ξ 〜U (0 、1 )ψξ∗ψξ∗ψ\xi \ast \psi ξ∼U(0,1)ξ∼U(0,1)\xi \sim U(0,1)ψψ \psi

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.