タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

4
2つの共分散行列間の類似性または距離の測定
2つの対称共分散行列(どちらも同じ次元)の間に類似性または距離の尺度はありますか? ここでは、2つの確率分布のKL発散や、マトリックスに適用されないベクトル間のユークリッド距離の類似物を考えています。かなりの数の類似性測定があると思います。 理想的には、2つの共分散行列が同一であるという帰無仮説もテストしたいと思います。

3
Rの離散均一分布のデフォルト関数はありますか?
Rのほとんどの標準分布には、pdf / pmf、cdf / cmf、変位値、ランダム偏差(dnorm、pnorm、qnorm、rnormなど)のコマンドファミリがあります。 いくつかの標準コマンドを使用して離散均一分布のこれらの関数を再現するのは簡単ですが、Rの離散均一分布をモデル化するための組み込み関数の好ましい組み込みファミリは既にありますか?

7
任意の離散分布に基づいて数値を生成する方法は?
任意の離散分布に基づいて数値を生成するにはどうすればよいですか? たとえば、生成したい数字のセットがあります。次のように1〜3のラベルが付けられているとします。 1:4%、2:50%、3:46% 基本的に、パーセンテージは、乱数ジェネレーターからの出力に現れる確率です。区間[0、1]で均一な分布を生成する疑似乱数ジェネレーターがあります。これを行う方法はありますか? 持つことができる要素の数に制限はありませんが、%は100%になります。

6
素人の言葉では、モデルと分布の違いは何ですか?
ウィキペディアで定義されている回答(定義)は、高等数学/統計になじみのない人にとっては間違いなく少し不可解です。 数学用語では、統計モデルは通常ペア()と考えられますは可能な観測値のセット、つまりサンプル空間、は確率分布のセットです上の。S、PS、PS, \mathcal{P}SSSPP\mathcal{P}SSS 確率と統計では、確率分布は、ランダムな実験、調査、または統計的推論の手順の可能な結果の各測定可能なサブセットに確率を割り当てます。サンプル空間が非数値である例が見つかります。この例では、分布はカテゴリー分布になります。 私は非常に趣味としてこの分野に関心のある高校生だと現在あるものとの違いに苦しんでいますstatistical modelし、Aprobability distribution 私の現在の非常に初歩的な理解はこれです: 統計モデルは、測定された分布を近似する数学的な試みです 確率分布は、ランダムイベントの各可能な結果に確率を割り当てる実験から測定された説明です 混乱は、文学で「分布」と「モデル」という言葉が同じ意味で使用されているか、または少なくとも非常によく似た状況(たとえば、二項分布と二項モデル)で見られる傾向によってさらに悪化します。 誰かが私の定義を検証/修正し、おそらくこれらの概念に対してより形式化されたアプローチを提供できますか?

2
RSSがカイ二乗倍npで配信​​されるのはなぜですか?
OLSモデルでは、RSS(残差平方和)が(はモデル内のパラメーター数、は観測数)に分布している理由を理解したいと思います。のP Nχ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn このような基本的な質問をしたことをおaびしますが、オンライン(またはアプリケーション指向の教科書)で答えを見つけることができないようです。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
ディリクレ分布のアルファとは正確には何ですか?
私はベイジアン統計にかなり慣れていないので、アルゴリズムのバックエンドでディリクレプロセスを使用する修正された相関測定SparCCに出会いました。何が起こっているのかを実際に理解するために段階的にアルゴリズムを試してみましたがalpha、ディリクレ分布でベクトルパラメーターが何をするのか、ベクトルパラメーターをどのように正規化するのか正確にはわかりませんかalpha? 実装は以下をPython使用していNumPyます:https : //docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html ドキュメントは言う: alpha:分布の配列パラメーター(次元kのサンプルのk次元)。 私の質問: alphas分布にどのような影響がありますか?; どのようalphasに正規化されていますか?; そして alphasが整数でない場合はどうなりますか? import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) # Dirichlet Distribution dd = …

7
分布仮説のテスト-帰無仮説を「受け入れる」ことができない場合、それを行う意味は何ですか?
GOF検定、Kolmogorov-Smirnov、Anderson-Darling などのさまざまな仮説検定は、次の基本形式に従います。χ2χ2\chi^{2} H0H0H_0:データは指定された分布に従います。 H1H1H_1:データは指定された分布に従っていません。 通常、特定のデータが特定の分布に従っているという主張を評価し、拒否した場合、データは特定のレベルでの特定の分布に適合しません。 αH0H0H_0αα\alpha しかし、拒否しないとますか?私は常に「受け入れる」ことはできないと教えられてきたので、基本的にを拒否する証拠はありません。つまり、データが指定された分布に従うことを拒否するという証拠はありません。H 0 H 0H0H0H_0H0H0H_0H0H0H_0 したがって、私の質問は、データが特定の分布に従うかどうかを結論付けることができない場合、そのようなテストを実行するポイントは何ですか?

5
分布の収束と確率の収束の直感的な説明
確率が収束する確率変数と分布が収束する確率変数の直感的な違いは何ですか? 私は数多くの定義と数学の方程式を読みましたが、それは本当に助けにはなりません。(覚えておいてください、私は計量経済学を勉強している大学生です。) ランダム変数はどのようにして単一の数値に収束しますが、分布にも収束しますか?

2
分布には名前がありますか?
先日、この密度に出くわしました。誰かがこれに名前を付けましたか? f(x )= ログ(1 + x− 2)/ 2 πf(バツ)=ログ⁡(1+バツ−2)/2πf(x) = \log(1 + x^{-2}) / 2\pi 密度は原点で無限で、太い尾もあります。多くの観測値が小さいと予想される状況で、事前に分布として使用されるのを見ましたが、大きな値も予想されていました。

5
線形回帰は正規分布をどのように使用しますか?
線形回帰では、各予測値は可能な値の正規分布から選択されたと想定されます。下記参照。 しかし、なぜ各予測値は正規分布に由来すると想定されているのでしょうか?線形回帰はこの仮定をどのように使用しますか?可能な値が正規分布していない場合はどうなりますか?

2
分位(逆CDF)関数の理解を手伝ってください
分位数関数について読んでいますが、はっきりしていません。以下に示す説明よりも直感的な説明を提供できますか? cdfは単調増加関数であるため、逆関数になります。これを示しましょう。場合の累積分布関数であるは、の値であるように、。これは分位数と呼ばれます。値は分布の中央値で、確率質量の半分が左側に、半分が右側にあります。値 およびは、下位および上位の四分位数です。F - 1 F X F - 1(α )X α P (X ≤ X α)= α α F F - 1(0.5 )F - 1(0.25 )F - 1(0.75 )FFFF−1F−1F^{−1}FFFバツXXF− 1(α )F−1(α)F^{−1}(\alpha)バツαxαx_\alphaP(X≤ Xα)= αP(X≤xα)=αP(X \le x_\alpha) = \alphaαα\alphaFFFF− 1(0.5 )F−1(0.5)F^{−1}(0.5)F− 1(0.25 )F−1(0.25)F^{−1}(0.25)F− 1(0.75 )F−1(0.75)F^{−1}(0.75)

6
分布を比較するための優れたデータ視覚化技術とは何ですか?
私は博士論文を書いていますが、分布を比較するためにボックスプロットに過度に依存していることに気付きました。このタスクを達成するために他にどの方法が好きですか? また、データの視覚化に関するさまざまなアイデアを取り入れることができるRギャラリーとして、他のリソースを知っているかどうかを尋ねたいと思います。

3
Kolmogorov-Smirnovテストが機能するのはなぜですか?
2標本KS検定について読んで、私は正確に理解し、それが何をしているのかが、私は理解していないそれが動作する理由。 つまり、すべての手順に従って経験分布関数を計算し、2つの間の最大差を見つけてD統計値を見つけ、臨界値を計算し、D統計値をp値に変換することができます。 しかし、なぜこの2つが実際に2つのディストリビューションについて何かを教えてくれるのか、私にはわかりません。 誰かがロバを飛び越えてどれだけ速く逃げるかを数える必要があることを簡単に教えてくれるかもしれません。速度が2 km / hr未満の場合は、帰無仮説を拒否します。確かに私はあなたが私に言ったことをすることができますが、そのどれが帰無仮説と関係がありますか? 2サンプルKSテストが機能するのはなぜですか?ECDF間の最大差の計算は、2つの分布の違いと何の関係がありますか? どんな助けも大歓迎です。私は統計学者ではないので、可能であれば私は馬鹿だと仮定します。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.