タグ付けされた質問 「definition」

このタグは、統計用語の定義に関する質問を示します。統計的な用語について、特に定義についてではない質問には、より一般的なタグ[用語]を使用します。

3
ディストリビューションとは正確には何ですか?
私は確率と統計についてほとんど知らないので、学びたいと思っています。「分布」という言葉は、さまざまな文脈のあちこちで使われています。 たとえば、離散確率変数には「確率分布」があります。私はこれが何であるかを知っています。連続確率変数は、その後のため、確率密度関数を有するから積分、に確率密度関数のは、で評価累積分布関数である。x∈Rx∈Rx\in\mathbb{R}−∞−∞-\inftyxxxxxx そして、少なくとも連続的なランダム変数について話すとき、明らかに「分布関数」は「累積分布関数」と同義です(質問:それらは常に同義語ですか?)。 その後、多くの有名なディストリビューションがあります。 分布分布など。しかし、分布とは正確には何ですか?ランダム変数の累積分布関数ですか?または、確率変数の確率密度関数?ΓΓ\Gammaχ2χ2\chi^2ΓΓ\GammaΓΓ\GammaΓΓ\Gamma しかし、その場合、有限データセットの頻度分布はヒストグラムのように見えます。 長い話:確率と統計では、「分布」という言葉の定義は何ですか? 数学(誘導極限トポロジーを備えたテスト関数の集合の二重空間の要素)の分布の定義は知っていますが、確率と統計はわかりません。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

5
用語「共同分布」と「多変量分布」の違いは?
「多変量分布」を理解する可能性が高い視聴者に対して「結合確率分布」を使用することについて書いているので、後者を使用することを検討しています。ただし、これを行っている間は意味を失いたくありません。 ウィキペディアは、これらが同義語であることを示しているようです。 彼らは?そうでない場合は、なぜですか?

1
「ヘイウッドケース」の正確な定義は何ですか?
私は、「ヘイウッドケース」という用語を多少非公式に使用して、オンラインの「有限応答」反復更新された分散の推定値が、数値精度の問題により負になった状況を指していました。(Welfordのメソッドのバリアントを使用してデータを追加し、古いデータを削除しています。)数値誤差またはモデリング誤差により分散推定値が負になったが、同僚が私の用語の使用法で混乱しています。グーグル検索は、因子分析で使用されることを除いて、あまり検索されず、負の分散推定の結果を参照しているようです。正確な定義は何ですか?そして、元のヘイウッドは誰でしたか?

2
サンプルの分布に依存しない統計量の例?
これは、ウィキペディアの統計の定義です より正式には、統計理論は統計をサンプルの関数として定義します。関数自体はサンプルの分布に依存しません。つまり、データを実現する前に関数を指定できます。統計という用語は、特定のサンプルの関数と関数の値の両方に使用されます。 私はこの定義の大部分を理解していると思いますが、一部- 関数がサンプルの分布とは無関係である場合、私は整理できませんでした。 これまでの統計の理解 試料は分布Fと独立した、同一(IID)分散ランダム変数(20両面フェアダイスのロール10点の実現、6面体フェアダイスの5つのロール100点の実現、いくつかの数の実現の集合であります人口から100人を無作為に抽出します)。 ドメインがそのセットであり、範囲が実数である関数(または、ベクトルや他の数学オブジェクトのような他のものを生成できる可能性がある...)は、統計と見なされます。 例について考えると、平均、中央値、分散はすべてこの文脈で意味をなします。これらは、一連の実現(ランダムサンプルからの血圧測定)の関数です。私はまた、線形回帰モデルは、統計考えることができるかを確認することができyi=α+β⋅xiyi=α+β⋅x私y_{i} = \alpha + \beta \cdot x_{i} -実現のセットでこの機能だけではなく、ありますか? 混乱しているところ 上からの私の理解が正しいと仮定すると、関数がサンプルの分布に依存しない場所を理解できませんでした。私はそれを理解するための例を考えようとしてきましたが、運はありません。どんな洞察も大歓迎です!

1
「因子分析の基本定理」はPCAにどのように適用されますか、またはPCAの負荷はどのように定義されますか?
現在、「因子分析」用のスライドセットを調べています(私が知る限り、PCA)。 その中で、「因子分析の基本定理」が導き出され、分析に入るデータの相関行列()は因子負荷の行列()を使用して回復できると主張しています。ARR\bf RAA\bf A R = A A⊤R=AA⊤\bf R = AA^\top しかし、これは私を混乱させます。PCAでは、「因子負荷」の行列は、データの共分散/相関行列の固有ベクトルの行列で与えられます(データが標準化されていると仮定しているため、それらは同じです)。長さ1。この行列は直交しているため、一般にと等しくないです。RA A⊤= 私AA⊤=私\bf AA^\top = IRR\bf R

1
交絡因子-定義
M. Katzの著書「多変量解析」(6ページのセクション1.2)で、「交絡因子はリスク要因に関連し、結果に因果関係があります。」なぜ交絡因子は結果に因果関係があるのでしょうか?交絡因子が結果に関連付けられれば十分ですか?

2
または場合、帰無仮説を棄却しますか?
これは明らかに単なる定義または慣例の問題であり、実際的な重要性はほとんどありません。が従来の値0.05に設定されている場合、値0.0500000000000 ...は統計的に有意であると見なされますか?統計的有意性を定義する規則は、通常またはと見なされますか?P 、P &lt; α のp ≤ ααα\alphapppp&lt;αp&lt;αp < \alphap≤αp≤αp \leq \alpha

6
条件「B」に対する治療「A」の利点を決定する際の有効性と有効性の違いは何ですか?
この質問のコンテキストは、健康の枠組み内、つまり、状態の治療における1つまたは複数の治療法を見ることです。尊敬されている研究者でさえ、用語「有効性」と「有効性」を混同しているようです。 混乱を取り除くのに役立つ方法で、有効性と有効性をどのように考えることができますか? 両方のタイプの結果を決定するのに、どのタイプの研究デザインが最も適切でしょうか? 信頼できる雑誌の出版物、書籍、またはウェブ辞書はありますか?

2
do(x)演算子の意味?
私は因果関係で行っている文献レビューのどこでも演算子を見ました例えば、このウィキペディアのエントリを参照)。ただし、この演算子の正式で一般的な定義は見つかりません。do(x)do(x)do(x) 誰かがこれについての良い参照を教えてくれますか?特定の実験での解釈よりも、一般的な定義に興味があります。

2
素人の言葉でトンプソンサンプリングとは何ですか?
トンプソンサンプリングとその仕組みを理解できません。私はマルチアームバンディットについて読んでいて、Upper Confidence Bound Algorithmを読んだ後、トンプソンサンプリングがUCBよりも優れていることを多くのテキストが示唆しました。トンプソンサンプリングとは何ですか? さらに理解を深めるために、参照記事を自由に提供してください。


3
回帰モデルの定義と区切り
恥ずかしいほど単純な質問ですが、以前にクロス検証で質問されたことはないようです: 回帰モデルの定義は何ですか? また、サポートの質問、 何でない回帰モデル? 後者に関しては、答えがすぐにはわからないトリッキーな例に興味があります。例えば、 潜在変数モデル(ARIMAやGARCHなど)はどうですか?

2
規則性と正則化とは何ですか?
機械学習を勉強するにつれて、これらの言葉をどんどん聞いています。実際、方程式の規則性に取り組んでフィールズメダルを獲得した人もいます。だから、これは統計物理学/数学から機械学習に至る用語です。当然、私が尋ねた多くの人々は、それを直感的に説明できませんでした。 ドロップアウトなどのメソッドが正則化に役立つことを知っています(=&gt;彼らはオーバーフィットを減らすと言いますが、実際にはそれがわかりません:それがオーバーフィットを減らすだけなら、なぜそれをアンチオーバーフィットメソッドと呼ばないのですか?もっと私が思うので、この質問)。 あなたが説明できるなら、私は本当に感謝しています(私は素朴なMLコミュニティもそうでしょう!) 規則性をどのように定義しますか?規則性とは何ですか? 正規化は、規則性を保証する方法ですか?すなわち、規則性をキャプチャしますか? ドロップアウトなどのメソッドの組み立て、正規化メソッドがすべて正規化を行っていると主張するのはなぜですか? なぜ機械学習でこれら(規則性/正規化)が出てくるのですか? ご協力ありがとうございます。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds &lt;- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.