タグ付けされた質問 「definition」

このタグは、統計用語の定義に関する質問を示します。統計的な用語について、特に定義についてではない質問には、より一般的なタグ[用語]を使用します。

5
ウィキペディアの可能性に関するエントリはあいまいに見える
「条件付き確率」と「可能性」に関する簡単な質問があります。(私はすでにこの質問をここで調査しましたが、役に立ちませんでした。) ウィキペディアの可能性に関するページから始まります。彼らはこう言います: 結果与えられたパラメーター値のセットの尤度は、パラメーター値が与えられた場合に観測された結果の確率に等しい、つまりθθ\thetaxxx L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) すばらしいです!そう英語で、私はこれを読んで、「シータ、所与のデータX = X、(左辺)を、等しいパラメータの可能性は、データXがXに等しい確率に等しい所定のパラメータことシータに等しい」。(太字は強調のためのものです)。 ただし、同じページの3行以上後に、Wikipediaのエントリは次のように続きます。 ましょ離散確率分布を持つ確率変数 、パラメータに応じて、。次に、関数XXXpppθθ\theta L(θ∣x)=pθ(x)=Pθ(X=x),L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \, 関数と見なされるものは、(確率変数結果が与えられた場合の)尤度関数と呼ばれます 。時には値の確率のパラメータ値のためのとして書き込まれる。多くの場合のように記述を強調するために、このから異なる 条件付き確率されていないので、パラメータとしない確率変数です。θθ\thetaθθ\thetaxxxXXXxxxXXXθθ\thetaP(X=x∣θ)P(X=x∣θ)P(X=x\mid\theta)P(X=x;θ)P(X=x;θ)P(X=x;\theta)L(θ∣x)L(θ∣x)\mathcal{L}(\theta \mid x) θθ\theta (太字は強調のためのものです)。したがって、最初の引用では、文字通り条件付き確率について説明されていますが、その後すぐに、これは実際には条件付き確率ではなく、実際には?P(x∣θ)P(x∣θ)P(x\mid\theta)P(X=x;θ)P(X=x;θ)P(X = x; \theta) それで、どれが?尤度は、実際には最初の引用の条件付き確率を暗示していますか?または、2番目の引用の単純な確率を暗示していますか? 編集: これまでに受け取った有益で洞察に満ちたすべての答えに基づいて、私の質問を要約しました。 で英語「可能性が観測されたデータを考えると、パラメータの関数である。」:、我々はと言います で数学:、我々は、のように記述。L(Θ=θ∣X=x)L(Θ=θ∣X=x)L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) 尤度は確率ではありません。 尤度は確率分布ではありません。 尤度は確率質量ではありません。 ただし、英語では、尤度は「であり、パラメーター化された確率分布の積(連続的な場合)、または確率質量の積(離散的な場合)。 " 数学、我々は、次に、そのように書く:(連続ケース、はPDF)、および(離散ケース、は確率質量)。ここで重要なことは、ここではまったくX=xX=x\mathbf{X} …

2
最高密度領域(HDR)とは何ですか?
で統計的推論、問題9.6b、「最高密度領域(HDR)」が言及されています。しかし、私は本でこの用語の定義を見つけませんでした。 1つの類似した用語は、最高後方密度(HPD)です。しかし、9.6bは事前分布については何も言及していないため、このコンテキストには適合しません。提案された解決策では、「明らかにc (y)c(y)c(y)はHDRである」としか書かれていません。 または、HDRはpdfのモードを含む領域ですか? 最高密度領域(HDR)とは何ですか?


2
それから
古典的な統計では、データセットy 1、… 、y nの統計TTTがパラメーターθに対して完全であると定義され、それから0の不偏推定量を非自明に形成することは不可能であるという定義があります。つまり、唯一の方法は、持っているE H (T (Y ))= 0を全てに対してθを有することであるhはである0をほぼ確実。y1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 この背後に直感がありますか?これはかなり機械的な方法のように思えますが、これは以前に尋ねられたことを知っていますが、入門者の学生が資料を消化するのが簡単になる直感を非常に理解しやすいかどうか疑問に思っていました。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
名前に含まれるもの:ハイパーパラメーター
したがって、正規分布では、平均と分散つのパラメーターがあります。本「パターン認識と機械学習」では、エラー関数の正則化項にハイパーパラメーターが突然現れます。μμ\muσ2σ2\sigma^2λλ\lambda ハイパーパラメーターとは何ですか?なぜそのような名前が付けられているのですか?そして、それらは一般的にパラメーターとどのように直感的に異なっていますか?

5
「尤度は、比例の乗法定数までしか定義されていません」とは実際にはどういう意味ですか?
筆者は、表面上は初心者への紹介として、最尤推定の議論からベイズの定理へと導く論文を読んでいます。 尤度の例として、二項分布から始めます。 p (x | n 、θ )= ( nバツ) θバツ(1 - θ )n − xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} そして、両側を記録します ℓ (θ | x 、n )= x ln(θ )+ (n − x )ln(1 - θ )ℓ(θ|x,n)=xln⁡(θ)+(n−x)ln⁡(1−θ)\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta) 次の理由で: 「尤度は比例の乗法定数(または対数尤度の加法定数)までしか定義されていないため、二項係数を削除し、尤度の代わりに対数尤度を記述することにより、再スケーリングできます。」 数学は理にかなっていますが、「尤度は比例の乗法定数までしか定義されていない」と、これが二項係数を下げてp (x | n 、θ …

2
対称分布の定義は何ですか?
対称分布の定義は何ですか?誰かが、Xと− Xが同じ分布を持っている場合に限り、ランダム変数XXXは対称分布から来たと私に言った。しかし、この定義は部分的に正しいと思います。私は反例提示することができますので、X 〜N (μ 、σ 2)とμ ≠ 0を。明らかに、対称的な分布を持っていますが、Xと− Xは異なる分布を持っています!私は正しいですか?この質問について考えたことはありますか?対称分布の正確な定義は何ですか?XXX−X−X-XX∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^{2})μ≠0μ≠0\mu\neq0XXX−X−X-X

1
PCAで「プリンシパルコンポーネント」と正確に呼ばれるものは何ですか?
仮定デザイン行列とのデータの投影の分散最大化するベクトルである。uuuXXX ここで、uuuをデータの(最初の)主成分として参照する資料を見ました。これは最大の固有値を持つ固有ベクトルでもあります。 ただし、データの主成分はXuXuX u。 明らかに、uuuとXuXuXuは異なるものです。誰でもここで私を助けて、主成分のこれら2つの定義の違いを教えてもらえますか?



3
「検定統計量」は値またはランダム変数ですか?
私は今、最初の統計コースを受講している学生です。「テスト統計」という用語に混乱しています。 以下(一部の教科書でこれを見ました)では、は特定のサンプルから計算された特定の値であるようです。 tttt=x¯¯¯−μ0s/n−−√t=x¯−μ0s/n t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} ただし、以下では(他の教科書でこれを見ました)、はランダム変数のようです。 TTTT=X¯¯¯¯−μ0S/n−−√T=X¯−μ0S/n T=\frac{\overline{X} - \mu_0}{S / \sqrt{n}} それでは、用語「検定統計量」は特定の値またはランダム変数、あるいはその両方を意味しますか?


3
複数の「中央値」式はありますか?
私の仕事では、個人がデータセットの「平均」値を指す場合、通常は算術平均(「平均」または「期待値」)を指しています。「平均」の定義が事前に知られているので、幾何平均を指定すると、人々はおそらく私がわからないか役に立たないと思うでしょう。 データセットの「中央値」の定義が複数あるかどうかを判断しようとしています。たとえば、偶数個の要素を持つデータセットの中央値を見つけるために同僚によって提供された定義の1つは次のようになります。 アルゴリズム「A」 要素の数を2で割り、切り捨てます。 その値は中央値のインデックスです。 すなわち、次のセットでは、中央値はになります5。 [4, 5, 6, 7] これは理にかなっているようですが、切り捨ての側面は少しarbitrary意的です。 アルゴリズム「B」 いずれにせよ、別の同僚が別のアルゴリズムを提案しており、それは彼の統計テキストにありました(名前と著者を取得する必要があります): 要素数を2で除算し、切り上げられた整数と切り捨てられた整数のコピーを保持します。それらを名前n_loとn_hi。 n_loおよびの要素の算術平均を取りn_hiます。 すなわち、次のセットでは、中央値はになります(5+6)/2 = 5.5。 [4, 5, 6, 7] ただし、5.5この場合、中央値は元のデータセットに含まれていないため、これは間違っているようです。いくつかのテストコードでアルゴリズム「A」を「B」からスワップアウトすると、(予想どおり)ひどく破損しました。 質問 データセットの中央値を計算するこれら2つのアプローチに正式な「名前」はありますか?すなわち、「2つ以下の中央値」と「中間要素の平均値と新しいデータの中央値」の比較ですか?

1
ニューラルネットワーク文献のテンソル:最も単純な定義は何ですか?
ニューラルネットワークの文献では、「テンソル」という言葉に遭遇することがよくあります。 ベクターとは違うのですか?そして、マトリックスから?その定義を明確にする具体的な例はありますか? 私はその定義について少し混乱しています。ウィキペディアは役に立たず、時々、その定義は使用されている特定の機械学習環境(TensorFlow、Caffee、Theano)に依存するという印象を受けます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.