タグ付けされた質問 「method-of-moments」

サンプルと母集団のモーメントを等しくしてから未知のパラメーターの方程式を解くことによるパラメーター推定の方法。

7
モーメント法が小さなサンプルで最尤法に勝てる例?
最尤推定量(MLE)は漸近的に効率的です。サンプルサイズが小さい場合でも、モーメント法(MoM)推定(それらが異なる場合)よりも優れていることが多いという点で、実際的な結果が見られます。 ここで「より良い」とは、両方がバイアスされていない場合の分散が通常小さいという意味で、より一般的には平均二乗誤差(MSE)が小さいことを意味します。 ただし、問題は発生します。 MoMがMSEで、たとえば小さなサンプルでMLEに勝てる場合はありますか? (これは奇妙な/退化した状況ではありません-つまり、MLが存在する条件が与えられた場合/漸近的に効率的なホールドになる場合) その場合、フォローアップの質問は「どれだけ小さいことができますか?」-つまり、例があれば、比較的大きなサンプルサイズ、おそらくはすべて有限のサンプルサイズでも保持されるものがありますか? [有限サンプルでMLに勝てるバイアス付き推定器の例を見つけることができますが、MoMではありません。] レトロスペクティブに追加された注:ここでの私の焦点は、主に単変量の場合(実際には、私の根底にある好奇心がどこから来ているか)です。多変量のケースを除外したくはありませんが、ジェームズ・スタイン推定の詳細な議論に迷いたくはありません。

5
最尤推定—多くの場合、バイアスがかかっているにもかかわらず使用される理由
最尤推定では、バイアスのかかった推定量が得られることがよくあります(たとえば、サンプル分散の推定値はガウス分布に対してバイアスがかけられます)。 それで何がそんなに人気があるのでしょうか?なぜそんなに正確に使用されるのですか?また、特に代替アプローチであるモーメント法よりも優れている点は何ですか? また、ガウスでは、MLE推定量を単純にスケーリングすることでバイアスが偏らないことに気付きました。なぜこのスケーリングは標準的な手順ではないのですか?つまり、なぜMLE計算の後、推定量を不偏にするために必要なスケーリングを見つけるのが日常的ではないのですか?標準的な方法は、スケーリング係数がよく知られているよく知られたガウスの場合を除いて、MLE推定値の単純な計算のようです。


4
モーメントとは何ですか?それらはどのように導出されますか?
通常、母集団のすべてのパラメーターを推定するまで「母集団のモーメントを対応するサンプルに等しくする」ことにより、モーメントの推定量の方法を紹介しています。そのため、正規分布の場合、これらの分布が完全に記述されているため、1番目と2番目の瞬間のみが必要になります。 E(X)= μ⟹∑ni = 1バツ私/ n= X¯E(バツ)=μ⟹∑私=1nバツ私/n=バツ¯E(X) = \mu \implies \sum_{i=1}^n X_i/n = \bar{X} E(X2)= μ2+ σ2⟹∑ni = 1バツ2私/ nE(バツ2)=μ2+σ2⟹∑私=1nバツ私2/nE(X^2) = \mu^2 + \sigma^2 \implies \sum_{i=1}^n X_i^2/n そして、理論的に最大追加モーメントを次のように計算できます。nnn E(Xr)⟹∑ni = 1バツr私/ nE(バツr)⟹∑私=1nバツ私r/nE(X^r) \implies \sum_{i=1}^nX_i^r /n どのような瞬間に本当に直観を構築できますか?私はそれらが物理学と数学の概念として存在することを知っていますが、特に質量概念からデータポイントまで抽象化する方法がわからないため、直接適用することはできません。この用語は統計で特定の方法で使用されるようで、他の分野での使用とは異なります。 データのどの特性が、全体で何()のモーメントがあるかを決定しますか?rrr

1
モーメント生成関数と特性関数の間のリンク
モーメント生成関数と特性関数の間のリンクを理解しようとしています。モーメント生成関数は次のように定義されます: Mバツ(t )= E(exp(t X))= 1 + t E(X)1+ t2E(X2)2 !+ ⋯ + tnE(Xn)n !Mバツ(t)=E(exp⁡(tバツ))=1+tE(バツ)1+t2E(バツ2)2!+⋯+tnE(バツn)n! M_X(t) = E(\exp(tX)) = 1 + \frac{t E(X)}{1} + \frac{t^2 E(X^2)}{2!} + \dots + \frac{t^n E(X^n)}{n!} の級数展開を使用して、ランダム変数の分布のすべてのモーメントを見つけることができますバツ。exp(t X)= ∑∞0(t )n⋅ Xnn !exp⁡(tバツ)=∑0∞(t)n⋅バツnn!\exp(tX) = \sum_0^{\infty} \frac{(t)^n \cdot X^n}{n!} 特性関数は次のように定義されます: φバツ(t )= E(exp(i t X))= 1 + …

1
最尤法とモーメント法が同じ推定量を生成するのはいつですか?
先日、私はこの質問をされましたが、これまで考えたことはありませんでした。 私の直感は、各推定量の利点から来ています。最尤法は、モーメントの方法とは異なり、分布全体の知識を利用するため、データ生成プロセスに自信がある場合に可能です。MoM推定器はモーメントに含まれる情報のみを使用するため、推定しようとしているパラメーターの十分な統計がデータのモーメントである場合、2つの方法は同じ推定値を生成するようです。 いくつかの分布でこの結果を確認しました。正規(未知の平均と分散)、指数、およびポアソンはすべて、それらのモーメントに等しい十分な統計を持ち、MLEとMoM推定器は同じです(複数のMoM推定器があるポアソンのようなものには厳密に当てはまりません)。私たちは制服を見てみると、のための十分統計であるとMOMとMLE推定器は異なっています。(0,θ)(0,θ)(0,\theta)θθ\thetamax(X1,⋯,XN)max(X1,⋯,XN)\max(X_1,\cdots,X_N) 多分これは指数族の奇癖だと思ったが、平均値が既知のラプラスの場合、十分な統計は1n∑|Xi|1n∑|Xi|\frac{1}{n} \sum |X_i| 分散のMLEとMoM推定量が等しくありません。 これまでのところ、一般的な結果を表示することはできませんでした。誰もが一般的な条件を知っていますか?または、反例でも直観を磨くのに役立ちます。

1
ANOVAは最尤法ではなくモーメント法に依存していますか?
さまざまな場所で、ANOVAはモーメント法を使用して推定を行うと述べています。 瞬間の方法に精通していなくても、それは最尤法とは異なるものであり、同等ではないという私の理解だからです。一方、ANOVAは、カテゴリ予測変数との線形回帰として見ることができ、回帰パラメータのOLS推定は、ある最大尤。 そう: ANOVA手順をモーメント法として適格とするものは何ですか? ANOVAは、カテゴリカル予測子を使用したOLSと同等であるため、最尤ではありませんか? 通常のANOVAの特殊なケースでこれら2つの方法が何らかの形で同等であることが判明した場合、差異が重要になる特定のANOVA状況はありますか?不均衡な設計?繰り返し測定?混合(被験者間+被験者内)デザイン?


3
モーメント法とは何ですか?それはMLEとどのように異なりますか?
一般的に、モーメントの方法は、観測されたサンプルの平均または分散を理論上のモーメントに一致させて、パラメーターの推定値を取得しているようです。これはしばしば指数関数的家族のMLEと同じであると私は収集しています。 しかし、尤度関数のモードを見つけるのは難しいかもしれませんが、モーメントの方法の明確な定義や、MLEが一般的に好まれるように見える理由を明確に説明することは困難です。 この質問MLEはモーメント法よりも効率的ですか?ドナルドルービン教授(ハーバード大学)からの引用によると、40年代以降、MLEがMoMを上回っていることは誰もが知っていますが、その歴史や理由について知りたいと思います。

2
選択するパラメーター推定の方法を知るにはどうすればよいですか?
パラメータの推定には、かなりの数の方法があります。MLE、UMVUE、MoM、意思決定理論、その他はすべて、パラメーター推定に役立つ理由についてかなり論理的なケースがあるように見えます。ある方法は他の方法よりも優れていますか、それとも単に「最適な」推定量を定義する方法の問題ですか(直交誤差を最小化すると通常の最小二乗アプローチから異なる推定値が生成されるのと同様)?

2
一般化されたモーメントの方法を非統計学者に説明する
モーメントの一般化された方法を説明するにはどうすればよいですか? これまでのところ、これは私たちが収集したサンプルに基づいて平均や変動などの条件を推定するために使用するものです。 分散を最小化してパラメーターベクトルを推定する部分をどのように説明しますか?

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
モーメント生成関数の実際の使用
ほとんどの基本的な確率理論コースでは、指示されたモーメント生成関数(mgf)は確率変数のモーメントの計算に役立ちます。特に期待と分散。現在、ほとんどのコースで、期待値と差異について提供する例は、定義を使用して分析的に解決できます。 期待値と分散を見つけることが分析的に困難であり、mgfの使用が必要であった分布の実際の例はありますか?ベーシックコースでなぜ重要なのか正確に理解できないので、お願いします。

1
三角分布のパラメーター推定
密度のある三角分布のパラメーターの推定に関する質問がここに投稿されました(現在は削除されています)。 f(x ; a 、b 、c )=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪02 (x − a )(b − a )(c − a )2 (b − x )(b − a )(b − c )0以下のため のx < A 、用 ≤ X ≤ C 、以下のための C < X ≤ B 、以下のための B < X 。f(バツ;a、b、c)={0ために バツ<a、2(バツ−a)(b−a)(c−a)ために a≤バツ≤c、2(b−バツ)(b−a)(b−c)ために c<バツ≤b、0ために b<バツ。f(x;a,b,c)=\begin{cases} …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.