タグ付けされた質問 「estimation」

このタグは一般的です。より具体的なタグを提供してください。特定の推定量のプロパティに関する質問については、代わりに[estimators]タグを使用してください。

3
クーポンコレクターの問題におけるnの推定
クーポンコレクターの問題のバリエーションでは、クーポンの数がわからないため、データに基づいてこれを決定する必要があります。これをフォーチュンクッキーの問題と呼びます。 個別のフォーチュンクッキーのメッセージの数が不明考えるとnnn、推定nnnそれぞれ幸運が表示された回数、時間とカウントでクッキー1をサンプリングすること。また、この推定値で目的の信頼区間を取得するために必要なサンプル数を決定します。 基本的に、所定の信頼区間に到達するのに十分なデータ、たとえば95 %の信頼でn±5n±5n \pm 5をサンプリングするアルゴリズムが必要です。簡単にするために、すべての運命が等しい確率/頻度で現れると仮定できますが、これはより一般的な問題には当てはまらず、その解決策も歓迎します。95%95%95\% これはドイツの戦車問題に似ていますますが、この例では、フォーチュンクッキーには順番にラベルが付けられていないため、順序付けがありません。

1
母集団のR平方の公平な推定とは何ですか?
多重線形回帰で不偏推定値を取得することに興味がありますR2R2R^2。 熟考すると、不偏推定値が一致しようとしている2つの異なる値を考えることができます。R2R2R^2 Out of sample:R2R2R^2サンプルから得られた回帰方程式(つまり)が、サンプルの外部にある同じデータからの無限量のデータに適用された場合に得られるr平方生成プロセス。β^β^\hat{\beta} 母集団:R2R2R^2無限サンプルが取得され、モデルがその無限サンプル(つまり、)に適合した場合に取得されるr平方、または既知のデータ生成プロセスによって暗示されるR平方のみ。ββ\beta 調整されたR2R2R^2は、サンプル観察された過剰適合を補償するように設計されていることを理解しています。それにもかかわらず、調整後かどうかは明らかではない実際の不偏推定値であり、、それは二定義は上記の不偏推定値である場合、が推定することを目指しています。R2R2R^2R2R2R^2R2R2R^2R2R2R^2 したがって、私の質問: 上記のサンプルからの偏りのない推定値は何ですか?R2R2R^2 母集団より上で私が呼ぶものの公平な推定とは何ですか?R2R2R^2 公平性のシミュレーションまたはその他の証拠を提供する参考文献はありますか?

3
コルモゴロフ-スミルノフ検定を使用して分布パラメーターを推定できますか?
コルモゴロフ-スミルノフ検定を使用して、サンプルからパラメーターが推定された分布の適合度を検定するべきではないことを読みました。 サンプルを2つに分割し、前半をパラメーター推定に使用し、後半をKSテストに使用するのは理にかなっていますか? 前もって感謝します

3
爆弾はどこにありますか:行と列の合計を与えられた確率を推定する方法は?
この質問は、ポケモンソウルシルバーのミニゲームに触発されたものです。 この5x6領域に15個の爆弾が隠れていると想像してください(編集:最大1個の爆弾/セル): 行/列の合計を考慮して、特定のフィールドで爆弾を見つける確率をどのように推定しますか? 列5(合計爆弾= 5)を見ると、次のように思うかもしれません。この列では、行2で爆弾を見つけるチャンスは行1で見つける可能性の2倍です。 この(間違った)直接比例の仮定は、基本的に標準の独立テスト操作(カイ二乗など)を間違ったコンテキストに描画すると説明できるため、次の推定につながります。 ご覧のように、直接比例は100%を超える確率の推定につながり、それ以前でも間違っています。 そこで、考えられるすべての順列の計算シミュレーションを実行し、15個の爆弾を配置する276のユニークな可能性を導きました。(与えられた行と列の合計) 276のソリューションの平均は次のとおりです。 これは正しい解決策ですが、指数関数的な計算作業のため、推定方法を見つけたいと思います。 私の質問は今です:これを推定する確立された統計的方法はありますか?これが既知の問題であるかどうか、それがどのように呼ばれるか、お勧めできる論文/ウェブサイトがあるかどうか疑問に思っていました!

1
Oracle不等式:基本的に
私はオラクルの不平等を使って何かを証明する論文を読んでいますが、それが何をしようとしているかを理解することはできません。「Oracle Inequality」についてオンラインで検索したところ、「Candes、Emmanuel J.「オラクル不平等による現代の統計的推定」という記事に導かれた情報源がありました。" https://statweb.stanford.edu/~candes/papers/NonlinearEstimation.pdfにあります。しかし、この本は私には重すぎるように思われ、いくつかの前提条件が欠けていると思います。 私の質問は次のとおりです。オラクルの不等式が数学以外の専攻(エンジニアを含む)にどのように説明しますか?第二に、上記の本のようなものを学ぶ前に、前提条件/トピックについてどのように推奨するか。 具体的に把握し、高次元統計の経験が豊富な人に答えてもらうことを強くお勧めします。

3
多変量モードの計算効率の高い推定
ショートバージョン:連続分布からサンプリングされた多次元データセットのモードを推定する最も計算効率の良い方法は何ですか? 長いバージョン:モードを推定する必要があるデータセットがあります。モードは平均値または中央値と一致しません。サンプルを以下に示します。これは2Dの例ですが、NDソリューションの方が適しています。 現在、私の方法は モードの望ましい解像度に等しいグリッドでカーネル密度推定を計算します 計算された最大の点を探す 明らかに、これは多くの妥当ではないポイントでKDEを計算します。これは、高次元のデータポイントが多数ある場合、またはモードで良好な解像度が期待できる場合は特に悪いことです。 別の方法として、シミュレーテッドアニーリング、遺伝的アルゴリズムなどを使用して、KDEのグローバルピークを見つけることができます。 問題は、この計算を実行するよりスマートな方法があるかどうかです。

2
パラメータの推定可能性に関する問題
レッツと、このような、4つのランダム変数である、ここでは不明なパラメーターです。また、、と仮定し次に、どれが本当ですか?Y1,Y2,Y3Y1,Y2,Y3Y_1,Y_2,Y_3Y4Y4Y_4E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y_1)=\theta_1-\theta_3;\space\space E(Y_2)=\theta_1+\theta_2-\theta_3;\space\space E(Y_3)=\theta_1-\theta_3;\space\space E(Y_4)=\theta_1-\theta_2-\theta_3θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3Var(Yi)=σ2Var(Yi)=σ2Var(Y_i)=\sigma^2i=1,2,3,4.i=1,2,3,4.i=1,2,3,4. A.は推定可能です。θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3 B.は推定可能です。θ1+θ3θ1+θ3\theta_1+\theta_3 C.は推定可能であり、は最良の線形不偏推定値です。θ1−θ3θ1−θ3\theta_1-\theta_312(Y1+Y3)12(Y1+Y3)\dfrac{1}{2}(Y_1+Y_3)θ1−θ3θ1−θ3\theta_1-\theta_3 D.は推定可能です。θ2θ2\theta_2 答えはCです。これは私には奇妙に見えます(Dを取得したため)。 なぜ私はDを得たのですか?以来、。E(Y2−Y4)=2θ2E(Y2−Y4)=2θ2E(Y_2-Y_4)=2\theta_2 Cが答えだと理解できないのはなぜですか?わかりました、は不偏推定量であり、その分散は未満です。Y1+Y2+Y3+Y44Y1+Y2+Y3+Y44\dfrac{Y_1+Y_2+Y_3+Y_4}{4}θ1−θ3θ1−θ3\theta_1-\theta_3Y1+Y32Y1+Y32\dfrac{Y_1+Y_3}{2} どこが間違っているのか教えてください。 こちらにも投稿されています:https : //math.stackexchange.com/questions/2568894/a-problem-on-estimability-of-parameters

1
対数正規分布の算術平均が分布平均よりも小さいのはなぜですか?
そのため、対数正規分布のランダム変数生成するランダムプロセスがありますXXX。対応する確率密度関数は次のとおりです。 元の分布のいくつかのモーメントの分布を推定したいと考えました。1番目のモーメント、つまり算術平均です。そのために、算術平均の10000の推定値を計算できるように、100個のランダム変数を10000回描画しました。 その平均を見積もるには、2つの異なる方法があります(少なくとも、それは私が理解したことです:私は間違っているかもしれません)。 はっきり平均算術通常の方法を計算することによって: X¯=∑i=1NXiN.X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. または、基礎となる正規分布から最初におよびμを推定することによって:μ = N ∑ i = 1 log (X i)σσ\sigmaμμ\mu、次に平均として ˉ X =EXP(μ+1μ=∑i=1Nlog(Xi)Nσ2=∑i=1N(log(Xi)−μ)2Nμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log (X_i)}{N} \quad \sigma^2 = \sum_{i=1}^N \frac{\left(\log (X_i) - \mu\right)^2}{N}X¯=exp(μ+12σ2).X¯=exp⁡(μ+12σ2).\bar{X} = \exp(\mu + \frac{1}{2}\sigma^2). 問題は、これらの各推定値に対応する分布が体系的に異なることです。 「プレーン」平均(赤い破線で表される)は、指数形式(緑のプレーン線)から得られる値よりも一般に低い値を提供します。両方の平均はまったく同じデータセットで計算されますが。この違いは体系的であることに注意してください。 なぜこれらの分布は等しくないのですか?

4
母集団の定量的特性は「パラメータ」ですか?
統計とパラメーターという用語の区別については比較的よく知っています。統計は、サンプルデータに関数を適用して得られた値として表示されます。ただし、パラメーターのほとんどの例は、パラメトリック分布の定義に関連しています。一般的な例は、正規分布をパラメーター化する平均と標準偏差、または線形回帰をパラメーター化する係数と誤差分散です。 ただし、人口分布のその他の多くの値はプロトタイプではありません(たとえば、最小、最大、重回帰のr平方、.25変位値、中央値、非ゼロ係数の予測子の数、歪度、数.3を超える相関行列の相関関係など)。 したがって、私の質問は次のとおりです。 母集団の定量的特性に「パラメータ」というラベルを付ける必要がありますか? はいの場合、なぜですか? いいえの場合、パラメータにラベル付けしない特性は何ですか?それらは何にラベル付けされるべきですか?なぜ? 混乱に関する詳細 推定量に関するウィキペディアの記事には、次のように記載されています。 「推定器」または「点推定」は、統計モデルの未知のパラメーターの値を推測するために使用される統計(つまり、データの関数)です。 しかし、未知の値を.25分位として定義し、その未知の推定量を開発できます。つまり、母集団のすべての量的特性が、平均とsdが正規分布のパラメーターであると同じようにパラメーターであるわけではありませんが、量的母集団特性を推定しようとするのは正当です。

2
標準誤差推定に使用されるプロファイル尤度のヘッセ行列
この質問はこれによって動機づけられます。私は2つのソースを調べましたが、これが私が見つけたものです。 A. van der Vaart、漸近統計: プロファイルの尤度を明示的に計算することはほとんど不可能ですが、その数値評価はしばしば実行可能です。次に、プロファイル尤度は、尤度関数の次元を減らすのに役立ちます。プロファイル尤度関数は、多くの場合、パラメトリックモデルの(通常の)尤度関数と同じ方法で使用されます。離れて推定した最大の彼らのポイントを取ることから、で二次微分の推定マイナス電子の漸近共分散行列の逆行列として使用されます。最近の研究は、この実践を検証しているようです。θ^θ^\hat\thetaθ^θ^\hat\theta J.ウォルドリッジ、断面およびパネルデータの計量経済分析(両方のエディションで同じ): 漸近特性を研究するためのデバイスとして、一般にすべてに依存するため、集中目的関数の値は制限されます。方程式(12.89)がiid関数の合計である設定は、特定の非線形パネルデータモデルから個々の特定の効果を集中させるときに発生します。さらに、集中目的関数は、一見異なる推定アプローチの等価性を確立するのに役立ちます。g(W,β)g(W、β)g(W,\beta)WWW Wooldridgeは、M推定器のより広いコンテキストで問題を説明しているため、最尤推定器にも適用されます。 したがって、同じ質問に対して2つの異なる回答が得られます。私の意見では悪魔は詳細にあります。一部のモデルでは、プロファイル尤度のヘッセを、一部のモデルでは安全に使用できます。条件を与える一般的な結果はありますか?

4
ある推定量の別の推定量に対する相対的優位性を評価するために、平均二乗誤差が使用されていますか?
いくつかのパラメーターに対して2つの推定器およびがあるとします。どの推定量が「より良い」かを判断するために、MSE(平均二乗誤差)を調べますか?つまり、を見てください。ここでは推定量のバイアスで、は推定量の分散ですか?どちらが大きいMSEを持っているのが悪い推定器ですか?α1α1\alpha_1α2α2\alpha_2xxxMSE=β2+σ2MSE=β2+σ2MSE = \beta^2+ \sigma^2ββ\betaσ2σ2\sigma^2
13 estimation  mse 

1
「単純な」測定誤差モデルをフィッティングする方法
「OLS」測定誤差モデルの推定に使用できる方法を探しています。 yi=Yi+ey,iyi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} xi=Xi+ex,ixi=Xi+ex,ix_{i}=X_{i}+e_{x,i} Yi=α+βXiYi=α+βXiY_{i}=\alpha + \beta X_{i} エラーは、未知の分散および独立した標準です。この場合、「標準」OLSは機能しません。σ2yσy2\sigma_{y}^{2}σ2xσx2\sigma_{x}^{2} ウィキペディアには魅力のない解決策がいくつかあります。2つは、「分散比」または信頼性比」は既知であり、は、真のリグレッサー分散です。私はこれに満足していません。なぜなら、分散を知らない人はどうして自分の比率を知ることができるのでしょうか?δ=σ2yσ2xδ=σy2σx2\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}λ=σ2Xσ2x+σ2Xλ=σX2σx2+σX2\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}σ2XσX2\sigma_{X}^2XiXiX_i とにかく、パラメータについて「知る」必要のないこれら2つ以外のソリューションはありますか? インターセプトとスロープのみのソリューションは問題ありません。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

5
サンプルが国勢調査よりも正確であるとしばしば主張されているのはなぜですか?
サンプリングのコースを学習するとき、次の2つのステートメントを満たします。 1)サンプリングエラーはほとんど変動性につながり、非サンプリングエラーはバイアスにつながります。 2)非サンプリングエラーのため、サンプルは多くの場合CENSUSよりも正確です。 これら2つのステートメントを理解する方法がわかりません。これら2つのステートメントを取得するための基本的なロジックは何ですか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.