タグ付けされた質問 「approximation」

分布、関数、またはその他の数学的オブジェクトの近似。何かを近似するとは、ある点ではより単純ですが正確ではない表現を見つけることです。

4
通常のランダム変数の近似次数統計
特定のランダム分布の次数統計のためのよく知られた公式はありますか?特に、通常のランダム変数の最初と最後の統計値ですが、より一般的な回答も歓迎します。 編集:明確にするために、厳密な積分式ではなく、多少なりとも明示的に評価できる近似式を探しています。 たとえば、通常のrvの1次統計量(つまり最小値)について、次の2つの近似を見ました。 e1:n≥μ−n−12n−1√σe1:n≥μ−n−12n−1σe_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma そして e1:n≈μ+Φ−1(1n+1)σe1:n≈μ+Φ−1(1n+1)σe_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma これらの最初のについては、およそを与えます。n=200n=200n=200e1:200≥μ−10σe1:200≥μ−10σe_{1:200} \geq \mu - 10\sigma 2番目はを与えますが、素早いモンテカルロはを与えます。さらに重要なことに、私はそれがどこから来たのかについて直感を持っていません。e1:200≈μ−2.58σe1:200≈μ−2.58σe_{1:200} \approx \mu - 2.58\sigmae1:200≈μ−2.75σe1:200≈μ−2.75σe_{1:200} \approx \mu - 2.75\sigma 助けがありますか?


2
2つのiid対数正規確率変数の差
レッツと 2 iidrvのこと。分布を知りたい。X 2ログ(X 1)、ログ(X 2)〜N (μ 、σ )X 1 - X 2X1X1X_1X2X2X_2log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma)X1−X2X1−X2X_1 - X_2 私ができる最善の方法は、両方のテイラー級数を取り、差が残りの項間の差の残りに加えて、2つの通常のrvと2つのカイ二乗rvの差の合計であることを取得することです。2つのiid対数正規rvの差の分布を取得するより簡単な方法はありますか?

2
機械学習技術は「近似アルゴリズム」ですか?
最近cstheory stackexchangeについてMLのような質問があり、Powellの方法、勾配降下法、遺伝的アルゴリズム、またはその他の「近似アルゴリズム」を推奨する回答を投稿しました。コメントで、これらの方法は「近似アルゴリズム」ではなく「ヒューリスティック」であり、理論的な最適値に近づかないことが多いと言われました(「極小値にしばしば行き詰まる」ため)。 他の人はそれに同意しますか?また、探索空間の大部分を探索するように設定されている場合(たとえば、パラメータ/ステップサイズを小さく設定する)、どのヒューリスティックアルゴリズムが理論的な最適値に近づくことを保証できるという感覚があるように思えますが、論文ではそれを見ませんでした。これが論文で示されているか証明されているかどうかは誰にもわかりませんか?(アルゴリズムの大規模なクラスではない場合、多分小さなクラスの場合はNNなど)

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
均一な和分布の正規近似の誤差
正規分布を近似するための単純な方法の1つは、中央限界定理に基づいて、に均一に分布したおそらく IIDランダム変数を加算し、次にリセンタして再スケーリングすることです。(補足:Box-Muller変換など、より正確な方法があります。)IID確率変数の合計は、均一合計分布またはIrwin-Hall分布として知られています。[ 0 、1 ]100100100[ 0 、1 ][0,1][0,1]うん(0 、1 )U(0,1)U(0,1) 正規分布によって均一な和分布を近似する際の誤差はどれくらいですか? このタイプの質問がIIDランダム変数の合計を近似するために出てくるときはいつでも、人々(私を含む)はベリーエッセンの定理を持ち出します。 | Fn(X )- Φ (X )| ≤ Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} ここで、は IIDランダム変数の再スケーリングされた合計の累積分布関数、は絶対3次中心モーメント、は標準偏差で、はまたはことができる絶対定数です。のn ρ E | (X − E X )3 | σ C 1 1 / 2FnFnF_nnnnρρ\rhoE| (X− Eバツ)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111 / 21/21/2 これは不十分です。Berry-Esseenの推定は、離散的な二項分布で最もシャープに近く、対称二項分布では最大誤差がであるように思われます。最大のエラーは最大のジャンプで発生します。ただし、均一な合計分布にはジャンプがありません。000 数値テストは、エラーがよりも急速に縮小することを示唆しています。c …

5
なぜ低ランクの近似に悩まされるのですか?
n行m列の行列がある場合、SVDまたは他の方法を使用して、指定された行列の低ランク近似を計算できます。 ただし、低ランクの近似には、n行とm列が引き続きあります。同じ数の機能が残っている場合、低ランクの近似は機械学習と自然言語処理にどのように役立ちますか?

3
正規分布の明確な間隔を評価する
正規分布のCDFの扱いやすい式は、その中に複雑なエラー関数があるため、いくらか欠けていることを知っています。 しかし、良い式があるのではないかと思います。または、この問題の「最先端」の近似値はどうなるでしょうか。N(c−≤x&lt;c+|μ,σ2)N(c−≤x&lt;c+|μ,σ2)N(c_{-} \leq x < c_{+}| \mu, \sigma^2)

1
ランダムキッチンシンクはどのように機能しますか?
昨年のNIPS 2017では、アリラヒミとベンレヒトが論文「大規模カーネルマシンのランダム機能」で時間賞を受賞し、ランダムキッチンシンクアルゴリズムとして体系化されました。彼らの論文を公表する一環として、彼らは彼らのモデルが5行のmatlabで実装できることを示しました。 % Approximates Gaussian Process regression % with Gaussian kernel of variance gamma^2 % lambda: regularization parameter % dataset: X is dxN, y is 1xN % test: xtest is dx1 % D: dimensionality of random feature % training w = randn(D,d); b = 2 * pi * rand(D, 1); …

1
確率関数の根の発見
ノイズを介してのみ観測できる関数があるとします。直接計算することはできませんのみです。ここで、はランダムノイズです。(実際には、モンテカルロ法を使用してを計算します。)、F (X )、F (X )+ η η F (X )f(x )f(x)f(x)f(x )f(x)f(x)f(x )+ ηf(x)+ηf(x) + \etaηη\etaf(x )f(x)f(x) 根を見つけるために利用できる方法、すなわちなるように計算する方法はありますか?x f (x )= 0fffバツxxf(x )= 0f(x)=0f(x) = 0 私はに必要な評価の数を最小限に抑える方法を探しています。これは計算コストが高いためです。f(x )+ ηf(x)+ηf(x)+\eta 複数の次元に一般化する方法に特に興味があります(つまり解き)。f(x 、y)= 0 、g(x 、y)= 0f(x,y)=0,g(x,y)=0f(x,y) = 0, g(x,y) = 0 また、MCMCを使用してを計算するときに推定できるの分散に関する情報を利用できる方法にも興味があります。F (X )ηη\etaf(x )f(x)f(x)

5
平均の信頼区間の近似誤差
ましょう{Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^nの値を取る確率変数IIDのファミリーである[0,1][0,1][0,1]平均を有する、μμ\mu及び分散σ2σ2\sigma^2。平均、使用するためのシンプルな信頼区間σσ\sigmaそれが知られるたびに、によって与えられ、 P(|X¯−μ|&gt;ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|&gt;ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). また、理由X¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}}は、標準正規確率変数として漸近的に分布します。正規分布は、近似信頼区間を「構築」するために使用される場合があります。 複数の選択肢の回答の統計試験では、私はこの近似を使用する代わりにしなければならなかった(1)(1)(1)いつでもn≥30n≥30n \geq 30。近似誤差が定量化されていないため、私は常にこれを非常に不快に思っています(想像以上です)。 なぜではなく、正規近似を使用(1)(1)(1)? 私は盲目的にルール適用するには、二度と、したくないn≥30n≥30n \geq 30。そうすることを拒否し、適切な代替手段を提供するのに役立つ良い参考文献はありますか?((1)(1)(1)は、私が適切な代替案と考えるものの例です。) ここで、σσ\sigmaとE[|X|3]E[|X|3]E[ |X|^3]は不明であり、簡単に制限されます。 私の質問は特に信頼区間に関する参照要求であるので、こことここで部分的な複製として提案された質問とは異なることに注意してください。そこでは答えられません。

3
途方もなく大きなZスコアに関連する確率を計算する方法は?
ネットワークモチーフ検出用のソフトウェアパッケージは、非常に高いZスコアを返すことがあります(私が見た最高は600,000+ですが、100を超えるZスコアは非常に一般的です)。これらのZスコアが偽であることを示すつもりです。 巨大なZスコアは、非常に低い関連確率に対応します。関連する確率の値は、最大6のZスコアの正規分布ウィキペディアページ(およびおそらくすべての統計テキスト)に記載されています。 質問:誤差関数1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2})nで最大1,000,000の場合、たとえば? 私は特に、このために既に実装されたパッケージを望んでいます(可能な場合)。私がこれまでに見つけた中で最高のものはWolframAlphaで、n = 150で計算できます(こちら)。


1
t検定の「ほぼ正常」の評価
Welchのt検定を使用して平均の等価性をテストしています。基礎となる分布は、通常とはほど遠いです(関連する議論の例よりも歪んでいます)。より多くのデータを取得できますが、その範囲を決定する原則的な方法が必要です。 サンプルの分布が許容可能であるという評価を行うための優れたヒューリスティックはありますか?正規性からの逸脱が最も懸念されるのはどれですか? サンプル統計のブートストラップ信頼区間に依存する他のアプローチがありますか?

1
N正規iidの積の近似分布?特殊なケースμ≈0
与えられた IID、及び、探しているもの:N≥30N≥30N\geq30Xn≈N(μX,σ2X)バツn≈N(μバツ、σバツ2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈0μバツ≈0\mu_X \approx 0 正確な閉形式分布近似 YN=∏1NXnYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} 同じ積の漸近(指数関数)近似 これは、より一般的な質問の特殊なケースです。μX≈0μX≈0\mu_X \approx 0

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.