タグ付けされた質問 「statistics」

4
オーバーフローエラーなしで大きな指数項を確実に追加する方法は?
マルコフ連鎖モンテカルロ法の非常に一般的な問題には、大きな指数項の合計である確率の計算、 ea1+ea2+...ea1+ea2+... e^{a_1} + e^{a_2} + ... のコンポーネントは非常に小さいものから非常に大きいものまであります。私のアプローチは、最大指数項た。aaaK:=maxi(ai)K:=maxi(ai)K := \max_{i}(a_{i}) a′=K+log(ea1−K+ea2−K+...)a′=K+log(ea1−K+ea2−K+...)a' =K + log\left( e^{a_1 - K} + e^{a_2 - K } + ... \right) ea′≡ea1+ea2+...ea′≡ea1+ea2+...e^{a'} \equiv e^{a_1} + e^{a_2} + ... このアプローチは、aのすべての要素aaaが大きい場合は妥当ですが、そうでない場合はそれほど良い考えではありません。もちろん、小さな要素は浮動小数点の合計に寄与しませんが、それらを確実に処理する方法はわかりません。Rコードでは、私のアプローチは次のようになります。 if ( max(abs(a)) > max(a) ) K <- min(a) else K <- max(a) ans <- log(sum(exp(a-K))) + …

2
Pythonでカスタム確率密度関数を定義する
自分自身を定義するためにいくつかの確立Pythonパッケージ(例えばscipyのダウンロード)を使用しての方法があり、確率密度関数を(ただ、事前のデータなしでのような、私はそれで計算を行うことができるようには、()連続ランダム変数の分散を取得する)?もちろん、SymPyやSageなどを使用して、シンボリック関数を作成し、操作を行うこともできますが、この作業をすべて自分で行う代わりに、既に実装されているパッケージを利用できるのではないかと考えています。f(x ) = a x + bf(バツ)=aバツ+bf(x) = a x + b

3

3
高速化の結果を報告するための正しい統計
いくつかのコードの低速バージョンと高速バージョンがあり、2つのコードを比較して高速化した数値を報告したいとします。低速バージョンを回、高速バージョンをm回実行して、時間(s 1、… 、s n)および(f 1、… 、f m)を生成します。高速化を生成する最も簡単な方法は、手段を平均化することである。 ˉ 秒nnnmmm(s1,…,sn)(s1,…,sn)(s_1, \ldots, s_n)(f1,…,fm)(f1,…,fm)(f_1, \ldots, f_m) ただし、これは外れ値を考慮していません。s¯f¯=m∑i&lt;nsin∑j&lt;mfjs¯f¯=m∑i&lt;nsin∑j&lt;mfj\frac{\bar{s}}{\bar{f}} = \frac{m \sum_{i<n} s_i}{n \sum_{j<m} f_j} 質問:スピードアップの数値を報告するときに使用するのに最適な統計は何ですか?

1
HPCのローカルメモリ/計算、ネットワーク遅延、および帯域幅ジッターの統計モデル
並列計算は、確定的なローカル計算速度、レイテンシオーバーヘッド、およびネットワーク帯域幅を使用して頻繁にモデル化されます。実際には、これらは空間的に可変であり、非決定的です。Skinner and Kramer(2005)などの研究ではマルチモーダル分布が観察されていますが、パフォーマンス分析では常に決定論的分布またはガウス分布のいずれかが使用されているようです(不正確なだけでなく、負のレイテンシの正の確率により一貫性がありません)。 より忠実な統計モデルが開発されましたか?ローカルコンピューティング/メモリ、レイテンシ、および帯域幅の変動における相互相関の説明はありますか?

3
流体力学における大規模への小規模の影響を推定する方法は?
直接数値シミュレーションが実行されると仮定すると、流体力学における小規模の大規模への影響を推定するための良い方法は何ですか?たとえば、グリッドサイズの異なる2つのランまたは粘度の異なる2つのランを比較することは適切ですか。これに関連する統計ツールはありますか? 大規模なフィールドは、粗いフィールドとして定義できます ここで、はスケール正規化された畳み込みカーネルです。たとえば、G_lの形式はG_l(y)= l ^ {-3} / \ sqrt {2 \ pi} \ exp(-((y / l)^ 2/2)にすることができます。q¯¯l(t,x)=∫Gl(y)q(t,y+x)dyq¯l(t,x)=∫Gl(y)q(t,y+x)dy\begin{equation} \overline{q}_l(t,\mathbf{x})=\int G_l(\mathbf{y}) q(t,\mathbf{y}+\mathbf{x})d\mathbf{y} \end{equation}GlGlG_llllGlGlG_lGl(y)=l−3/2π−−√exp(−((y/l)2/2)Gl(y)=l−3/2πexp⁡(−((y/l)2/2)G_l(y)=l^{-3}/\sqrt{2 \pi} \exp(-((y/l)^2/2) 小スケールフィールドは\ begin {equation} q'_l = q- \ overline {q} _l \ end {equation}として定義され q′l=q−q¯¯lql′=q−q¯l\begin{equation} q'_l=q-\overline{q}_l \end{equation} あるスケールlllダイナミックの小さなスケールを削除できる場合、小さなスケールの大きなスケールへの影響は、完全な動的システムのフィールドと打ち切られた動的システムのフィールドの差になります。

2
多変量データのコルモゴロフ–スミルノフ検定
データセットからランダムに選択されたポイントで構成されるファイルのセットがあり、各ファイルは特定のクラスに属しています。これらのファイルの各行には、ポイントのn空間の座標が含まれています。これらの各ファイルのn空間での分布を比較したいと思います。ヒストグラムを比較するためのKSテストに触発されました。私が読んだことから、この方法は多変量データにうまく拡張できません。以前はPCAを使用していましたが、すべての分散が単一のノイズの多い次元に折りたたまれ、クラスタリング手法は役に立たなかった。 私の質問-適合度の指標として各n次元のヒストグラム全体のKS値の平均を使用すべきではない理由はありますか?これらの分布を比較するためのより良い方法はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.