タグ付けされた質問 「computational-statistics」

統計と計算のインターフェースを指します。統計目的のためのアルゴリズムとソフトウェアの使用。

1
データ行列が対角である場合の投げ縄問題の閉形式解
\newcommand{\diag}{\operatorname{diag}}minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). この場合、閉じた形式のソリューションはありますか? 私はそれを持っています:そして、答えは:^ J = Y \ \ W、^ J \最大\左\ {0,1- \ラムダ\ FRAC {N} {| y ^ J |} \右\}、のためにY \、^ J = \ displaystyle \ sum_ {i = 1} ^ n \ frac {y_ix_i \、^ j} {\ sigma_i ^ 2}ですが、わかりません。W(XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),ywj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}

7
統計理論とアプリケーションを理解する
私は最近、工学および数学をバックグラウンドとして医学および生物学のモデリングの修士号を取得しました。私の教育プログラムには、かなり高い成績で管理した数学的統計学のコース(以下のリストを参照)がかなり含まれていましたが、統計学の理論と応用の両方を見つめていました。「純粋な」数学と比較して、統計は本当に意味がありません。特に、ほとんどの統計学者(私の過去の講師を含む)が使用する表記法と言語は煩わしく複雑であり、これまでに見たリソース(ウィキペディアを含む)には、簡単に関連し、与えられた理論に関連付けることができる簡単な例がありませんでした。 .. これが背景です。また、特にバイオインフォマティクスの分野では、統計をしっかりと把握しなければ、研究者/エンジニアとしてのキャリアを積むことはできないという現実を実感しています。 私はより経験豊富な統計学者/数学者からいくつかのヒントを得られることを望んでいました。上記のこの問題をどのように克服できますか?良いリソースを知っていますか。書籍、電子書籍、オープンコース(iTunesまたはOpenCourseware for exを使用)など。 編集:私が述べたように、私は統計の一般的なタイトルの下で大部分の文学にかなり否定的に偏っています、そして統計のブランチごとに多くの(そして高価な)コースブックを買うことができないので、必要なもの本の点で は、物理学のためのTipler&Moscaと似ていますが、統計のためです。 ティプラーを知らない人のために。それは、高等研究中に遭遇する可能性のある主題の大部分をカバーする大きな教科書であり、それぞれ基本的な紹介からやや深い詳細までそれらを提示します。基本的には完璧な参考書で、Uniで最初の1年間に購入しましたが、それでもときどき使用しています。 統計に関するコース: 大規模な紹介コース、 定常確率過程、 マルコフ過程、 モンテカルロ法 生存分析

1
複雑なモデルを大きなデータセットに繰り返し当てはめるときに計算効率を最適化するにはどうすればよいですか?
MCMCglmmR のパッケージを使用して混合効果モデルを実行すると、パフォーマンスの問題が発生します。コードは次のようになります。 MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) データには約20,000の観測があり、それらは約200の学校に集中しています。実行する前に、未使用の変数をすべてデータフレームから削除し、他のすべてのオブジェクトをメモリから削除しました。私が抱えている問題は、反復を許容できないほど小さな数に減らしない限り、実行に非常に長い時間がかかることです。50,000回の反復により、5時間かかり、実行する多くの異なるモデルがあります。したがって、コードの実行を高速化する方法、または使用できる他のパッケージがあるかどうかを知りたいと思います。MCMCglmmランダム効果の信頼区間が必要なため、使用しています。 一方で、私は今年後半に新しいPCを手に入れたいと思っていましたが、少し運が良ければそれを前に出すことができるかもしれないので、新しいハードウェアに限られた金額を使うにはどうすればいいですか? 、CPUの高速化など。タスクマネージャーを見ると、RAMが問題であるとは思いません(物理的な使用量の50%を超えることはありません)。 。私の現在のセットアップは、Intel Core i5 2.66GHz、4GB RAM、7200rpm HDDです。追加のRAMを犠牲にして、できるだけ高速なCPUを取得することは合理的ですか?また、このような統計計算の問題に対するレベル3のCPUキャッシュサイズの影響についても疑問に思いましたか? アップデート:たSOメタに尋ねた私は、スーパーユーザーの質問およびポストを修正してくださいすることをお勧めされています。そのためには、MCMCglmmで「内部」で何が行われているかについて、より詳細に説明する必要があります。計算時間の大部分が最適化に費やされていると考えるのは正しいですか?つまり、いくつかの複雑な関数の最大値を見つけるということですか?行列の反転や他の線形代数演算もボトルネックの原因となる一般的な演算ですか?私がスーパーユーザーコミュニティに提供できるその他の情報は、最もありがたいことに受信されます。

4
時系列の異常値の検出:誤検知を減らす方法は?
私は、時系列で異常値の検出を自動化しようとしています。ここでは、Rob Hyndmanによって提案されたソリューションの修正を使用しました。 たとえば、さまざまな国からのWebサイトへの毎日のアクセスを測定します。毎日の訪問が数回または数千回であるいくつかの国では、私の方法は合理的に機能しているようです。 ただし、国が1日に1回または2回しか訪問しない場合、アルゴリズムの制限は非常に狭く(1±0.001など)、2回の訪問は異常値と見なされます。どのようにしてそのようなケースを自動的に検出し、どのようにそれらを処理して異常値を特定できますか?たとえば、1日あたり100回の訪問という手動のしきい値を設定したくありません。 ありがとうございました!

3
コンピュータシミュレーションを使用して、大学院レベルでの統計的概念をよりよく理解する
こんにちは私は統計学の大学院コースを受講しており、テスト統計学およびその他の概念をカバーしてきました。 しかし、私はしばしば公式を適用して、物事がどのように機能するかについて一種の直感を開発することができますが、シミュレーションの実験で私の研究をバックアップした場合、私は目の前の問題により優れた直感を開発するだろうと感じることがよくあります。 したがって、私はクラスで議論するいくつかの概念をよりよく理解するために、簡単なシミュレーションを書くことを考えてきました。今私は言うJavaを使用することができます: 正規平均と標準偏差でランダムな母集団を作成します。 次に、小さなサンプルを取り、Type-IおよびType-IIエラーを経験的に計算してみます。 今私が持っている質問は: これは直感を養うための正当なアプローチですか? これを行うソフトウェアはありますSASか(?、R?) これは、このようなプログラミングを扱う統計学の分野ですか?シミュレーション?

1
この「最大相関係数」とは何ですか?
典型的な画像処理統計は、14であるHaralickテクスチャ機能の使用です。 これらの機能の14番目について不思議に思っています。隣接マップ(2つの整数の経験的分布を簡単に表示できる)が与えられた場合、それは次のように定義されます 2番目の固有値の平方根、ここで、は次のとおりです。i 、j &lt; 256 Q QPPPi,j&lt;256i,j&lt;256i,j < 256QQQQQQ Qij=∑kP(i,k)P(j,k)[∑xP(x,i)][∑yP(k,y)]Qij=∑kP(i,k)P(j,k)[∑xP(x,i)][∑yP(k,y)]Q_{ij} = \sum_k \frac{ P(i,k) P(j,k)}{ [\sum_x P(x,i)] [\sum_y P(k, y)] } グーグルで検索した後でも、この統計の参照は見つかりませんでした。その特性は何ですか?それは何を表していますか? (上記の値は、値ピクセルの隣に値ピクセルが見つかる正規化された回数です)。i jP(i,j)P(i,j)P(i,j)iiijjj

1
治療群に対応する対照群を見つけるには?
私は数学補助ソフトウェアを使用したサイズ30(カリフォルニアの30の学校)の治療グループを持っています。簡単な分析では、私たちの治療群と同等の対照群との間の学生の数学の平均成長を比較したいと思います。CAにはソフトウェアを使用しなかった学校がたくさんあります。コントロールグループに同様のパフォーマンスの学校を含めたい(それらのベースラインスコアは妥当な誤差範囲のある治療学校と同様である)。また、コントロールグループのサンプルサイズを私の治療の3倍にしてください(ここでは90校)。カリフォルニアには1000を超える学校があり、そのうち90の学校には多くの選択肢があります。コントロールグループをどのように選択しますか?


3
R(または一般的に)で、回帰係数を特定の符号にすることは可能ですか?
私はいくつかの実世界のデータを使用していますが、回帰モデルは直観に反する結果をもたらしています。通常私は統計を信頼しますが、実際にはこれらのいくつかは真実ではありません。私が見ている主な問題は、実際には、それらが負の相関関係にあるに違いないのに、1つの変数の増加が応答の増加を引き起こしていることです。 各回帰係数に特定の符号を強制する方法はありますか?これを行うRコードも同様にありがたいです。 助けてくれてありがとう!

1
低ランク線形システムの高速計算/推定
方程式の線形システムは、計算統計に広く使用されています。私が遭遇した1つの特別なシステム(たとえば、因子分析)はシステムです Ax=bAx=bAx=b ここで、 ここでDはであるN × N厳密に正の対角を有する対角行列で、ΩはあるM × M(とM « N対称半正定値行列)であり、Bは任意であり、N × m行列。低ランクの行列によって摂動された対角線形システム(簡単)を解くように求められます。上記の問題を解決する素朴な方法は、Woodburyの式を使用してAを反転させることですA=D+BΩBTA=D+BΩBTA=D+ B \Omega B^TDDDn×nn×nn\times nΩΩ\Omegam×mm×mm\times mm≪nm≪nm\ll nBBBn×mn×mn\times mAAA。ただし、コレスキーおよびQR分解は通常、線形システム(および正規方程式)の解を劇的に高速化できるため、これは正しくありません。私は最近次の論文を思いつきました。これはコレスキーのアプローチを採用しているようで、ウッドベリーの反転の数値的不安定性について言及しています。しかし、論文は草案のようで、数値実験や裏付けとなる研究が見つかりませんでした。私が説明した問題を解決するための最新技術は何ですか?

4
統計ソフトウェアのテスト
統計ソフトウェアのテストに役立つテクニック/アプローチは何ですか?私は特に、最尤法を使用してパラメトリック推定を行うプログラムに興味があります。 他のプログラムや公開されたソースからの結果と比較することは常に可能であるとは限りません。なぜなら、私が自分のプログラムを書くときのほとんどは、必要な計算が既存のシステムにまだ実装されていないためです。 私は正確さを保証できる方法を主張していません。エラーの一部をキャッチできるテクニックに満足しています。

1
とサンプリングコスト
次のシミュレーション問題に遭遇しました:既知の実数のセットが与えられた場合、分布は ここで、は正の部分を示します。この分布をターゲットとするMetropolis-Hastingsサンプラーを考えることもできますが、アルゴリズムの次数をから。{ω1,…,ωd}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\}{−1,1}d{−1,1}d\{-1,1\}^dP(X=(x1,…,xd))∝(x1ω1+…+xdωd)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+(z)+(z)+(z)_+zzzO(2d)O(2d)O(2^d)O(d)O(d)O(d)


1
HastieのESL Bookからこの問題について5歳のように誰かが説明できますか?
私はHastieのESLブックに取り組んでいますが、質問2.3で苦労しています。質問は次のとおりです。 原点での最近傍推定を検討しています。原点から最も近いデータポイントまでの距離の中央値は、この方程式で与えられます。これを導き出そうとする場合、どこから始めればよいのかわかりません。 ほとんどのデータポイントが他のデータポイント(次元の呪い)よりもサンプル空間の境界に近いことを知っていますが、これを線形代数/確率の意味に変換するのに問題があります。 ありがとう!

4
勾配降下法が必要なのはなぜですか?
すべてのパラメーターについて偏微分によって得られた方程式を解くことによってコスト関数を微分し、パラメーターを見つけ、コスト関数が最小になる場所を見つけることができる場合。また、導関数がゼロである複数の場所を見つけることは可能であると思います。これにより、そのようなすべての場所をチェックして、グローバルな最小値を見つけることができます。 代わりに勾配降下法が実行されるのはなぜですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.