タグ付けされた質問 「computing」

統計計算に関するトピックに関する質問。いくつかの統計方法タグも含めてください。

21
ジュリアは統計コミュニティに固執する希望を持っていますか?
最近、R-Bloggersからの投稿を読みました。この投稿は、Juliaという新しい言語に関するJohn Myles Whiteのこのブログ投稿にリンクしています。ジュリアは、ジャストインタイムコンパイラを活用して、非常に高速な実行時間を実現し、C / C ++と同程度の速度(同じ順序、等しく高速ではない)にします。さらに、Rのapplyステートメントとベクトル演算の代わりに、従来の言語でプログラミングを始めた私たちが慣れ親しんでいるオーソドックスなループメカニズムを使用します。 Rは、ジュリアのような素晴らしいタイミングでも、決して離れることはありません。業界での広範なサポートと、ほぼ何でもできる多数の素晴らしいパッケージがあります。 私の興味は、ベクトル化が不可能な場合が多いベイジアンです。確かに、シリアルタスクはループを使用して実行する必要があり、各反復で大量の計算が必要になります。これらのシリアルループタスクではRは非常に遅くなる可能性があり、C / ++は書くのに苦労しているわけではありません。JuliaはC / ++で書くことに代わる優れた選択肢のように見えますが、まだ初期段階であり、Rについて私が愛する多くの機能を欠いています。統計コミュニティから、人々はそれに役立つパッケージを書き始めます。 私の質問は次のとおりです。 Rを統計の事実上の言語にした魅力を得るために、ジュリアに必要な機能は何ですか? C / ++のような低レベル言語を学習するよりも、計算量の多いタスクを行うためにジュリアを学習することの利点と欠点は何ですか?

4
従来のプログラミング言語を使用して、既知の平均と分散を持つ正規分布からサンプリングする方法は?
統計学のコースを受講したことがないので、ここで適切な場所で質問することを望みます。 正規分布を記述する2つのデータ、平均および分散ます。コンピューターを使用して、この2つの統計を尊重するように、この分布からランダムにサンプリングします。σ 2μμ\muσ2σ2\sigma^2 サンプルを出力する前に各サンプルにを追加するだけで、0付近で単純に正規化することで平均を処理できることは明らかです。しかし、を尊重するようにプログラムでサンプルを生成する方法がわかりません。σ 2μμ\muσ2σ2\sigma^2 私のプログラムは、従来のプログラミング言語になります。統計パッケージにアクセスできません。

12
値のストリームの基本的な統計を計算するコマンドラインツール[終了]
標準入力から(ASCII形式の)数値のフローを受け入れ、最小、最大、平均、中央値、RMS、変位値など、このフローの基本的な記述統計を提供するコマンドラインツールはありますか?出力は、コマンドラインチェーンの次のコマンドで解析できることを歓迎します。作業環境はLinuxですが、他のオプションも歓迎します。

4
統計計算用のC ++ライブラリ
C / C ++に移植したい特定のMCMCアルゴリズムがあります。高価な計算の多くは既にCythonを介してCで行われていますが、Python / R / Matlab / whateverのラッパーを書くことができるように、サンプラー全体をコンパイル済み言語で記述したいと思います。 いろいろと調べた後、私はC ++に傾いています。私が知っている関連ライブラリは、Armadillo(http://arma.sourceforge.net/)とScythe(http://scythe.wustl.edu/)です。どちらも、R / Matlabのいくつかの側面をエミュレートして、学習曲線を容易にすることを試みていますが、これはとても気に入っています。サイスは、私がやりたいと思うことで少し良くなります。特に、RNGには多くのディストリビューションが含まれており、Armadilloには均一/標準しかありませんが、これは不便です。Scytheは2007年に最後のリリースを見たが、Armadilloはかなり活発に開発されているようだ。 だから、私が疑問に思っているのは、誰かがこれらのライブラリの経験を持っているか、または私がほぼ間違いなく見逃している他の人ですか?しかし、コンパイルされた言語ではそれほどではありません(完全に無知ではありませんが、正確に堪能ではありません...)。
23 mcmc  software  c++  computing 

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
ジュリア:過去の状況を把握する
この投稿は、急速に変化するイベントに関連しています。 さまざまな種類の統計作業のためのR / Pythonの代替としてのジュリアについて非常に良い議論があった2012年の質問に出会いました。 これは、ジュリアの約束に関する2012年の最初の質問です。 残念ながら、ジュリアは当時非常に新しく、統計作業に必要なツールキットはやや原始的でした。バグは解決されていました。ディストリビューションのインストールは困難でした。など。 誰かがその質問に対して非常に適切なコメントを持っています: これは、この質問に後から答えが出る可能性があるのは5年後だということです。現時点では、ジュリアには日常のユーザーのためにRと競合する可能性のある統計プログラミングシステムの次の重要な側面が欠けています。 それは2012年でした。2015年になり、3年が経ちましたが、ジュリアはどのように考えたのでしょうか。 言語自体およびJuliaエコシステム全体に関する豊富な経験がありますか?知りたいです。 具体的には: 統計ツールの新しいユーザーに、Rを介してJuliaを学習することを勧めますか? どのような統計のユースケースでジュリアを使用するように誰かにアドバイスしますか? 特定のタスクでRが遅い場合、ジュリアまたはPythonに切り替えるのは理にかなっていますか? 注:2015年6月14日に最初に投稿されました。
19 r  python  computing  julia 

4
リソース集中コンピューティングにマルチコア、SNOW、またはCUDAパッケージでRを使用するのは誰ですか?
このフォーラムの誰がマルチコア、snowパッケージ、またはCUDAで"> Rを使用しているので、ワークステーションCPUよりも多くの電力を必要とする高度な計算のために、これらのスクリプトを計算するのはどのハードウェアですか?データセンターへのアクセスはどこですか? これらの質問の背景は次のとおりです。現在、私は修士号を書いています。Rとハイパフォーマンスコンピューティングに関する論文であり、実際にRを使用しているユーザーについての強力な知識が必要です。2008年にはRのユーザー数は100万人でしたが、このトピックで見つけられるユーザー統計は多かれ少なかれです。答えます! 心からハインリッヒ

6
Rでの計算速度?
私は、現在の大規模な確率モデルの1つをSASから新しい言語に移行することを任されました。個人的には、伝統的なコンパイル言語を好みますが、PIは私が使用したことのないRをチェックアウトすることを望んでいます。SASからモデルを取得する動機は、(1)SASが高価であるため多くの人がモデルにアクセスできないこと、(2)インタプリタ言語から遠ざかりたい、(3)SASが遅いことです。持っているモデルのタイプ。 (1)の場合、明らかにRは自由である必要性を満たします。(2)の場合、理想的には実行可能ファイルを作成したいのですが、Rは通常スクリプト言語として使用されます。誰かが最近Rコンパイラを発表したようです。これは好評ですか?使いやすいですか?ユーザーにRを強制的にダウンロードさせたくないのです。(3)の場合、SASの問題は、データセットのI / Oの書き込みと読み取りに費やされる時間です。このモデルは計算集約型であり、多くの場合、実行時間によって制限されます。(たとえば、週末に誰かのコンピューターをハイジャックして実行することは珍しくありません。)Fortranで構築された同様のモデルには、すべての作業がメモリー内で行われるため同じ問題はありません。Rはどのように機能しますか?データステップで機能するという点で、SASと同じでしょうか。ファイルの読み書き?または、メモリ内で配列を操作できますか?
16 r  computing 

9
コンピュータサイエンスに適用される計算統計の概要を提供している書籍は何ですか?
ソフトウェアエンジニアとして、統計アルゴリズム、データマイニング、機械学習、ベイジアンネットワーク、分類アルゴリズム、ニューラルネットワーク、マルコフ連鎖、モンテカルロ法、乱数生成などのトピックに興味があります。 私は個人的にこれらのテクニックのいずれかを実際に操作する喜びを持っていませんでしたが、私は内部でそれらを使用し、それらについてより高いレベルで知りたいソフトウェアで作業しなければなりませんでした。私は広い範囲をカバーする本を探しています-この時点で大きな深さは必要ありません。採用されているアルゴリズムと技術の背後にある数学的基礎を理解できれば、ソフトウェア開発について多くを学ぶことができると思います。 統計分析コミュニティは、ソフトウェアにさまざまな統計要素を実装する方法の詳細を学ぶために使用できる書籍を推奨できますか?

1
オンラインでスケーラブルな統計手法
これは、私が非常に興味深いと思う効率的なオンライン線形回帰に触発されました。大規模な統計計算に専念するテキストやリソースはありますか?それにより、メインメモリに収まらないほど大きく、効果的にサブサンプリングするには多すぎるデータセットを使用した計算が行われます。たとえば、混合効果モデルをオンラインで適合させることは可能ですか?MLEの標準的な2次の最適化手法を1次のSGDタイプの手法に置き換えた場合の効果を調べた人はいますか?

4
統計ソフトウェアのテスト
統計ソフトウェアのテストに役立つテクニック/アプローチは何ですか?私は特に、最尤法を使用してパラメトリック推定を行うプログラムに興味があります。 他のプログラムや公開されたソースからの結果と比較することは常に可能であるとは限りません。なぜなら、私が自分のプログラムを書くときのほとんどは、必要な計算が既存のシステムにまだ実装されていないためです。 私は正確さを保証できる方法を主張していません。エラーの一部をキャッチできるテクニックに満足しています。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
統計のための記号的コンピュータ代数
統計に特化したCASにはどのような機能が必要ですか? MathematicaやMapleなどのシンボリック代数システムは、微積分、論理、物理学の問題によく使用されますが、統計にはほとんど使用されません。どうしてこれなの? この分野での使用を改善するために、シンボリック代数システムにどのような統計的構成を追加できますか?多くの人ができるようにしたいいくつかの特定のコードサンプルは何ですか。 次の3人のユーザーについて考えてください:研究統計学者、別の分野(生物学など)の統計を使用する非統計研究者、統計学の学生。 今後数か月間、SymPyの統計コードに取り組んでおり、必要な機能の入力を求めています。私が使用するものは、必ずしもより広いコミュニティが使用するものではありません。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.