タグ付けされた質問 「software」

質問が統計、機械学習、またはデータ分析に関連し、プログラミング、サポート、またはバグだけに関するものではないことを確認してください。関連する統計的な問題を参照する追加のタグを含めます。

21
ジュリアは統計コミュニティに固執する希望を持っていますか?
最近、R-Bloggersからの投稿を読みました。この投稿は、Juliaという新しい言語に関するJohn Myles Whiteのこのブログ投稿にリンクしています。ジュリアは、ジャストインタイムコンパイラを活用して、非常に高速な実行時間を実現し、C / C ++と同程度の速度(同じ順序、等しく高速ではない)にします。さらに、Rのapplyステートメントとベクトル演算の代わりに、従来の言語でプログラミングを始めた私たちが慣れ親しんでいるオーソドックスなループメカニズムを使用します。 Rは、ジュリアのような素晴らしいタイミングでも、決して離れることはありません。業界での広範なサポートと、ほぼ何でもできる多数の素晴らしいパッケージがあります。 私の興味は、ベクトル化が不可能な場合が多いベイジアンです。確かに、シリアルタスクはループを使用して実行する必要があり、各反復で大量の計算が必要になります。これらのシリアルループタスクではRは非常に遅くなる可能性があり、C / ++は書くのに苦労しているわけではありません。JuliaはC / ++で書くことに代わる優れた選択肢のように見えますが、まだ初期段階であり、Rについて私が愛する多くの機能を欠いています。統計コミュニティから、人々はそれに役立つパッケージを書き始めます。 私の質問は次のとおりです。 Rを統計の事実上の言語にした魅力を得るために、ジュリアに必要な機能は何ですか? C / ++のような低レベル言語を学習するよりも、計算量の多いタスクを行うためにジュリアを学習することの利点と欠点は何ですか?


8
R言語は経済学の分野で信頼できますか?
私は経済学の大学院生で、最近、他の非常に有名な統計パッケージからRに変換しました(主にSPSSを使用していました)。現時点での私の小さな問題は、クラスで唯一のRユーザーであるということです。私のクラスメートはStataとGaussを使用しており、教授の一人は、Rはエンジニアリングには最適であるが、経済には最適ではないと言っていました。彼は、多くのパッケージはプログラミングについてはよく知っているが、経済性についてはあまり知られていないため、信頼性が低いと述べています。彼はまた、Rパッケージの構築に実際にお金がかからないため、それを正しく行うインセンティブがなく(たとえば、Stataの場合とは異なり)、Rをしばらく使用し、いくつかのものを推定する彼の試み​​。さらに、彼はRの乱数発生器について不満を述べました。 私は1か月以上Rを使用していますが、Rに夢中になったと言わざるを得ません。私が教授から聞いていることはすべて、私を落胆させているだけです。 私の質問は、「Rは経済学の分野で信頼できるのか?」です。

12
グラフからデータを取得するために必要なソフトウェア[終了]
デカルト座標(標準の日常プロット)にプロットされたデータのイメージを取得し、グラフにプロットされたポイントの座標を抽出するソフトウェア(できれば無料、できればオープンソース)の経験がありますか? 本質的に、これはデータマイニングの問題であり、データの可視化の逆の問題です。

9
データサイエンスでRとPythonはどのように相互補完し合うのですか
多くのチュートリアルまたはマニュアルでは、物語は、Rとpythonが分析プロセスの補完的なコンポーネントとして共存していることを暗示しているようです。しかし、私の訓練を受けていない目には、両方の言語が同じことをしているようです。 ですから、私の質問は、2つの言語に本当に特化したニッチがあるのか​​、それともどちらを使用するのかが個人的な好みなのかということです。
54 r  python  software 

8
統計ワークベンチとしてのExcel
多くの人々(私を含む)がExcelで探索的データ分析を行うことを好むようです。スプレッドシートで許可されている行数などの制限は苦痛ですが、ほとんどの場合、Excelを使用してデータを操作することは不可能ではありません。 しかし、McCulloughとHeiserの論文は、Excelを使用しようとすると、結果がすべて間違っていること、そしておそらく地獄で燃え上がることを実際に叫んでいます。 この論文は正しいですか、それとも偏っていますか?著者は、彼らがマイクロソフトを嫌うように聞こえます。

9
データベースのデータを視覚化するための優れたオープンソースソフトウェアを知っている人はいますか?
最近、Tableauに出会い、データベースとcsvファイルからデータを視覚化しようとしました。ユーザーインターフェイスを使用すると、ユーザーは時間と空間のデータを視覚化し、瞬時にプロットを作成できます。このようなツールは、コードを記述せずにデータをグラフィカルに観察できるため、非常に便利です。 データを取得して視覚化する必要があるデータソースは多数あるため、軸上の列をドラッグするだけでグラフを生成できるツールがあり、さらに列名をドラッグして視覚化を変更すると非常に便利です。 そのようなフリーまたはオープンソースのソフトウェアを知っている人はいますか?


4
OpenBugsとJAGS
ベイジアンモデルを推定するためのBUGSスタイルの環境を試しています。OpenBugsまたはJAGSを選択する際に考慮すべき重要な利点はありますか?近い将来、一方が他方を置き換える可能性はありますか? Rで選択したGibbs Samplerを使用します。特定のアプリケーションはまだありませんが、どちらを導入して学習するかを決定しています。
41 r  software  bugs  jags  gibbs 

4
Rでプロットする場合、ggplot2またはggvisを学習する必要がありますか?
Rでプロットする場合、ggplot2またはggvisを学習する必要がありますか?どちらかが優れているのであれば、必ずしも両方を学びたいとは思わない。Rコミュニティが機能が重複する新しいパッケージを作成し続けるのはなぜですか?紹介ブログ記事は ggvisは、洗練されたプロットパッケージggplot2がすでに存在していることを考えると作成された理由の単語を言及していません。

7
Rパッケージを作成する理由と時期
私はこの質問が非常に広範なものであることを理解していますが、Rの新しいパッケージを作成する(またはしない)ことを決定する際の決定的なポイントは何だろうと思います。具体的には、この質問は、さまざまなスクリプトをコンパイルし、それらを新しいパッケージに統合する決定について、R自体を使用します。 これらの決定につながる可能性のあるポイントの中で、私は(非常に網羅的ではない)次のことを考えました: 同じサブフィールドに他のパッケージが存在しない。 他の研究者と交換し、実験の再現性を可能にする必要性; そして、反対の決定につながる可能性のあるポイントの中で: 既に使用されているメソッドの一部は、他のいくつかのパッケージに既に存在します。 新しい独立したパッケージを作成するのに十分ではない新しい関数の数。 どちらのリストにも載る可能性のある多くのポイントを忘れていたかもしれません。また、これらの基準は部分的に主観的なようです。それで、文書化されて広く利用可能な新しいパッケージにさまざまな機能とデータを統合することを開始する正当な理由は何ですか?
28 r  software 

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

9
大規模なデータセットを扱うための統計およびデータマイニングソフトウェアツール
現在、約2,000万件のレコードを分析し、予測モデルを作成する必要があります。これまでのところ、Statistica、SPSS、RapidMiner、Rを試しました。これらの中で、Statisticaはデータマイニングに最も適しているようで、RapidMinerユーザーインターフェイスも非常に便利ですが、Statistica、RapidMiner、およびSPSSは小さなデータセットにのみ適しているようです。 誰もが大規模なデータセットに適したツールを推奨できますか? ありがとうございます!


4
統計計算用のC ++ライブラリ
C / C ++に移植したい特定のMCMCアルゴリズムがあります。高価な計算の多くは既にCythonを介してCで行われていますが、Python / R / Matlab / whateverのラッパーを書くことができるように、サンプラー全体をコンパイル済み言語で記述したいと思います。 いろいろと調べた後、私はC ++に傾いています。私が知っている関連ライブラリは、Armadillo(http://arma.sourceforge.net/)とScythe(http://scythe.wustl.edu/)です。どちらも、R / Matlabのいくつかの側面をエミュレートして、学習曲線を容易にすることを試みていますが、これはとても気に入っています。サイスは、私がやりたいと思うことで少し良くなります。特に、RNGには多くのディストリビューションが含まれており、Armadilloには均一/標準しかありませんが、これは不便です。Scytheは2007年に最後のリリースを見たが、Armadilloはかなり活発に開発されているようだ。 だから、私が疑問に思っているのは、誰かがこれらのライブラリの経験を持っているか、または私がほぼ間違いなく見逃している他の人ですか?しかし、コンパイルされた言語ではそれほどではありません(完全に無知ではありませんが、正確に堪能ではありません...)。
23 mcmc  software  c++  computing 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.