統計とビッグデータ method-comparison

1

予測モデルのパフォーマンスは、メソッドの選択よりも、選択したメソッドを使用するデータアナリストの専門知識に依存しているという調査結果があるという噂があります。言い換えれば、データ分析者が選択された方法に精通していることが、より理論的な観点から問題に対してどのように「適切」に見えるかよりも重要であるという主張です。これはケモメトリックスのコンテキストで言及されており、通常、多くの変量（100から1000 s）、多重共線性、そしてもちろんサンプルが少なすぎるという問題を伴います。予測は分類または回帰である可能性があります。私の個人的な経験は、これはもっともらしいことを示唆しているが、研究が言及された（私はそれを電子メールでそれを言及した人に素早くしかし失敗した検索の後に尋ねたが、何の答えも受け取らなかった）。しかし、より精巧な検索でも、論文を追跡することはできませんでした。誰もそのような発見を知っていますか？そうでない場合、ここのBig Guysの個人的な経験は何を言いますか？

14 predictive-models method-comparison

5

2つの分析方法が同等であることを示す方法は何ですか？

マトリックス内の特定の分子の濃度を測定できる2つの異なる分析方法があります（たとえば、水中の塩の量を測定します） 2つの方法は異なり、それぞれに独自のエラーがあります。2つの方法を示すためにどのような方法が存在するかは、同等（または同等）です。両方の方法で測定された多数のサンプルの結果を散布図にプロットすることは良い第一歩だと思いますが、良い統計的方法はありますか？

11 hypothesis-testing measurement-error method-comparison bland-altman-plot

3

MCMCおよびPyMCによる2ガウス混合モデルの推論

問題単純な2ガウス混合母集団のモデルパラメーターを近似します。ベイジアン手法をめぐる誇大宣伝を踏まえ、この問題についてベイジアン推論が従来のフィッティング手法よりも優れたツールであるかどうかを理解したいと思います。これまでのところ、MCMCはこのおもちゃの例ではパフォーマンスが非常に低くなっていますが、おそらく見落としているだけかもしれません。コードを見てみましょう。道具私はpython（2.7）+ scipyスタック、lmfit 0.8およびPyMC 2.3を使用します。分析を再現するためのノートはここにありますデータを生成する最初にデータを生成してみましょう： from scipy.stats import distributions # Sample parameters nsamples = 1000 mu1_true = 0.3 mu2_true = 0.55 sig1_true = 0.08 sig2_true = 0.12 a_true = 0.4 # Samples generation np.random.seed(3) # for repeatability s1 = distributions.norm.rvs(mu1_true, sig1_true, size=round(a_true*nsamples)) s2 = …

10 bayesian gaussian-mixture frequentist pymc method-comparison

1

2つのピアソン相関の強さを比較する方法は？

表に提示されているピアソン相関（r値）を相互に比較できるかどうか、レビュアーから尋ねられました（実際のr値を見ているだけでなく）あるものよりも「強い」と主張できる。これについてどう思いますか？私はこの方法を見つけました http://vassarstats.net/rdiff.html これが当てはまるかどうかはわかりません。

10 correlation pearson-r method-comparison

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

予測方法を比較する方法は？

断続的なデータがいくつかあります。これらのデータに基づいて、いくつかの予測方法（指数平滑法、移動平均、Croston、およびSyntetos-Boylan）を比較し、CrostonまたはSyntetos Boylanが断続的なデータに関してSESまたはMAより優れているかどうかを判断します。比較したいメジャーは、通常のMAPE、MSEメジャーの代わりに、Kourentzes（2014）によって提案された平均絶対レートまたは平均二乗レートであり、\ alpha $平滑化パラメーターのすべてのレベルで、需要間インターバルに使用される平滑化パラメーターを想定しています。クロストンとシンテトスのボイランの需要サイズは同じです。私の質問は次のとおりです。1。すべてのデータについて、平滑化方法ごとに最適なアルファの値が異なる可能性があることを考慮すると、メソッドのアルファの値はMARまたはMSRを最小化し、他のメソッドではそうしない場合があります、その1つの方法は、アルファのその値について他の方法よりも優れている場合があり、他の方法ではそうでない場合があります。この種の問題をどのように解決しますか？私の現在の解決策は、2つの異なる方法間でアルファのすべてのレベルのMARの2つのグラフを比較することです。私の期待は、プロファイル分析が行われたときに、2つの異なる方法が異なる特性を示すことです。実験デザインのようなより良い解決策はありますか？私は実験の設計方法にかなり混乱しています。観察はそれらのいくつかのデータであり、レベルは平滑化パラメーターアルファであり、治療はそれらの方法です。値はMARです。それは実行可能ですか？そして論理的に行うには？仮説は、アルファのすべてのレベルで各治療法に違いがあるかどうかです。線形性の仮定がここで満たされているとは思えません。編集：とにかく、私はこれが研究課題として実行可能であるとは思いません。エラーメジャーがスケールに依存しているという事実（私のスケール依存の定義が正しい場合）は、予測のさまざまな方法を比較する方法がないため、この問題の研究に非常に問題を引き起こしました。

8 forecasting method-comparison crostons-method intermittent-time-series

5

多変量およびメソッド固有の結果の再現性を評価する方法は？

方法「A」は、約30の異なる変数からなる多変量「フィンガープリント」を使用して生体サンプルを記述します。異なる変数は異なる典型的な分布を示し、それらの多くは互いに密接に相関しています。以前の経験から、変数の多くを正規分布に変換できないと想定されています。方法「B」は方法「A」の改良版になるように設計されており、これら2つの方法の再現性を比較したいと思います。単一の変数を扱っている場合は、メソッド内とメソッド間の変動性を比較するために、いくつかのサンプルの独立した分析を実行し、分散分析を使用します。しかし、ここでは多変量出力を扱っており、変数ごとに1つの分析を実行したくありません。この質問への正しいアプローチは何ですか？解決 gui11aumeの回答による回答は、有用で貴重な情報を提供します。AdamOの提案に従って、gui11aumeの回答に続く7つの一方向分析によって、「ダウンストリームアプリケーション」を適合させます。

8 multivariate-analysis repeatability method-comparison

タグ付けされた質問 「method-comparison」

タグ付けされた質問「method-comparison」