タグ付けされた質問 「method-comparison」

1
予測パフォーマンスは、方法よりもデータアナリストの専門知識に依存していますか?
予測モデルのパフォーマンスは、メソッドの選択よりも、選択したメソッドを使用するデータアナリストの専門知識に依存しているという調査結果があるという噂があります。 言い換えれば、データ分析者が選択された方法に精通していることが、より理論的な観点から問題に対してどのように「適切」に見えるかよりも重要であるという主張です。 これはケモメトリックスのコンテキストで言及されており、通常、多くの変量(100から1000 s)、多重共線性、そしてもちろんサンプルが少なすぎるという問題を伴います。予測は分類または回帰である可能性があります。 私の個人的な経験は、これはもっともらしいことを示唆しているが、研究が言及された(私はそれを電子メールでそれを言及した人に素早くしかし失敗した検索の後に尋ねたが、何の答えも受け取らなかった)。しかし、より精巧な検索でも、論文を追跡することはできませんでした。 誰もそのような発見を知っていますか?そうでない場合、ここのBig Guysの個人的な経験は何を言いますか?

5
2つの分析方法が同等であることを示す方法は何ですか?
マトリックス内の特定の分子の濃度を測定できる2つの異なる分析方法があります(たとえば、水中の塩の量を測定します) 2つの方法は異なり、それぞれに独自のエラーがあります。2つの方法を示すためにどのような方法が存在するかは、同等(または同等)です。 両方の方法で測定された多数のサンプルの結果を散布図にプロットすることは良い第一歩だと思いますが、良い統計的方法はありますか?

3
MCMCおよびPyMCによる2ガウス混合モデルの推論
問題 単純な2ガウス混合母集団のモデルパラメーターを近似します。ベイジアン手法をめぐる誇大宣伝を踏まえ、この問題についてベイジアン推論が従来のフィッティング手法よりも優れたツールであるかどうかを理解したいと思います。 これまでのところ、MCMCはこのおもちゃの例ではパフォーマンスが非常に低くなっていますが、おそらく見落としているだけかもしれません。コードを見てみましょう。 道具 私はpython(2.7)+ scipyスタック、lmfit 0.8およびPyMC 2.3を使用します。 分析を再現するためのノートはここにあります データを生成する 最初にデータを生成してみましょう: from scipy.stats import distributions # Sample parameters nsamples = 1000 mu1_true = 0.3 mu2_true = 0.55 sig1_true = 0.08 sig2_true = 0.12 a_true = 0.4 # Samples generation np.random.seed(3) # for repeatability s1 = distributions.norm.rvs(mu1_true, sig1_true, size=round(a_true*nsamples)) s2 = …

1
2つのピアソン相関の強さを比較する方法は?
表に提示されているピアソン相関(r値)を相互に比較できるかどうか、レビュアーから尋ねられました(実際のr値を見ているだけでなく)あるものよりも「強い」と主張できる。 これについてどう思いますか?私はこの方法を見つけました http://vassarstats.net/rdiff.html これが当てはまるかどうかはわかりません。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
予測方法を比較する方法は?
断続的なデータがいくつかあります。これらのデータに基づいて、いくつかの予測方法(指数平滑法、移動平均、Croston、およびSyntetos-Boylan)を比較し、CrostonまたはSyntetos Boylanが断続的なデータに関してSESまたはMAより優れているかどうかを判断します。比較したいメジャーは、通常のMAPE、MSEメジャーの代わりに、Kourentzes(2014)によって提案された平均絶対レートまたは平均二乗レートであり、\ alpha $平滑化パラメーターのすべてのレベルで、需要間インターバルに使用される平滑化パラメーターを想定しています。クロストンとシンテトスのボイランの需要サイズは同じです。 私の質問は次のとおりです。1。すべてのデータについて、平滑化方法ごとに最適なアルファの値が異なる可能性があることを考慮すると、メソッドのアルファの値はMARまたはMSRを最小化し、他のメソッドではそうしない場合があります、その1つの方法は、アルファのその値について他の方法よりも優れている場合があり、他の方法ではそうでない場合があります。この種の問題をどのように解決しますか?私の現在の解決策は、2つの異なる方法間でアルファのすべてのレベルのMARの2つのグラフを比較することです。私の期待は、プロファイル分析が行われたときに、2つの異なる方法が異なる特性を示すことです。 実験デザインのようなより良い解決策はありますか?私は実験の設計方法にかなり混乱しています。観察はそれらのいくつかのデータであり、レベルは平滑化パラメーターアルファであり、治療はそれらの方法です。値はMARです。それは実行可能ですか?そして論理的に行うには?仮説は、アルファのすべてのレベルで各治療法に違いがあるかどうかです。線形性の仮定がここで満たされているとは思えません。 編集:とにかく、私はこれが研究課題として実行可能であるとは思いません。エラーメジャーがスケールに依存しているという事実(私のスケール依存の定義が正しい場合)は、予測のさまざまな方法を比較する方法がないため、この問題の研究に非常に問題を引き起こしました。

5
多変量およびメソッド固有の結果の再現性を評価する方法は?
方法「A」は、約30の異なる変数からなる多変量「フィンガープリント」を使用して生体サンプルを記述します。異なる変数は異なる典型的な分布を示し、それらの多くは互いに密接に相関しています。以前の経験から、変数の多くを正規分布に変換できないと想定されています。 方法「B」は方法「A」の改良版になるように設計されており、これら2つの方法の再現性を比較したいと思います。単一の変数を扱っている場合は、メソッド内とメソッド間の変動性を比較するために、いくつかのサンプルの独立した分析を実行し、分散分析を使用します。しかし、ここでは多変量出力を扱っており、変数ごとに1つの分析を実行したくありません。この質問への正しいアプローチは何ですか? 解決 gui11aumeの回答による 回答は、有用で貴重な情報を提供します。AdamOの提案に従って、gui11aumeの回答に続く7つの一方向分析によって、「ダウンストリームアプリケーション」を適合 させます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.