統計とビッグデータ

1

平均二乗誤差（MSE）と平均二乗予測誤差（MSPE）のセマンティックの違いは何ですか？

23 regression estimation interpretation error prediction

3

今朝、私は不思議に目を覚ましました（これは昨夜はあまり眠れなかったためかもしれません）。「に対して交差検証しますか？いくつかの（簡単な）ものを思いつきましたが、すぐにそれらがすべてARIMAモデルの特殊なケースであることに気付きました。だから私は今疑問に思っています、そしてこれは実際の質問です、Box-Jenkninsのアプローチにはすでにどの予測モデルが組み込まれていますか？このように言えば：平均= ARIMA（0,0,0）と定数素朴= ARIMA（0,1,0）ドリフト= ARIMA（0,1,0）と定数単純指数平滑法= ARIMA（0,1,1）ホルトの指数平滑化= ARIMA（0,2,2）減衰ホルト= ARIMA（0,1,2）加法Holt-Winters：SARIMA（0,1、m + 1）（0,1,0）m 前のリストに他に何を追加できますか？移動平均または最小二乗回帰を「ARIMA方式」で行う方法はありますか？また、他の単純なモデル（たとえば、ARIMA（0,0,1）、ARIMA（1,0,0）、ARIMA（1,1,1）、ARIMA（1,0,1）など）はどのように変換されますか？少なくとも初心者には、ARIMAモデルができないことには興味がないことに注意してください。今は、彼らができることだけに集中したい。 ARIMAモデルの各「ビルディングブロック」が何をするかを理解すれば、上記のすべての質問に答えられるはずですが、何らかの理由でそれを理解するのが困難です。そこで、「リバースエンジニアリング」のようなアプローチを試してみました。

23 time-series cross-validation arima

2

機械学習技術は「近似アルゴリズム」ですか？

最近cstheory stackexchangeについてMLのような質問があり、Powellの方法、勾配降下法、遺伝的アルゴリズム、またはその他の「近似アルゴリズム」を推奨する回答を投稿しました。コメントで、これらの方法は「近似アルゴリズム」ではなく「ヒューリスティック」であり、理論的な最適値に近づかないことが多いと言われました（「極小値にしばしば行き詰まる」ため）。他の人はそれに同意しますか？また、探索空間の大部分を探索するように設定されている場合（たとえば、パラメータ/ステップサイズを小さく設定する）、どのヒューリスティックアルゴリズムが理論的な最適値に近づくことを保証できるという感覚があるように思えますが、論文ではそれを見ませんでした。これが論文で示されているか証明されているかどうかは誰にもわかりませんか？（アルゴリズムの大規模なクラスではない場合、多分小さなクラスの場合はNNなど）

23 machine-learning optimization approximation

4

Tukey HSDのノンパラメトリックな同等物はありますか？

JMPを使用して、コントロールを使用した3つの処理の前後に、成長形態グループ（樹木、低木、樹木など）の植生被覆の違いを調べています。サンプルサイズが小さく（n = 5）、ほとんどの分布は通常分布していません。正規分布の場合、ANOVAを使用して治療結果の差（変化率）を分析し、Tukey HSDを使用して結果のペア間の差の有意性をテストしました。非正規分布データの場合、Wilcoxon / Kruskal-Wallis検定を使用しました。これらの結果のペアの違いを調べるために使用できる、Tukey HSDのノンパラメトリックな同等物はありますか？

23 multiple-comparisons nonparametric tukey-hsd

3

モデルの予測確率のキャリブレーションを視覚化する

各インスタンスについて、各クラスの確率を生成する予測モデルがあるとします。現在、これらの確率を分類（精度、リコールなど）に使用する場合、そのようなモデルを評価する方法はたくさんあることを認識しています。また、ROC曲線とその下の領域を使用して、モデルがクラスをどれだけ区別できるかを判断できることも認識しています。それらは私が尋ねているものではありません。モデルのキャリブレーションを評価することに興味があります。ブリアスコアのようなスコアリングルールは、このタスクに役立つことがわかっています。それは大丈夫です、そして、私はそれらの線に沿って何かを組み込む可能性が高いですが、私はそのようなメトリックが素人にとってどれほど直感的であるかわかりません。もっと視覚的なものを探しています。結果を解釈する人に、モデルが何かを予測したときに、実際に70％の確率で70％が発生する可能性があるかどうかを確認できるようにしてほしい QQプロットのことを聞いたことがありますが（使用したことはありません）、最初はこれが私が探しているものだと思いました。ただし、実際には2つの確率分布を比較することを目的としているようです。それは直接私が持っているものではありません。多数のインスタンスについて、予測された確率と、イベントが実際に発生したかどうかがわかります。 Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... QQプロットは本当に欲しいものですか、それとも何か他のものを探していますか？QQプロットを使用する必要がある場合、データを確率分布に変換する正しい方法は何ですか？予測された確率で両方の列を並べ替えて、いくつかのビンを作成できると思います。それは私がやるべきことのタイプですか、それとも私はどこかで考えていますか？私はさまざまな離散化手法に精通していますが、この種の標準的なビンに離散化する特定の方法はありますか？

23 data-visualization classification predictive-models binary-data calibration

2

観測レベルのマハラノビス距離の分布

私は多変量正規IIDサンプルがある場合はX1,…,Xn∼Np(μ,Σ)X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim N_p(\mu,\Sigma)、そして定義（サンプルポイントから重み付けに行列を使用したベクトルへのマハラノビス距離[平方]のようなもの）、の分布（サンプルへのマハラノビス距離サンプル共分散行列を使用した平均）？AとD 2 I（ˉ X、S ）ˉ X Sd2i(b,A)=(Xi−b)′A−1(Xi−b)di2(b,A)=(Xi−b)′A−1(Xi−b)d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)aaaAAA d2i(X¯,S)di2(X¯,S)d_i^2(\bar X,S)X¯X¯\bar XSSS 私はそれがであると主張する論文を見ていますが、これは明らかに間違っています：の（未知の）平均ベクトルを使用して分布が得られたでしょうおよび共分散行列。サンプルアナログをプラグインすると、Hotelling分布、スケーリングされた分布、またはそのようなものを取得する必要がありますが、できません。Muirhead（2005）でもAnderson（2003）でも、Mardia、Kent and Bibby（1979、2003 ）でも正確な結果を見つけることができませんでした χ 2 P D 2 I（μ 、Σ ）T 2 F （⋅ ）χ 2 Pχ2pχp2\chi^2_pχ2pχp2\chi^2_pd2i(μ,Σ)di2(μ,Σ)d_i^2(\mu,\Sigma)T 2T 2T^{\ 2}F(⋅)F(⋅)F(\cdot)χ2pχp2\chi^2_p。どうやら、多変量正規分布は完全であり、多変量データを収集するたびに簡単に取得できるため、これらの人は異常値の診断を気にしませんでした：-/。物事はそれよりも複雑かもしれません。Hotelling分布の結果は、ベクトル部分と行列部分の間の独立性の仮定に基づいています。このような独立性はとには当てはまりますが、とは当てはまりません。T 2T 2T^{\ 2}X¯X¯\bar XSSSXiXiX_iSSS

23 multivariate-analysis outliers

4

レビュアーとして、ジャーナルが利用できない場合でも、データとコードを利用可能にすることを正当化できますか？

科学は再現可能でなければならないため、定義により、データとコードの共有に関するエール円卓会議で議論されているように、データとコードは再現性の重要な要素であるという認識が高まっています。データとコードの共有を必要としないジャーナルの原稿を確認する際に、データとコードを利用できるようにリクエストできますかレビュー時に私に出版時点で公的に（ジャーナルはサプリメントをサポートしています）また、そのようなリクエストをどのように表現できますか？更新：一般的なケースに興味がありますが、この特定のケースは以前に公開されたすべてのデータを使用したメタ分析で構成され、コードはSASの単純な線形モデルですサイドノートは、より多くの研究が生データを提供すれば、クロススタディ推論（メタ分析の目標である）を行う能力が大幅に強化されますアップデート2：レビューのためにエディターにデータとコードを要求し、エディターはその要求を合理的であると見なし、1日以内に要求された資料を受け取りました（十分であるが、不可解な変数名、メタデータなし、インラインコメントはほとんどありません）。

23 dataset validation reproducible-research journals

3

残差の自己相関をテストする方法は？

多くの価格（750）を持つ2つの列を持つマトリックスがあります。以下の画像では、次の線形回帰の残差をプロットしました。 lm(prices[,1] ~ prices[,2]) 画像を見ると、残差の非常に強い自己相関があるようです。しかし、これらの残差の自己相関が強いかどうかをどのようにテストできますか？どの方法を使用すればよいですか？ありがとうございました！

23 r regression correlation autocorrelation

4

MLEの問題には常にマキシマイザーがありますか？

最大（対数）尤度推定問題には常に最大化器があるのだろうか？言い換えれば、MLE問題に最大化機能がない分布とパラメーターがありますか？私の質問は、MLEのコスト関数（尤度または対数尤度、どちらが意図されたのかわからない）は常に凹であるため、常に最大化されているというエンジニアの主張から来ています。よろしくお願いします！

23 maximum-likelihood optimization

3

予測モデリング競技のサイト

私は上の予測モデリングコンテストに参加Kaggle、TunedIt、およびCrowdAnalytix。これらのサイトは、統計/機械学習の「トレーニング」に適した方法であることがわかりました。他に知っておくべきサイトはありますか？主催者が競合他社の投稿から利益を得ようとする競技について、皆さんはどのように感じていますか？ /編集：より完全なリストは次のとおりです：Kaggle TunedIt Clopinte KDD Cup Innocentive Crowdanalytix Topcoder

23 machine-learning predictive-models

4

重回帰の実行時に統計ソフトウェアによって異常値としてフラグが付けられたケースを削除するかどうか？

重回帰分析を行っていますが、データの外れ値を削除すべきかどうかわかりません。私が心配しているデータは、SPSS箱ひげ図では「円」として表示されますが、アスタリスクはありません（これは「それほど悪くない」と思わせます）。気になるケースは、出力の「casewise diagnostics」テーブルの下に表示されます。したがって、これらのケースを削除する必要がありますか？

23 regression outliers

3

バイナリ変数と連続変数間のランダム相関データを生成します

2つの変数を生成します。1つはバイナリの結果変数（成功/失敗など）で、もう1つは年数です。年齢と成功との間に正の相関関係が必要です。たとえば、年齢の低いセグメントよりも年齢の高いセグメントの方が成功するはずです。理想的には、相関の程度を制御できる立場にいる必要があります。それ、どうやったら出来るの？ありがとう

23 correlation random-variable random-generation binary-data

4

Rコードと出力を整理する効率的な方法は何ですか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。去年閉鎖されました。他の人がどのようにRコードと出力を整理するかについてのインプットを探しています。私の現在のプラクティスは、次のようなテキストファイルのブロックにコードを記述することです。 #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== 次に、通常は注釈を付けて、出力を別のテキストファイルに貼り付けます。この方法の問題は次のとおりです。コードと出力は、日付以外では明示的にリンクされていません。コードと出力は時系列に編成されているため、検索が難しい場合があります。目次を作成できるので、すべてを使って1つのSweaveドキュメントを作成することを検討しましたが、これは、提供するメリットよりも手間がかかるようです。 Rコードと出力を整理して、分析の効率的な検索と編集を可能にする効果的なルーチンを教えてください。

23 r project-management

3

RのARIMAモデルのパラメーターのp値を計算する方法は？

Rで時系列調査を行うarima と、適合モデルの係数値とその標準誤差のみが提供されることがわかりました。ただし、係数のp値も取得する必要があります。 coefの重要性を提供する機能は見つかりませんでした。したがって、私は自分で計算したいのですが、係数のtまたはchisq分布の自由度はわかりません。だから私の質問は、Rのフィットされたアリマモデルの係数のp値を取得する方法ですか？

23 r time-series chi-squared arima parametric

4

カルマンフィルターを使用した時系列予測のRコード

Rのカルマンフィルターを使用した時系列予測/平滑化の良い例はありますか？

23 r time-series kalman-filter