統計とビッグデータ model-evaluation

1

トレーニングセットとテストセットを使用して回帰モデルのパフォーマンスを評価していますか？

テストセットを実行し、トレーニングセットでモデルをトレーニングすることにより、分類モデルのパフォーマンスを評価することについてよく耳にします。次に、予測値用と真値用の2つのベクトルを作成します。明らかに比較を行うと、Fスコア、カッパ統計、精度と再現率、ROCカーブなどを使用して、予測力によってモデルのパフォーマンスを判断できます。これは、回帰のような数値予測の評価とどのように比較しますか？トレーニングセットで回帰モデルをトレーニングし、それを使用して値を予測し、これらの予測値をテストセットにある真の値と比較できると思います。これは分類タスクではないため、パフォーマンスの測定値は明らかに異なるはずです。通常の残差と統計は明白な指標ですが、回帰モデルのパフォーマンスを評価するためのより/より良い方法はありますか？分類には非常に多くのオプションがあるようですが、回帰はR 2と残差に任されています。R2R2R^2R2R2R^2

10 regression machine-learning model-evaluation

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

3

統計的有意性を使用して2つの異なるモデルの精度を比較する方法

私は時系列予測に取り組んでいます。2つのデータセットとます。 3つの予測モデルがあります。これらのモデルはすべて、データセットサンプルを使用してトレーニングされ、そのパフォーマンスはデータセットサンプルを使用して測定されます。パフォーマンスメトリックがMSE（またはその他）であるとします。データセットについて測定し、それらのモデルのMSEある及び。あるモデルの別のモデルに対する改善が統計的に有意であることをどのようにテストできますか？D1={x1,x2,....xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\}D2={xn+1,xn+2,xn+3,....,xn+k}D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}M1,M2,M3M1,M2,M3M1, M2, M3D1D1D1D2D2D2D2D2D2MSE1,MSE2,MSE1,MSE2,MSE_1, MSE_2, MSE3MSE3MSE_3 たとえば、、、、これらのMSEの計算に基づくデータセットサンプルの総数が2000 であるとします、、およびが大幅に異なることをどのようにテストできますか。誰かがこの問題で私を助けることができれば私は非常に感謝します。MSE1=200MSE1=200MSE_1=200MSE2=205MSE2=205MSE_2=205MSE3=210MSE3=210MSE_3=210D2D2D2MSE1MSE1MSE_1MSE2MSE2MSE_2MSE3MSE3MSE_3

10 time-series machine-learning statistical-significance classification model-evaluation

3

巨大なデータセットから学ぶときのアプローチ？

基本的に、巨大なデータセットに対して学習するには、2つの一般的な方法があります（時間/スペースの制限に直面している場合）。不正行為:)-「管理可能な」サブセットのみをトレーニングに使用します。リターンの減少の法則により、精度の損失は無視できる場合があります。モデルの予測パフォーマンスは、すべてのトレーニングデータがモデルに組み込まれる前に、通常はフラットになります。並列計算-問題を小さな部分に分割し、それぞれを別々のマシン/プロセッサーで解決します。ただし、アルゴリズムの並列バージョンが必要ですが、よく知られたアルゴリズムの多くは自然に並列です：最近傍、決定木など。他の方法はありますか？それぞれを使用するときの経験則はありますか？それぞれのアプローチの欠点は何ですか？

10 machine-learning large-data model-evaluation train

3

PDF推定方法を評価する最良の方法

私が見たどのアイデアよりも優れていると思う私のアイデアのいくつかをテストしたいと思います。私は間違っている可能性がありますが、自分の考えをテストして、より確実な観察によって疑問を解消したいと思います。私がやろうとしていることは次のとおりです：一連の分布を分析的に定義します。これらのいくつかは、ガウス、ユニフォーム、またはトップハットのような簡単なものです。しかし、シンプソンズ分布のように、これらのいくつかは困難でやりがいのあるものでなければなりません。それらの分析分布に基づいてソフトウェアを実装し、それらを使用していくつかのサンプルを生成します。分布は分析的に定義されているため、私は（定義により）真のPDFをすでに知っています。これは素晴らしい。次に、上記のサンプルに対して次のPDF推定方法をテストします。既存のPDF推定方法（さまざまなカーネルと帯域幅を備えたKDEなど）。自分で試してみる価値はあると思います。次に、真のPDFに対する推定の誤差を測定します。次に、どのPDF推定方法が良いかをよりよく理解します。私の質問は： Q1：上記の計画に対して何か改善点はありますか？ Q2：多くの真のPDFを分析的に定義するのは難しいと思います。私がここで再利用できる、さまざまな困難（非常に困難なものを含む）を持つ分析的に定義された多くの真のPDFの包括的なリストはすでにありますか？

10 hypothesis-testing estimation pdf kernel-smoothing model-evaluation

1

バイアスはアンダーフィッティングと同じで、分散はオーバーフィッティングと同じですか？

これは基本的な質問かもしれません：バイアスとアンダーフィッティングの違いは何ですか？同様に、分散とオーバーフィッティングの違いは何ですか？各ペアの条件は同じ意味ですか？そうでない場合、違いは何ですか？

10 variance bias overfitting model-evaluation

1

時系列予測パフォーマンスの評価

いくつかの時間変数でトレーニングされた動的単純ベイズモデルがあります。モデルの出力はの予測でありP(Event) @ t+1、それぞれで推定されますt。 P(Event)対のプロットtimeは、次の図に示すとおりです。この図では、黒い線P(Event)が私のモデルで予測されたものを表しています。水平な赤い線は、イベント出来事の事前確率を表します。縦の点線は、時系列での（5つの）イベント発生を表します。理想的には、P(Event)イベントを観察する前に予測ピークを確認し、イベントの見込みがない場合はゼロに近いままにしたいです。イベントの発生を予測する上で、モデル（黒い線）のパフォーマンスを報告できるようにしたいと思います。私のモデルと比較する明らかな候補は、イベントの事前確率（赤い線）です。これは、予測子として使用した場合、すべてに対して同じ確率値を予測しますt。この比較を達成するための最良の正式な方法は何ですか？ PS：私は現在、以下にコード化されている（直感的な）スコアリングを使用しています。スコアが全体的に低いほど、予測パフォーマンスが良いことを示しています。このスコアリングで以前のものを倒すのは実際にはかなり難しいことがわかりました： # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score = 1- prob_prediction[t]; cur_prior_score = 1 - prior else: # no event cur_model_score = prob_prediction[t] - 0; cur_prior_score = prior - 0; model_score …

9 time-series probability prediction model-comparison model-evaluation

2

感度と特異性を組み合わせた分類器の性能測定？

複数の分類子を使用して分類を実行している2クラスのラベル付きデータがあります。そして、データセットはバランスが取れています。分類子のパフォーマンスを評価するとき、真の陽性だけでなく真の陰性も判別する際に、分類子がどれほど正確であるかを考慮する必要があります。したがって、精度を使用し、分類子がポジティブに偏っており、すべてをポジティブとして分類すると、真のネガティブの分類に失敗したとしても、約50％の精度が得られます。このプロパティは、1つのクラスのみに焦点を当て、さらにF1スコアに焦点を当てているため、精度と再現率まで拡張されています。（これは、たとえば「精度、Fスコア、およびROCを超えて：パフォーマンス評価のための判別指標のファミリ」など、このペーパーからでも理解できることです）。したがって、感度と特異度（TPRとTNR）を使用して、クラスごとに分類子がどのように機能するかを確認し、これらの値を最大化することを目指しています。私の質問は、これらの両方の値を1つの意味のある指標に結合する指標を探しているということです。私はその論文で提供されている対策を調査しましたが、それは重要なことでした。そして、私の理解に基づいて、なぜFスコアのようなものを適用できないのかと思っていましたが、精度と再現率を使用する代わりに、感度と特異度を使用するのでしょうか。したがって、式は、私の目的は最大化することですこの対策。私はそれが非常に代表的だと思います。同様の式はすでにありますか？そして、これは理にかなっていますか、それとも数学的にも正しいですか？my Performance Measure=2∗sensitivity∗specificitysensitivity+specificitymy Performance Measure=2∗sensitivity∗specificitysensitivity+specificity \text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}

9 classification roc model-evaluation sensitivity-specificity

5

100％に近いクラスラベルが1つのクラスに属しているときに分類子のパフォーマンスを測定する方法

私のデータには、で示されるクラス変数があります。このクラス変数の値は（バイナリ）です。ほとんどすべての観測値は0です（100％に近い、より正確には97％）。さまざまな分類モデルの「パフォーマンス」テストを希望します（精度の場合もあります）。発生を恐れているのは、観測を常にクラス0に分類する分類モデルがある場合、そのモデルは97％正確であることです（他の変数を考慮しない場合でも）。CCC0,10,1{0, 1}CCC 非常にまれなイベントを処理するデータの分類モデルの既知のパフォーマンステストはありますか？

9 classification binary-data model-evaluation

2

LOESS時系列モデルの増分学習

現在、いくつかの時系列データに取り組んでいますが、LOESS / ARIMAモデルを使用できることはわかっています。データは、長さが1000のベクターに書き込まれます。これはキューであり、15分ごとに更新されます。したがって、新しいデータがベクターにプッシュされる間、古いデータが飛び出します。スケジューラでモデル全体を再実行できます。たとえば、15分ごとにモデルを再トレーニングします。つまり、1000値全体を使用して、LOESSモデルをトレーニングします。ただし、1つの値のみが挿入され、別の999の値が挿入されるたびに、非効率的です。前回と同じです。では、どのようにしてパフォーマンスを向上させることができますか？どうもありがとう

9 time-series model-evaluation

4

回帰モデルの評価

分類の問題については、ニューラルネットワークを使用して、このリソース（ミラー）に従って混同行列とその測定値を使用してタイプIおよびIIのエラーを測定してきました。これは非常に簡単です。推定の問題に直面した場合、モデルのパフォーマンスをどのように評価しますか？クラスがなく、出力が実際の形式で解釈されると仮定します。距離測定基準の平均化を超えて、それは多くの洞察を与えません。

9 regression machine-learning estimation model-evaluation

1

このエラー指標に受け入れられる名前はありますか？

モデルの再構成エラーを定量化するために使用されるエラーメトリックに遭遇しました：、YiはあるI番目のデータ点、mはiはモデルの推定値であるI番目のデータ点、及び ˉ yはすべてのデータポイントの平均です。分子はモデルの総二乗誤差であり、分母はデータの平均からの二乗偏差です。ε = ∑私（y私− m私）2Σ私（y私− y¯）2ε=∑i(yi−mi)2∑i(yi−y¯)2 \varepsilon = \frac{\sum_i{\left(y_i-m_i\right)^2}}{\sum_i{\left(y_i-\bar{y}\right)^2}} y私yiy_i私iiメートル私mim_i私iiy¯y¯\bar{y} このメトリックには標準的な名前がありますか？そうでない場合、それを何と呼びますか？

8 terminology error model-evaluation

4

オブジェクト検出の平均精度

APやmAPの値をどのように計算できるかについてはかなり混乱しています。特に、オブジェクト検出のためにAP / mAP値を取得したいと考えています。私が確実に知っているのは、リコール= TP /（TP + FN）、精度= TP /（TP + FP）たとえば、評価するクラスが1つだけで、500のテスト画像があるとします。各テスト画像には異なる数の予測（境界ボックス提案）が含まれる場合がありますが、各画像には1つのグラウンドトゥルース境界ボックスしかありません。画像1：[クラス、確率、x1、y1、x2、y2]、[クラス、確率、x3、y3、x4、y4]、[クラス、確率、x5、y5、x6、y6]、[クラス、確率、 x7、y7、x8、y8]、... 画像2：[クラス、確率、x1、y1、x2、y2]、[クラス、確率、x3、y3、x4、y4]、... 。。。（等々） *ほんの一例で、私はこれを作りました TPを取得するには、各予測のIOUを見つけて、選択したしきい値（0.5など）を超えるものをカウントする必要があることを知っています（しきい値を超えるIOUを持つ複数の予測がある場合、1回だけカウントして他を処理しますか？ FPとして？）これは私を困惑させるところです： TP + FP =各画像に対して行われた予測の数でしょうか？すべてのテスト画像にネガがないため、TP + FN = 500？画像ごと、またはクラスごとに計算されますか？私の例に基づいてAP / mAPを取得するためのステップバイステップガイドを誰かに教えてもらえますか？最も曖昧な部分は、画像ごとに行うのか、クラスごとに行うのか（つまり、一度に500枚の画像を処理する場合）です。私が見つけたほとんどのガイド/論文は、情報検索を対象としています。これでいくつかの助けをいただければ幸いです。 *注：一部のカスタムデータセットでテストしています。PASCAL VOCにはそれを行うためのコードがいくつかあることは知っていますが、自分のデータに合わせてカスタマイズしたコードを自分で記述したいと思っています。

8 machine-learning precision-recall model-evaluation average-precision object-detection

タグ付けされた質問 「model-evaluation」

タグ付けされた質問「model-evaluation」