タグ付けされた質問 「accuracy」

推定量の精度は、推定値の真の値への近さの程度です。分類子の場合、精度は正しい分類の比率です。(この2番目の使用法はお勧めできません。詳細については、タグwikiを参照してください。)

1
バイナリ分類設定の精度は不適切なスコアリングルールですか?
私は最近、確率的分類器の適切なスコアリングルールについて学んでいます。このWebサイトのいくつかのスレッドは、精度が不適切なスコアリングルールであり、ロジスティック回帰などの確率モデルによって生成された予測の品質を評価するために使用すべきではないことを強調しています。 ただし、私が読んだかなりの数の学術論文では、バイナリ分類設定における(厳密ではない)適切なスコアリングルールの例として、誤分類の損失を挙げています。私が見つけた最も明確な説明は、7ページの下部にあるこのペーパーにありました。私の理解では、誤分類損失を最小化することは、精度を最大化することに相当します。 たとえば、論文の表記を使用して、対象クラスの真の条件付き確率(ある特徴ベクトルxが与えられた)がη= 0.7の場合、予測q > 0.5の場合、予想損失R(η| q)= 0.7(0)+ 0.3(1)= 0.3、およびq≤0.5の ≤≤\leq、予想損失は0.7です。したがって、損失関数はq =η= 0.7 で最小化され、結果として適切になります。真の条件付き確率と予測の全範囲への一般化は、そこから十分簡単に​​思えます。 上記の計算とステートメントが正しいと仮定すると、一意でない最小値と、同じ最小予測損失を共有する0.5を超えるすべての予測の欠点は明らかです。ログスコア、ブライアースコアなどの従来の代替案に対して精度を使用する理由はまだありません。しかし、バイナリ設定で確率モデルを評価する場合、精度が適切なスコアリングルールであると言うのは正しいですか。間違い-誤分類の損失を理解するのか、それとも正確に分類するのか。


3
診断メトリック(
私は自分のモデルを適合させ、それが良いかどうかを理解しようとしています。私はそれを評価するために推奨されるメトリック(R2R2R^2 / AUC /精度/予測誤差/など)を計算しましたが、それらを解釈する方法がわかりません。要するに、私のモデルがメトリックに基づいて良いかどうかはどのようにしてわかりますか?あるR2R2R^2、私は推論やベース科学/ビジネス上の意思決定を描画するために進んでみましょうするのに十分な(例えば)0.6のは? この質問は、メンバーが頻繁に遭遇するさまざまな状況をカバーするために、意図的に広くなっています。このような質問は、この質問の重複として閉じることができます。ここで説明したメトリックを超えて範囲を広げる編集、およびその他の回答、特に他のクラスのメトリックに関する洞察を提供するものは歓迎されます。

1
分類タスクで機能選択が重要なのはなぜですか?
特徴選択について学んでいます。なぜそれがモデル構築にとって重要かつ有用であるのかを理解できます。しかし、教師あり学習(分類)タスクに焦点を当てましょう。分類タスクで機能選択が重要なのはなぜですか? 特徴の選択と教師あり学習へのその使用について書かれた多くの文献を見ていますが、これは私を困惑させます。機能の選択とは、どの機能を破棄するかを特定することです。直感的には、一部の機能を破棄することは自己破壊的なようです。それは情報を破棄することです。情報を投げても役に立たないようです。 一部の機能を削除しても効果がある場合でも、一部の機能を破棄して残りを監視あり学習アルゴリズムにフィードする場合、監視あり学習アルゴリズムに処理を任せるのではなく、なぜ自分で実行する必要があるのでしょうか。一部の機能が役に立たない場合、適切な教師あり学習アルゴリズムが暗黙のうちにそれを発見し、その機能を使用しないモデルを学習すべきではありませんか? したがって、直感的には、機能の選択が役に立たず、場合によっては害を及ぼす可能性がある無意味な演習になると予想していました。しかし、それが非常に広く使用され、記述されているという事実は、私の直感に欠陥があると私に疑わせます。教師あり学習を行うときに、機能の選択が有用かつ重要である理由を誰かが直感的に理解できるでしょうか。なぜ機械学習のパフォーマンスが向上するのですか?それは私が使用する分類器に依存しますか?

1
各有権者の精度と関連する不確実性を使用する投票システム
たとえば、答えを知りたい単純な「はい/いいえ」の質問があるとします。そして、正解に「投票」するN人がいます。すべての有権者には履歴があります。1と0のリストで、過去にこの種の質問が正しかったか間違っていたかを示します。履歴を2項分布と仮定すると、そのような質問に対する有権者の平均パフォーマンス、その変動、CI、およびその他の種類の信頼性指標を見つけることができます。 基本的に、私の質問は、信頼情報を投票システムに組み込む方法ですか? たとえば、各有権者の平均パフォーマンスのみを考慮する場合、単純な重み付け投票システムを構築できます。 result=sign(∑v∈votersμv×(−1)1−vote)result=sign(∑v∈votersμv×(−1)1−vote)result = sign(\sum_{v \in voters}\mu_v \times (-1)^{1-vote}) つまり、投票者の重みに(「はい」の場合)または(「いいえ」の場合)を掛けた値を合計するだけです。それは理にかなっています:有権者1がに等しい正解の平均を持ち、有権者2がしか持っていない場合、おそらく、一人称投票がより重要であると考えられるべきです。一方、1人がこの種の質問に10個しか回答せず、2人が1000個の質問に回答した場合、2人目のスキルレベルは1人目よりもはるかに自信があります。1人目が幸運だった可能性があります。 、そして10の比較的成功した答えの後、彼はずっと悪い結果を続けます。+1+1+1−1−1-1.9.9.9.8.8.8 したがって、より正確な質問は次のように聞こえるかもしれません:いくつかのパラメーターについての強度と信頼性の両方を組み込んだ統計的メトリックはありますか?

1
分類子の評価:学習曲線とROC曲線
大規模なトレーニングデータセットを使用するマルチクラステキスト分類問題の2つの異なる分類子を比較したいと思います。2つの分類子を比較するためにROC曲線を使用するか、学習曲線を使用する必要があるか疑問です。 一方、学習曲線は、分類器が学習を停止する(場合によっては低下させる)データセットのサイズを見つけることができるため、トレーニングデータセットのサイズを決定するのに役立ちます。したがって、この場合の最適な分類子は、最小のデータセットサイズで最高の精度に到達する分類子です。 一方、ROC曲線を使用すると、感度/特異度の間で適切なトレードオフのあるポイントを見つけることができます。この場合の最適な分類子は、左上部分に近い分類子で、FPRのTPRが最も高くなります。 両方の評価方法を使用する必要がありますか?より良い学習曲線を持つメソッドがより悪いROC曲線を持つことは可能ですか?

2
Fメジャーは正確さと同義ですか?
fメジャー(精度と再現率に基づく)は、分類子の正確さの見積もりであることを理解しています。また、不均衡なデータセットがある場合、fメジャーは精度よりも優先されます。簡単な質問があります(これはテクノロジーよりも正しい用語を使用することについてです)。不均衡なデータセットがあり、実験でfメジャーを使用しています。機械学習/データマイニング会議用ではない論文を書こうとしています。したがって、このコンテキストでは、fメジャーを正確に同義で参照できますか。たとえば、f値が0.82の場合、分類子は82%の正確な予測を達成したと言えますか?

4
AIC値の解釈
私がロジスティックモデルで見た典型的なAICの値は、数千、少なくとも数百です。例:http: //www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/では、AICは727.39です。 AICはモデルを比較するためだけに使用するべきだと常に言われていますが、特定のAIC値の意味を理解したいと思いました。式に従って、 A IC= − 2 ログ(L )+ 2 KAIC=−2log⁡(L)+2KAIC= -2 \log(L)+ 2K ここで、L = MLE推定器からの最尤、Kはパラメーターの数 上記の例では、K = 8 だから、単純な算術で: 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= 711.39/-2 = -355.695 Hence, L = exp(-355.695) = 3.3391E-155 したがって、私の理解が正しければ、これはMLEによって識別された関数がデータに適合する可能性です。これは本当に本当に低いようです。 ここで何が欠けていますか?

4
予測精度の計算
時系列データの予測にはSTL(R実装)を使用しています。 私たちは毎日、毎日の予測を実行しています。予測値と実際の値を比較して、平均偏差を特定します。たとえば、明日の予測を実行して予測ポイントを取得した場合、これらの予測ポイントを、明日取得する実際のデータと比較します。私は、予測値と実際のデータがほとんどの場合一致しない場合があることを認識しています。これが、私たちが毎日どれだけ正確であるかを追跡したい理由の1つです。 今、私たちはこの問題を解決するための最良のアプローチは何かを特定しようとしていますか?ヘルプポインタをいただければ幸いです。 私が見て、予測精度の質問を測定するが、それはモデルを比較するのではなく実際の値と精度を計算に関係しているようです。 Rでの精度関数の実装を調べましたが、2つの質問と混同されていました。 1)チュートリアルのほとんどが「テストデータ」対「予測データ」と言っているため、実際のデータと予測データで機能しますか 2)精度関数の出力は、偏差の%ではなく値の配列です。

2
精度を結果指標として使用する場合の例は誤った結論につながる
予測モデルのさまざまなパフォーマンス指標を調べています。モデルのパフォーマンスを評価するためのより継続的なものではなく、精度の使用に関する問題について多くが書かれました。Frank Harrell http://www.fharrell.com/post/class-damage/は、モデルに有益な変数を追加すると、精度が低下し、明らかに直観に反し、誤った結論に至る場合の例を示しています。 ただし、この場合は、クラスの不均衡が原因であると考えられるため、代わりに((sens + spec)/ 2)のバランスの取れた精度を使用するだけで解決できます。バランスのとれたデータセットで精度を使用すると、明らかに間違った、または直観に反する結論につながる例はありますか? 編集する モデルが明らかに優れている場合でも精度が低下するもの、または精度を使用すると一部の機能が誤って選択される可能性があるものを探しています。2つのモデルの精度が同じで、他の基準を使用した方が明らかに優れている偽陰性の例を作成するのは簡単です。

1
素人が自分のデータについて不正確な結論を出すのを防ぐ方法は?
私は主にSQLのデータアナリストとして、内部顧客に運用データを提供しています。統計分析はめったに行いません。 最近、内部顧客が不適切に設計されたプロジェクト(制御グループなし、計画された方法論なしなど)のデータを使用して来て、ビジネスプラクティスを形作るためにそれを使用できるように、結果のデータ分析を行うように求めています。 「研究」は非常に初歩的であり、研究方法や統計の知識がなく、重要なビジネス慣行に影響を与えようとする人々によって実行されます。最初から設計されていなかったため、統計分析はできません。 関係する人口を超えて彼らの「研究」を一般化することができないことを彼らに知らせるために彼らにどんな資源を向けることができますか?これにはどの言語を使用しますか?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.