統計とビッグデータ scoring-rules

1

適切なスコアリングルールが分類設定における一般化のより良い推定になるのはいつですか？

分類問題を解決するための一般的なアプローチは、候補モデルのクラスを識別し、交差検証などの手順を使用してモデル選択を実行することです。通常、最も正確なモデル、またはなどの問題固有の情報をエンコードする関連関数を選択し。FβFβ\text{F}_\beta 最終目標が正確な分類子を作成することであると仮定すると（正確性の定義は再び問題に依存します）、どのような状況で、正確さ、精度、再現率などの不適切なものではなく、適切なスコアリングルールを使用してモデル選択を実行する方が良いでしょう。、など？さらに、モデルの複雑さの問題を無視して、すべてのモデルを等しく可能性があると見なすアプリオリと仮定します。以前は私は決して言わなかっただろう。正式な意味では、分類は回帰[1]、[2]よりも簡単な問題であり、前者の方が後者よりも厳しい境界を導出できる（）。さらに、確率を正確に一致させようとすると、誤った決定の境界や過剰適合が発生する場合があります。しかし、ここでの会話とそのような問題に関するコミュニティの投票パターンに基づいて、私はこの見解に疑問を投げかけています。∗∗* デブロイ、リュック。パターン認識の確率論。巻。31.スプリンガー、1996年、セクション6.7 カーンズ、マイケルJ.、ロバートE.シャピレ。確率論的概念の効率的な配布フリー学習。コンピュータサイエンスの基礎、1990年。IEEE、1990年。 (∗)(∗)(*)このステートメントは少しずさんになるかもしれません。私は、特にフォームの所与の標識されたデータを意味するとと、条件付き確率を正確に推定するよりも、決定境界を推定する方が簡単のようです。S={(x1,y1),…,(xn,yn)}S={(x1,y1),…,(xn,yn)}S = \{(x_1, y_1), \ldots, (x_n, y_n)\}xi∈Xxi∈Xx_i \in \mathcal{X}yi∈{1,…,K}yi∈{1,…,K}y_i \in \{1, \ldots, K\}

9 machine-learning model-selection error scoring-rules

1

確率的予測精度を測定する方法は？

私が次のような確率的予測をたくさんするとします： Q1で売上成長率が10〜15％になる確率は70％、売上成長率が15％以上になる確率は10％、売上成長率が10％未満になる確率は20％実際のデータを踏まえて、私の正確性を測定または追跡するための最良の方法は何ですか？ブライアースコア？また、さまざまな種類の予測のブライアスコアを平均化できますか？（たとえば、「雨の可能性は80％である」という予測の目障りなスコアを見つけ、それを売上成長予測と平均化します）

8 forecasting scoring-rules

2

適切なスコアリングルールの概念とは別の概念、およびスコアリングルールを使用したモデルの評価

スコアリングルールは、イベントの（カテゴリ）の結果を考慮すると、カテゴリのイベントに関連付けられた確率のエージェントの推測を評価する手段です。推測と観察された結果に応じて、スコアリングルールはエージェントにスコア（実数）を与えます。スコアリングルールは、平均して、スコアが最小のエージェントが最も正確に推測できるようにスコアを割り当てることになっています。（採点ルールが最小化と最大化のどちらの観点からフレーム化されているかについては、慣例が異なります。ここでは、最小化の見方をとっています。）スコアリングルールの重要な特性は、それらが適切なスコアリングルールであるかどうかです。つまり、エージェントが真の確率を推測したときに平均スコアが最小になるかどうか（または、主観的なベイジアンフレーミングでは、エージェント自身の事前確率が与えられると、エージェントが独自の信念の度合いを使用するときに、事後平均スコアが最小になるかどうか）その推測）。バイナリイベントの場合、0または1（Brierスコア）からの2乗誤差は適切なスコアリングルールですが、絶対誤差はそうではありません。どうして？さて、適切性の基準は平均に基づいており、平均は二乗差の合計を最小化するが、絶対誤差を最小化する必要はない中心傾向の測定値です。この考え方は、適切なスコアリングルールの定義の平均を、中央値などの他の統計関数で置き換えると、類似した種類の適切なスコアリングルールの豊富なファミリが得られることを示唆しています。エージェントが平均スコアではなく中央値を最小化したい状況を想像することは不合理ではありません。実際には、重要な中央値の適切なスコアリングルールはないようです。再びバイナリイベントの場合を考えると、真の確率が1/2未満の場合、イベントの発生に関係なく、エージェントの中央値は、イベントが発生しないときにエージェントに与えられたスコアに等しくなります。正確な確率。平均を、たとえば、幾何平均で置き換えると、類似のシェニガンが発生するようです。それで、適切なスコアリングルールの理論が意図したとおりに機能するためには、統計汎関数が平均でなければならないという意味がありますか？これは漠然とした質問であり、最良の回答はその質問が本当に意味をなさない理由の説明である可能性が高いことを理解しています。私は意思決定の心理学者であり、人々が選択する可能性の確率を吐き出すモデルのパフォーマンス（クロス検証の下での予測パフォーマンス、またはモデル適合後のいずれか）を定量化したいと思うことがよくあります二分決定シナリオ。上記の説明は、適切なスコアリングルールを使用する必要があることを示唆しています。厄介なことに、適切なスコアリングルールは確率と同じスケールではありません。たとえば、平均二乗誤差（つまり、平均ブライアースコア）を見るだけでなく、平均二乗誤差の平方根を求めたいと思っていますが、1回の試行の場合、RMSEは絶対誤差に相当しますが、これは適切ではないので、精度の低いモデルの方が良いと思いませんか？明らかに、スコアリングルールを評価する方法を、平均の点での1つから、たとえば中央値の点での1つに変更することはできません。通常の適切なスコアリングルールの1つのスケールに慣れるか、ROC曲線の下の面積やd 'のような信号検出統計を使用する必要がありますか？さらに複雑なのは、Wagenmakers、Ratcliff、Gomez、およびIverson（2004）に従って、1つの研究でパラメトリックにブートストラップされたモデルフィットを調べていることです。つまり、個々のスコアではなく、スコアの密度プロットを調べています。それから、私が適切さを気にする必要があるのか、それとも類似の基準を気にする必要があるのかはさらに明確ではありません。編集：詳細については、Redditのこのコメントスレッドを参照してください。 Wagenmakers、E.-J.、Ratcliff、R.、Gomez、P.、＆Iverson、GJ（2004）。パラメトリックブートストラップを使用したモデルの模倣の評価。Journal of Mathematical Psychology、48、28–50。doi：10.1016 / j.jmp.2003.11.004

8 scales scoring-rules

1

適切なスコアリングルールを使用して、ロジスティック回帰からクラスメンバーシップを決定する

ロジスティック回帰を使用して、イベントが発生する可能性を予測しています。最終的に、これらの確率は実稼働環境に入れられ、「はい」の予測に到達することにできるだけ焦点を当てます。したがって、この決定を通知するために使用する他の方法に加えて、どの「決定的」ヒットまたは「非ヒット」がアプリオリ（本番稼働前）であるかを知ることは有用です。私の質問は、予測された確率に基づいて決定的なクラス（1,0）を予測する適切な方法は何ですか？具体的にglmnetは、モデリングにRのパッケージを使用しています。このパッケージは、はいまたはいいえのしきい値として0.5確率を任意に選択します。決定的なクラスに外挿するには、予測確率に基づいて適切なスコアリングルールの結果を取得する必要があると思います。私のモデリングプロセスの例を以下に示します。 mods <- c('glmnet', 'scoring') lapply(mods, require, character.only = T) # run cross-validated LASSO regression fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', type.measure = 'auc') # generate predicted probabilities across new data df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min') …

8 r logistic classification loss-functions scoring-rules

1

スコア関数と漁師の情報を生徒に説明する（直感/例を提供する）

来週は、スコア関数とその分散（つまり、漁師情報）を生徒に教えます。私は、これらの概念を説明し、生徒が理解できるようにする方法を探しています（クラスでよく行われているさまざまな分布についてそれらを計算するだけではありません）。どんな提案も役に立ちます（スコア関数の背後にある直感とは何か、および尤度スコア関数101へのリンクを提供する以外に）

8 likelihood teaching fisher-information scoring-rules

2

予測された分布の質の評価

データポイントセットがあり、は独立変数であり、各は、パラメーターを使用した指数分布から描画されるものとしてモデル化できると思います。Xi,yiXi,yiX_i, y_ixxxyiyiy_iλiλi\lambda_i を使用してを予測する場合、観測値に関して予測した分布の品質をどのように評価できますか？XiXiX_iλiλi\lambda_iyiyiy_i 編集：これは基本的に、ベルヌーイ実験の確率推定器の品質を評価する方法と同じ質問ですか？しかし、二項式の文脈ではなく、連続的な文脈で。この場合、クロスエントロピーの代わりに何を使用するかは明らかではありません。

7 regression distributions error scoring-rules

3

モデル間のキャリブレーションを比較するための統計的アプローチ

これは一般的な問題のようですが、解決策が見つかりません。一連のバイナリ観測と2つの異なるモデルがあり、それぞれに各観測の予測があります。モデルのキャリブレーションを比較したい。これらのモデルの差別を比較する方法はいくつかあります（RのpROCパッケージのroc.testを参照）が、キャリブレーションを比較する方法はありません。ほとんどの経験的論文は、各モデルのキャリブレーションがオフであるかどうかをテストしている2つの異なるキャリブレーションテスト（すなわち、Hosmer-Lemeshow、Brierスコア）からのp値のみをリストしています。私が探しているのは、2つのモデル間のキャリブレーションの直接統計比較です。これが極端なテストデータセットです。ブライア検定、シュピーゲルハルターZ検定などの値はすべて、p2がより適切に較正されていることを裏付けています。誰かがこれを正式な統計的検定にすることができますか？ library("pROC") y <- rbinom(100,1,1:100/100) p1 <- 1:100/10001 p2 <- 1:100/101 val.prob(p1,y) val.prob(p2,y)

7 r machine-learning logistic calibration scoring-rules

タグ付けされた質問 「scoring-rules」

タグ付けされた質問「scoring-rules」