タグ付けされた質問 「model-evaluation」

モデルの評価では、サンプル内またはサンプル外のいずれか。

7
精度が分類モデルを評価するための最良の尺度ではないのはなぜですか?
これは、ここで間接的に複数回尋ねられた一般的な質問ですが、信頼できる答えは1つありません。参照のためにこれに対する詳細な答えを持っていることは素晴らしいことです。 すべての分類の中で正しい分類の割合である精度は、非常に単純で非常に「直感的な」尺度ですが、不均衡なデータには不十分な尺度になる場合があります。なぜ私たちの直感がここで私たちを誤った方向に導き、この測定に他の問題がありますか?

7
膨大な数の機能(> 10K)に最適なPCAアルゴリズム?
以前にStackOverflowでこれを尋ねましたが、SOで何の回答も得られなかったことを考えると、ここでの方が適切かもしれません。統計とプログラミングの交差点にあります。 PCA(主成分分析)を行うためのコードを書く必要があります。私はよく知られたアルゴリズムを閲覧し、これを実装しました。これは、私が知る限り、NIPALSアルゴリズムと同等です。最初の2〜3個の主成分を見つけるのに適していますが、収束が非常に遅くなるようです(数百から数千回の繰り返し)。必要なものの詳細は次のとおりです。 アルゴリズムは、膨大な数の機能(10,000〜20,000のオーダー)と数百のオーダーのサンプルサイズを扱う場合に効率的でなければなりません。 ターゲット言語はDであるため、まともな線形代数/マトリックスライブラリがなくても合理的に実装可能でなければなりません。Dはまだ1つもありません。 。 補足として、同じデータセットでRはすべての主成分を非常に高速に見つけるように見えますが、特異値分解を使用します。これは自分でコーディングしたいものではありません。

5
ランダムフォレストアルゴリズムの最適化された実装
私は、ALGLIB、Waffles、およびなどのいくつかのRパッケージなど、ランダムフォレストの実装がいくつかあることに気付きましたrandomForest。これらのライブラリが高度に最適化されているかどうかを教えてもらえますか?統計学習の要素で詳しく説明されているランダムフォレストと基本的に同等ですか、それとも多くの余分なトリックが追加されていますか? この質問が具体的であることを願っています。私が探している答えのタイプの例として、線形代数パッケージBLASが高度に最適化されているかどうか尋ねられた場合、それは非常に高度に最適化されていて、非常に特殊なアプリケーションを除いて改善しようとする価値はほとんどないと言います。

3
クラスタリング方法を選択する方法は?クラスターソリューションを検証する方法(メソッドの選択を保証するため)
クラスター分析の最大の問題の1つは、使用するさまざまなクラスタリング手法(階層的クラスタリングのさまざまなリンケージ手法を含む)に基づいて異なる結論を導き出さなければならない場合があることです。 これについてのあなたの意見を知りたい- どの方法を選択し、どのようにするか。「クラスタリングの最良の方法は、正しい答えを与えることです」と言う人もいるかもしれません。しかし、クラスター分析は教師なしの手法であると考えられているのではないかと疑問に思うかもしれません。どのメソッドまたはリンケージが正しい答えであるかをどのように知ることができますか? 一般的に:クラスタリングだけで十分に堅牢であるか?または、2つ目のメソッドが必要で、両方に基づいて共有結果を取得しますか? 私の質問は、クラスタリングのパフォーマンスを検証/評価する方法についてだけでなく、より広範なものです- ある基準に基づいて、あるクラスタリング方法/アルゴリズムを選択/優先しますか?また、データをクラスター化する方法を選択する際に注意すべき一般的な警告はありますか? 私はそれが非常に一般的な質問であり、答えるのが非常に難しいことを知っています。これについての詳細を知るためのコメント、アドバイス、提案があれば教えてください。

1
相互検証の誤用(最適なハイパーパラメーター値のパフォーマンスの報告)
最近、特定のデータセットでk-NN分類器を使用することを提案する論文に出会いました。著者は、利用可能なすべてのデータサンプルを使用して、さまざまなk値のk分割交差検証を実行し、最適なハイパーパラメーター構成の交差検証結果を報告しました。 私の知る限り、この結果には偏りがあり、ハイパーパラメーター最適化の実行に使用されないサンプルの精度推定値を取得するために、別のテストセットを保持する必要がありました。 私は正しいですか?この相互検証の誤用について説明した参考文献(できれば研究論文)を提供してください。

3
ロジスティック回帰の評価とHosmer-Lemeshow適合度の解釈
誰もが知っているように、ロジスティック回帰モデルを評価するには2つの方法があり、それらは非常に異なることをテストしています 予測力: 独立変数に基づいて従属変数を予測できる程度を測定する統計を取得します。よく知られたPseudo R ^ 2はMcFadden(1974)とCox and Snell(1989)です。 適合度の統計 このテストは、モデルをより複雑にすることでさらに改善できるかどうかを判断します。これは、実際には非線形性または相互作用があるかどうかをテストすることです。 私のモデルに両方のテストを実装しましたが、 すでに2次および相互作用が追加されています。 >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 …

3
非常に不均衡なデータの分類/評価指標
不正検出(クレジットスコアリングのような)問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです: そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。 私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました: [...] 80%の観測精度は、50%の予測精度に対して、75%の予測精度ではあまり印象的ではありません[...] したがって、私の質問は次のようになります。 kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか? 単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか?再(ダウン/アップ)サンプリングまたはコストベースの学習(http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照)はまだ必要ですか?



1
ROC曲線が互いに交差するときの2つのモデルの比較
2つ以上の分類モデルを比較するために使用される一般的な尺度の1つは、ROC曲線下面積(AUC)を間接的にパフォーマンスを評価する方法として使用することです。この場合、通常、AUCが大きいモデルは、AUCが小さいモデルよりもパフォーマンスが高いと解釈されます。しかし、Vihinen、2012(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/)によると、両方の曲線が交差すると、そのような比較はもはや有効ではなくなります。なぜそうですか? たとえば、ROC曲線と以下のAUCに基づいてモデルA、B、Cについて確認できるものは何ですか?

2
ファイ、マシューズ、ピアソンの相関係数の関係
ファイとマシューズの相関係数は同じ概念ですか?2つのバイナリ変数のピアソン相関係数とどのように関連または同等ですか?バイナリ値は0と1であると仮定します。 2つのベルヌーイ確率変数xxxと間のピアソンの相関yyyは次のとおりです。 ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}} どこ E[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11nE[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11n \mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] …

3
従来の統計では、ホールドアウト法(トレーニングとテストにデータを分割する)が使用されないのはなぜですか?
私の教室でのデータマイニングの経験では、モデルのパフォーマンスを評価する方法として、ホールドアウトメソッドが導入されました。ただし、線形モデルで最初のクラスを取ったとき、これはモデルの検証または評価の手段として導入されませんでした。私のオンライン調査でも、交差点は示されていません。ホールドアウト法が古典統計で使用されないのはなぜですか?

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …


5
なぜfベータスコアはそのようにベータを定義するのですか?
これはFベータスコアです: Fβ= (1 + β2)⋅ P R E 、C 、I S I O N ⋅ R E C A L L(β2⋅ P R E 、C 、I S I O N)+ R E C A L LFβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallF_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} ウィキペディアの記事には、ます。FβFβF_\beta "measures …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.