統計とビッグデータ classification

2

質問 Gradient Boostingを使用してバイナリ分類を行うときに、予測が間隔内にどのように保持されるかを理解するのに苦労しています。[ 0 、1 ][0、1][0,1] バイナリ分類問題に取り組んでおり、目的関数は対数損失であり、はターゲット変数、は現在のモデルです。− ∑ y私ログ（Hm（x私））+ （1 − y私）ログ（1 − Hm（x私））−∑y私ログ⁡（Hm（バツ私））+（1−y私）ログ⁡（1−Hm（バツ私））-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))yyy∈ { 0 、1 }∈{0、1}\in \{0,1\}HHH 新しいモデルがになるように次の弱学習トレーニングする場合、を維持するはずのメカニズムは何ですか？または、より関連性の高い質問かもしれませんが、そのようなメカニズムはありますか？hihih_iHi=Hi−1+hiHi=Hi−1+hiH_i = H_{i-1} + h_iHi∈ [ 0,1]Hi∈[0,1]H_i \in [0,1] 私がやっていることの詳細回帰ツリーを使用して、勾配ブースティングを実装しようとしています。それを避けるために、H + c _ {\ text {max}} hがゼロ以下にならないように、h私h私h_iに係数c \ in [0、c _ {\ text {max}}]を掛けます 1つ、および損失関数を最小化するこの範囲でcを選択します。C …

17 logistic classification boosting

3

SVMとLDAの違いは何ですか？

サポートベクターマシンと線形判別分析の違いは何ですか？

17 classification

1

AUCが半適切なスコアリングルールであることはどういう意味ですか？

適切なスコアリングルールは、「真の」モデルによって最大化されるルールであり、システムの「ヘッジ」やゲームを許可しません（スコアを改善するためのモデルの真の信念である異なる結果を意図的に報告する）。ブライアースコアは適切であり、正確性（正しく分類された割合）は不適切であり、しばしば落胆します。時々、AUCは半適切なスコアリングルールと呼ばれ、精度が完全に偽ではなく、適切なルールよりも感度が低くなることがわかります（たとえば、https：//stats.stackexchange.com/a/90705/53084）。準適切なスコアリングルールとはどういう意味ですか？どこかで定義されていますか？

16 classification references roc measurement-error scoring-rules

3

回帰におけるnullモデルとは何ですか？またnull仮説とどのように関係しますか？

回帰におけるnullモデルとは何ですか？nullモデルとnull仮説の関係は何ですか？私の理解のために、それは意味します「応答変数の平均」を使用して連続応答変数を予測しますか？離散応答変数の予測に「ラベル分布」を使用していますか？その場合、帰無仮説間の関係が欠落しているようです。

16 regression hypothesis-testing classification terminology model

2

'69年のデータから学ぶ一般的な最先端技術

私は、ニューラルネットワークにとって非常に重要な1969年の有名なミンスキーとペーパーの本「パーセプトロン」の文脈を理解しようとしています。私が知る限り、パーセプトロンを除いて、他の一般的な教師あり学習アルゴリズムはまだありませんでした。決定木は実際には70年代後半にのみ有用になり始め、ランダムフォレストとSVMは90年代です。ジャックナイフ法はすでに知られているようですが、k-cross validation（70s）やbootstrap（1979？）ではありません。ウィキペディアによると、ハイブリッド理論を説明する最初の試みはすでに40年代にあったにもかかわらず、ネイマンピアソンとフィッシャーの古典的な統計フレームワークは50年代にはまだ意見の相違がありました。したがって、私の質問：データから予測する一般的な問題を解決するための最先端の方法は何でしたか？

16 classification neural-networks history

4

KNNは識別学習アルゴリズムですか？

KNNは差別的な学習アルゴリズムのようですが、これを確認するオンラインソースを見つけることができないようです。 KNNは識別学習アルゴリズムですか？

16 machine-learning classification k-nearest-neighbour

1

画像内のピクセルを分類するための基本的なマルコフ確率場のトレーニング

マルコフ確率場を使用して画像内の領域を分割する方法を学習しようとしています。MRFのパラメーターの一部、または実行した期待値の最大化がソリューションに収束しないことがある理由を理解できません。ベイズの定理から始めて、。ここで、yはピクセルのグレースケール値、xはクラスラベルです。私はガウス分布を使用することを選択したP （Y | Xを）しながら、P （xは） MRFを使用してモデル化されます。p （x | y）= p （y| x）p（x） / p（y）p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / p(y)yyyバツxxp （y| x）p（y|バツ）p(y|x)p （x ）p（バツ）p(x) ペアワイズクリークポテンシャルと分類されるピクセルのクラスラベルのポテンシャル値の両方を持つMRFのポテンシャル関数を使用します。単一ピクセルのポテンシャル値は、クラスラベルxに依存する定数です。ペアワイズ電位関数は、4連結近傍について評価し、プラスのリターンさβを隣接この画素と同じクラスラベルを持つ場合- βラベルが異なる場合。αα\alphaバツバツxββ\beta- β−β-\beta 対数尤度の期待値を最大化するおよびβの値を見つけなければならない期待値最大化の時点で、数値最適化手法（試行された共役勾配、BFGS、パウエル法）を使用しましたが、値ことが判明βが負になる、α sが劇的に増加し、反復又は二以降の全体像は、一つのラベルのみ（バックグラウンド：MRFパラメータはICMを使用して行われた所定のクラスラベルを割り当てる）に割り当てられます。アルファを削除した場合、つまりペアワイズクリークポテンシャルのみを使用した場合、期待値の最大化はうまく機能します。α （x ）α（バツ）\alpha(x)ββ\betaββ\betaαα\alpha 各クラスのアルファの目的は何ですか？それらは画像に存在するそのクラスの量に関係すると思いましたが、そうではないようです。MRFがペアワイズポテンシャルのみで機能するようになったら、単純なガウス混合モデルと比較して、ほぼ同じ結果が得られることを確認しました。ペアワイズの可能性がクラスを少しスムーズにすることを期待していましたが、それは起こりませんでした。私がどこを間違えたか教えてください。

16 expectation-maximization image-processing classification

2

非常に不均衡なデータセットのトレーニングアプローチ

非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。 1）トレーニングセット全体に重み付きSVMを使用する（P：1200、N：12000） 2）サンプリングされたトレーニングセット（P：1200、N：1200）に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。どのアプローチが優れているかを決定するための理論的なガイダンスはありますか？テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか？

16 machine-learning classification data-mining svm bioinformatics

4

低い分類精度、次に何をすべきか？

だから、私はML分野の初心者であり、分類を試みます。私の目標は、スポーツイベントの結果を予測することです。いくつかの履歴データを収集し、分類器のトレーニングを試みました。約1200個のサンプルを取得しましたが、そのうちの0.2個はテスト目的で分割し、その他は異なる分類器を使用してグリッド検索（クロス検証を含む）に入れました。今のところ、線形カーネル、rbfカーネル、多項式カーネル、およびランダムフォレストを使用してSVMを試しました。残念ながら、0.5を大きく超える精度を得ることができません（クラスのランダム選択と同じです）。そのような複雑なイベントの結果を予測できないということですか？または、少なくとも0.7-0.8の精度を得ることができますか？実行可能であれば、次に何を検討する必要がありますか？より多くのデータを取得しますか？（データセットを最大5倍まで拡大できます）別の分類器を試してみませんか？（ロジスティック回帰、kNNなど）機能セットを再評価しますか？分析するMLツールはありますか？機能セットを減らす必要があるかもしれません（現在、12個の機能があります）。

16 classification svm feature-selection random-forest

3

k分割交差検証のグリッド検索

10倍のクロス検証設定で120サンプルのデータセットを持っています。現在、最初のホールドアウトのトレーニングデータを選択し、グリッド検索によってガンマとCの値を選択するために5倍の交差検証を行います。RBFカーネルでSVMを使用しています。精度を報告するために10 10の交差検証を行っているため、各グリッドのトレーニングデータでこのグリッド検索を実行します（10のホールドアウトがあり、それぞれ10％のテストと90％のトレーニングデータがあります）？それは時間がかかりすぎませんか？最初のホールドアウトのガンマとCを使用し、k倍交差検証の9つのホールドアウトの残りにそれを使用すると、トレインデータを使用してガンマとCを取得し、再び使用するため、違反です2番目のホールドアウトのテストとしての列車データの一部

16 machine-learning classification cross-validation svm

3

マルチクラスLDAトレーニングの共線変数

8クラスのデータでマルチクラスLDA分類器をトレーニングしています。トレーニングを行っている間、私は警告が出ます：「変数が同一直線上にあります」私は取得しています訓練オーバーの精度90％。 Pythonでscikits-learnライブラリを使用して、マルチクラスデータのトレーニングとテストを行っています。私はまともなテスト精度も得ています（約85％-95％）。エラー/警告の意味がわかりません。私を助けてください。

16 machine-learning classification python scikit-learn discriminant-analysis

1

統計学習理論では、テストセットに過剰適合の問題はありませんか？

MNISTデータセットの分類に関する問題を考えてみましょう。 Yann LeCunのMNIST Webページによると、「Ciresan et al。」畳み込みニューラルネットワークを使用したMNISTテストセットで0.23％のエラー率を得ました。レッツとして示すMNISTトレーニングセット、としてMNISTテストセット、最終的な仮説は、彼らが使用して得られたとして、およびMNIST試験に彼らの誤り率が使用して設定のようにE t e s t（h 1）= 0.0023。DtrainDtrainD_{train}DtestDtestD_{test}DtrainDtrainD_{train}h1h1h_{1}h1h1h_{1}Etest(h1)=0.0023Etest(h1)=0.0023E_{test}(h_{1}) = 0.0023 彼らの観点では、DtestDtestD_{test}はh1h1h_{1}に関係なく入力空間からランダムにサンプリングされたテストセットであるため、最終仮説サンプル外エラーパフォーマンスはEout(h1)Eout(h1）E_{out}(h_{1})次のように制限されると主張できますHoeffdingの不等式 N個のT E S T = | D t e s t | 。P[|Eout(h1)−Etest(h1)|<ϵ|]≥1−2e2ϵ2NtestP[|Eout(h1)−Etest(h1)|<ϵ|]≥1−2e2ϵ2Ntest P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}} Ntest=|Dtest|Ntest=|Dtest|N_{test}=|D_{test}| 換言すれば、少なくとも確率が、 E O U T（H 1）≤ E T E S T（H …

16 machine-learning classification overfitting probability-inequalities

3

非常に不均衡な設定でのコスト重視の学習のための提案

数百万行と100列までのデータセットがあります。共通クラスに属するデータセット内のサンプルの約1％を検出したいと思います。最小精度の制約がありますが、非常に非対称なコストのため、特定のリコールにあまり熱心ではありません（10の肯定的な一致が残っていない限り！）この設定でお勧めするアプローチは何ですか？（論文へのリンクは歓迎、実装へのリンクは歓迎）

15 machine-learning classification unbalanced-classes precision-recall

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

相互検証における平均（スコア）対スコア（連結）

TLDR：私のデータセットは非常に小さい（120）サンプルです。10倍のクロス検証を行っている間に、次のことを行う必要があります。各テストフォールドから出力を収集し、それらをベクトルに連結して、予測のこの完全なベクトル（120サンプル）でエラーを計算しますか？それとも私がすべきである代わりに、私が手出力に誤差を計算各倍に（倍あたり12個のサンプルで）、その後、10倍の誤差推定値の平均として私の最終誤差推定値を得ますか？これらの手法の違いを主張する科学論文はありますか？背景：マルチラベル分類におけるマクロ/マイクロスコアとの潜在的な関係：この質問は、マルチラベル分類タスク（たとえば5ラベルなど）でよく使用されるミクロ平均とマクロ平均の違いに関連していると思います。マルチラベル設定では、120サンプルの5つの分類子予測すべてについて、真陽性、偽陽性、真陰性、偽陰性の集約された分割表を作成することにより、マイクロ平均スコアが計算されます。次に、この分割表を使用して、マイクロ精度、マイクロリコール、およびマイクロfメジャーを計算します。したがって、120個のサンプルと5つの分類子がある場合、600の予測（120個のサンプル* 5つのラベル）でミクロ測定が計算されます。マクロバリアントを使用する場合、各ラベルでメジャー（精度、リコールなど）を個別に計算し、最後にこれらのメジャーを平均します。違いの背後にある考え方マイクロ対マクロの推定値は、バイナリ分類問題におけるK倍の設定で何ができるかに拡張することができます。10倍の場合、10個の値を平均するか（マクロ測定）、10個の実験を連結してマイクロ測定を計算できます。背景-展開例：次の例は質問を示しています。12個のテストサンプルがあり、10個のフォールドがあるとします。フォールド1：TP = 4、FP = 0、TN = 8 精度 = 1.0 折り2：TP = 4、FP = 0、TN = 8 精度 = 1.0 3つ折り：TP = 4、FP = 0、TN = 8 精度 = 1.0 フォールド4：TP = 0、FP = 12、精度 = …

15 classification cross-validation small-sample

タグ付けされた質問 「classification」

タグ付けされた質問「classification」