私は最近、一緒に仕事をすることを学び始め、sklearn
この奇妙な結果に出会ったばかりです。
使用digits
可能なデータセットを使用して、sklearn
さまざまなモデルと推定方法を試しました。
私はデータをサポートベクトルマシンモデルをテストしたとき、私は2つの異なるのクラスがありますがわかったsklearn
:SVM分類のためSVC
とLinearSVC
、元の用途1-に対する-1のアプローチおよび他の用途の一に対して、残りのアプローチは。
結果にどのような影響があるのかわかりませんでしたので、両方試してみました。モンテカルロスタイルの推定を行い、両方のモデルを500回実行しました。そのたびに、サンプルをランダムに60%のトレーニングと40%のテストに分割し、テストセットで予測の誤差を計算しました。
通常のSVC推定器は次のエラーのヒストグラムを生成しました。 一方、線形SVC推定器は次のヒストグラムを生成しました。
このような大きな違いを説明できるものは何でしょうか?ほとんどの場合、線形モデルの精度がこれほど高いのはなぜですか?
そして、それに関連して、結果に著しい分極化を引き起こす原因は何ですか?1に近い精度または0に近い精度のいずれかで、間には何もありません。
比較のために、決定木分類では、約.85の精度ではるかに正規分布したエラー率が生成されました。
Similar to SVC with parameter kernel=’linear’, but implemented in terms of liblinear rather than libsvm, so it has more flexibility in the choice of penalties and loss functions and should scale better (to large numbers of samples).