予測パフォーマンスは、方法よりもデータアナリストの専門知識に依存していますか?


14

予測モデルのパフォーマンスは、メソッドの選択よりも、選択したメソッドを使用するデータアナリストの専門知識に依存しているという調査結果があるという噂があります。
言い換えれば、データ分析者が選択された方法に精通していることが、より理論的な観点から問題に対してどのように「適切」に見えるかよりも重要であるという主張です。

これはケモメトリックスのコンテキストで言及されており、通常、多くの変量(100から1000 s)、多重共線性、そしてもちろんサンプルが少なすぎるという問題を伴います。予測は分類または回帰である可能性があります。

私の個人的な経験は、これはもっともらしいことを示唆しているが、研究が言及された(私はそれを電子メールでそれを言及した人に素早くしかし失敗した検索の後に尋ねたが、何の答えも受け取らなかった)。しかし、より精巧な検索でも、論文を追跡することはできませんでした。

誰もそのような発見を知っていますか?そうでない場合、ここのBig Guysの個人的な経験は何を言いますか?


1
私はこの辺りのリトルガイですが、ニューラルネットワークで私が見たものはこの仮説を支持しています。「機械が何かを学ぶ」「すぐに使える」ツールではなく、分類や予測の成功は多くの最も重要な前処理データの面ではなく、などのネットワークアーキテクチャの観点から-人はそれがデータから学ぶためにどのようにネットワークに指示がどのようにスマートに
ステファンKolassa

1
統計学習の要素の図2.4で、最も近い隣人を回帰型の方法と比較していると思います(もちろん、本全体で複数の比較ポイントも提供しています)。
StasK

@StasK:リマインダーをありがとう(覚えていないのは恥だ)。また、実際のP​​CR、PLSおよびリッジ回帰は非常に類似しており、LDAおよびロジスティック回帰も同様であると報告しています。ただし、後者の方法も理論的な観点から非常に似ています。
cbeleitesはモニカをサポートします

回答:


1

実際、私は人間の傾向がバイアスを犠牲にして分散を最小化することであるため、まともな学習マシンは通常エキスパートよりも優れているという噂を聞きました(過剰な平滑化)。これにより、新しいデータセットの予測パフォーマンスが低下します。マシンはMSEを最小化するように調整されているため、新しいデータセットでの予測に関してはより良い結果をもたらす傾向があります。


1
私の経験では、人間が過剰になりがちであることは確かに真実です。ただし、私の経験では、過負荷でない学習マシンを選択する適切な専門家も必要です。それ以外の場合は、誰かが過剰な学習マシンを選択するだけです。
cbeleitesはモニカをサポートします

1
一般的にMSEは、モデルをあまり制限しない限り、過剰適合から保護しません-そして、そこに専門家が再び入ります。それにもかかわらず、人々は、例えばモデルのハイパーパラメータを最適化しようとします。特に反復最適化戦略は、各反復で完全に新しい独立したテストデータのセットを購入する余裕がない限り、過剰適合(MSEであるかどうかに関係なく)です。たぶん、私はテストケースが非常にまれな分野から来ていると言うべきです。そして、いずれにせよ、これはまともな学習マシンではないと主張するかもしれません。
cbeleitesは、モニカをサポートします
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.