機械学習手法を使用して予測モデルを構築する場合、探索的データ分析(EDA)を行うポイントは何ですか?フィーチャの生成とモデルの構築に直接ジャンプしても大丈夫ですか?EDAで使用される記述統計はどのように重要ですか?
機械学習手法を使用して予測モデルを構築する場合、探索的データ分析(EDA)を行うポイントは何ですか?フィーチャの生成とモデルの構築に直接ジャンプしても大丈夫ですか?EDAで使用される記述統計はどのように重要ですか?
回答:
少し前まで、私はデータサイエンスの職に就くための面接の仕事をしていました。データセットが与えられ、数時間の制限時間で、他の変数が与えられた特定のバイナリ変数を予測する予測モデルを構築するように依頼されました。
各変数を順に調べ、グラフ化し、要約統計量を計算しました。数値変数間の相関も計算しました。
私が見つけたものの中には:
私のポイントは、これらがモデルを構築しようとする前に人々がそれらに気付くかどうかを見るために意図的に入れられたものだったということです。会社はそれらを実際の生活の中で起こりうる種類のものであり、モデルのパフォーマンスに大きく影響するので、それらを入れました。
そのため、機械学習を行う際にはEDAが重要です!
明らかに、はい。
データ分析は、予測モデルを傷つける多くのポイントにつながる可能性があります。
量的データについて話していると仮定すると、列を無視するか(データが多すぎる場合)、「デフォルト」値(平均、モードなど)を把握するかを決定する必要があります。最初にデータを調査せずにこれを行うことはできません。
あなたはかなり強く相関しているデータを持っていると言うが、あるデータの2%がある方法で、この相関オフは。このデータを完全に削除して、予測モデルに役立てることができます。
OK、これは私の以前のポイントと少し矛盾していますが、英語は私のメイン言語ではないので、理解していただければ幸いです。
馬鹿げた例を取り上げWidth, Length, Area
ます。サッカーのスタジアムデータセットを分析し、パラメーターとして持っているとします。さて、これら3つのパラメーターが強く相関していることは容易に想像できます。列間の相関が多すぎると、予測モデルが間違った方向に導かれます。1つ以上のパラメーターをフラッシュすることもできます。
小さなタイタニックカッグルの「コンペティション」の例を取り上げます。人の名前を見ると、その人の特徴を抽出できることがわかりますTitle
。この機能は、モデリングに関して非常に重要であることが判明しましたが、最初にデータを分析しなかった場合は見逃していたでしょう。
連続データがより適切だと感じたり、連続フィーチャをカテゴリカルフィーチャに変更したりするため、連続データをビン化することができます。
今はプロットを描くことができませんが、これを簡単な例にしましょう。
1つの機能列と1つのバイナリ(0または1のみ)「結果」列を持つ小さなモデルがあるとします。このデータセットの予測分類モデルを作成します。
もう一度例として、それをプロットする場合(soo、データを分析する)、プロットが1の値の周りに完全な円を形成することに気付くかもしれません。このようなシナリオでは、DNNに直接ジャンプする代わりに、多項式分類子を使用して優れたモデルを作成できることは明らかです。(明らかに、私の例には2つの列しかないことを考えると、優れた例にはなりませんが、ポイントを得ることができます)
全体的に、最初にデータを確認しないと、予測モデルのパフォーマンスが期待できない。
EDAが行う重要なことの1つは、データ入力エラーやその他の異常ポイントを見つけることです。
もう1つは、変数の分布が近似しようとするモデルに影響を与える可能性があることです。
以前は化学のフレーズがありました。
「ラボで2週間過ごすと、Scifinderで2時間節約できます」。
同じことが機械学習にも当てはまると思います。
「ニューラルネットのトレーニングに2週間を費やすことで、入力データを見るのに2時間節約できます。」
これらは、MLプロセスを開始する前に経験することです。
これらの基本的な手順を超えて、MLプロセスを適用する前にデータを確認するのに余計な時間を費やすことはありません。既に多数の変数がある場合、それらの複雑な非線形の組み合わせは、見つけるだけでなく、プロットして理解することがますます難しくなります。これは、コンピューターが最もよく処理するものです。
モデリング段階でのエラーは別として、最初にEDAを実行せずに予測を試みた結果として考えられる結果は3つあります。
データの問題を解決するには、かなりの時間と労力がかかります。例えば:
このような問題を早期に特定できれば、プロジェクトを軌道に乗せ、期限内に完了し、クライアントを満足させる可能性が高くなります。
[descriptive-statistics]
タグも含めます。最後の質問は、記述統計が重要かどうかです。この文脈では、EDAについて言及するときに、さまざまな記述統計を計算するだけですか、それとも記述統計とEDAの両方について質問していますか?多くの人々(私を含む)がEDAを単なる説明的な統計以上のものと考えているので、私は尋ねます。