あなたの質問へのコメントが指摘するように、より良いものを見つけることに取り組んでいる多くの人々がいます。しかし、@ joshが残したコメントを展開して、この質問に答えたいと思います。
すべてのモデルは間違っていますが、一部のモデルは便利です (Wiki)
上記の説明は、統計モデルの性質を説明するために使用される一般的な真実です。利用可能なデータを使用して、予測値の近似などの有用なことを実行できるモデルを作成できます。
たとえば、線形回帰
多数の観測値を使用して、独立変数の任意の値が与えられた場合に、従属変数の近似値を与えるためにモデルを近似できます。
バーナム、KP; Anderson、DR(2002)、Model Selection and Multimodel> Inference:A Practical Information-Theoretic Approach(2nd ed。):
「モデルは現実の単純化または近似であり、すべての現実を反映するわけではありません。...ボックスは「すべてのモデルは間違っていますが、一部は有用です。」と述べました。非常に有用なものから有用なもの、やや有用なもの、最終的には本質的に役に立たないものまでランク付けされます。」
モデルからの偏差(上の画像に見られるように)はランダムに見え、一部の観測値は線より下にあり、一部は上にありますが、回帰線は一般的な相関関係を示しています。モデルの偏差はランダムに見えますが、現実的なシナリオでは、この偏差の原因となる他の要因があります。たとえば、ジャンクションを通り抜ける車を見て、左または右に曲がり続ける必要がある場合を考えてみましょう。車は特定のパターンで曲がりません。車が曲がる方向は完全にランダムであると言えますが、すべてのドライバーはジャンクションに到達し、その時点でどの方向に曲がるかをランダムに決定しますか?実際には、彼らはおそらく特定の理由で特定の場所に向かっているので、それぞれの車を止めて彼らの推論を尋ねることなく、彼らの行動をランダムとして記述することができます。
最小の偏差でモデルを適合させることができる場合、未知の、気付かない、または測定できない変数が、ある時点でモデルをスローしないことをどの程度確信できますか?ブラジルの蝶の羽ばたきは、テキサスの竜巻を引き起こしますか?
単独で言及した線形モデルとSVNモデルを使用する場合の問題は、変数とそれらが互いにどのように影響するかを手動で観察する必要があることです。次に、重要な変数を決定し、タスク固有のアルゴリズムを作成する必要があります。変数が数個しかない場合は簡単ですが、数千個ある場合はどうでしょうか?一般化された画像認識モデルを作成したい場合、このアプローチでこれを現実的に達成できますか?
ディープラーニングと人工ニューラルネットワーク(ANN)は、大量の変数(画像ライブラリなど)を含む巨大なデータセットの有用なモデルを作成するのに役立ちます。おっしゃるように、ANNを使用してデータに適合することができる理解できない数のソリューションがありますが、この数は、試行錯誤を繰り返して開発する必要があるソリューションの量と実際には異なりますか?
ANNのアプリケーションは多くの作業を行い、入力と目的の出力を指定し(後で調整して改善する)、ANNに任せて解決策を見つけます。これが、ANNがしばしば「ブラックボックス」と呼ばれる理由です。与えられた入力から、それらは近似値を出力しますが、(一般的な用語では)これらの近似値には、それらがどのように近似されたかの詳細は含まれません。
そのため、どのモデルアプローチがより有用かは問題によって決まるため、実際に解決しようとしている問題に帰着します。モデルは完全に正確ではないため、常に「間違った」要素がありますが、結果が正確であればあるほど有用です。近似がどのように行われたかについての結果をより詳細に把握することも有用です。問題によっては、精度を上げるよりもさらに役立つ場合があります。
たとえば、個人のクレジットスコアを計算する場合、回帰とSVMを使用すると、より詳細に調査できる計算が提供されます。モデルを直接調整し、個別の独立変数が全体のスコアに与える影響を顧客に説明できることは非常に便利です。ANNは、より正確なスコアを達成するために大量の変数を処理するのに役立ちますが、この精度はより有用ですか?