機械学習アルゴリズムで正しく理解できた場合、モデルはその経験から学習する必要があります。つまり、モデルが新しいケースに対して間違った予測を与える場合、モデルは新しい観測に適応する必要があり、やがてモデルはますます良くなります。ロジスティック回帰にはこの特性があるとは思えません。では、なぜ機械学習アルゴリズムと見なされているのでしょうか?「学習」という用語でのロジスティック回帰と通常の回帰の違いは何ですか?
ランダムフォレストについても同じ質問があります!
そして、「機械学習」の定義は何ですか?
機械学習アルゴリズムで正しく理解できた場合、モデルはその経験から学習する必要があります。つまり、モデルが新しいケースに対して間違った予測を与える場合、モデルは新しい観測に適応する必要があり、やがてモデルはますます良くなります。ロジスティック回帰にはこの特性があるとは思えません。では、なぜ機械学習アルゴリズムと見なされているのでしょうか?「学習」という用語でのロジスティック回帰と通常の回帰の違いは何ですか?
ランダムフォレストについても同じ質問があります!
そして、「機械学習」の定義は何ですか?
回答:
機械学習は明確に定義された用語ではありません。
実際、「機械学習の定義」をGoogleで検索すると、最初の2つの結果はまったく異なります。
WhatIs.comから、
機械学習は人工知能(AI)の一種であり、明示的にプログラムしなくてもコンピューターに学習機能を提供します。機械学習は、新しいデータにさらされたときに成長と変化を身に付けることができるコンピュータープログラムの開発に焦点を当てています。
ウィキペディアから、
機械学習では、データから学習して予測を行うことができるアルゴリズムの構築と研究を検討します。
ロジスティック回帰は間違いなくウィキペディアの定義に適合し、それがWhatIsの定義に適合するかどうかを議論することができます。
私は個人的にウィキペディアと同じように機械学習を定義し、統計のサブセットと考えています。
機械学習は熱く、そこにお金があります。人々は、現在売れているものを売ろうとしているものを「売る」と呼びます。それはソフトウェアを販売することができます。それは、昇進しようとする現在の従業員、将来の従業員、コンサルタントなどとして自分自身を売ることができます。機械学習を改善したセクスティングアプリを作成するための鍵となる、彼/彼女のホットな新しいスタートアップ。ソフトウェアは機械学習を行うものであり、人々は機械学習の専門家です。なぜなら、それが注目されているため、少なくとも今のところは売れているからです。
30年以上前に、あらゆる種類の線形および非線形統計モデルのフィッティングを行いました。当時は機械学習と呼ばれていませんでした。今では、そのほとんどがそうです。
全員とその叔父がデータの「科学者」になったように。それは暑い、それはおそらくセクシーだから、それは人々が自分自身と呼ぶものです。そして、それは、誰かがポジションをリストするのを雇うために予算を承認されなければならない採用マネージャーです。そのため、数学、確率、統計、最適化、または数値/浮動小数点計算に関する最初のことを知らない人は、実装の疑わしい正確さと堅牢性のRまたはPythonパッケージを使用し、機械学習アルゴリズムとしてラベル付けされます。理解していないデータに適用し、その経験に基づいて自分自身をデータサイエンティストと呼びます。
これは軽快に聞こえるかもしれませんが、私はそれが状況の本質であると信じています。
編集: 2019年9月26日に以下がツイートされました:
https://twitter.com/daniela_witten/status/1177294449702928384
Daniela Witten @daniela_witten「資金を調達するときはAIであり、採用するときは機械学習であり、作業を行うときはロジスティック回帰です。」
(誰がこれを思いついたのか分かりませんが、それは宝石です💎)
他の人がすでに述べたように、統計、機械学習、人工知能などの間には明確な分離がないので、一粒の定義を定義してください。ロジスティック回帰は、おそらく機械学習ではなく統計としてラベル付けされることが多いでしょう。一方、ニューラルネットワークは通常、機械学習としてラベル付けされます(ニューラルネットワークは多くの場合、ロジスティック回帰モデルの単なるコレクションです)。
私の意見では、機械学習は何らかの形でモデルを構築することにより、データから何らかの形で学習できる方法を研究しています。SVM、ニューラルネットワーク、ランダムフォレスト、その他の多くの手法のようなロジスティック回帰は、モデルの構築時にデータから学習します。
機械学習アルゴリズムで正しく理解できた場合、モデルはその経験から学習する必要があります
それは実際に機械学習が通常定義される方法ではありません。すべての機械学習方法が、新しいデータに動的に適応するモデルを生成するわけではありません(このサブフィールドはオンライン学習と呼ばれます)。
「学習」という用語でのロジスティック回帰と通常の回帰の違いは何ですか?
多くの回帰法は、機械学習(SVMなど)にも分類されます。
ロジスティック回帰は、1958年に統計学者DR Coxによって発明されたため、機械学習の分野に先駆けて登場しました。ロジスティック回帰は分類方法ではありません、よろしくお願いします。これは直接的な確率モデルです。
アルゴリズムに2つのフェーズ(最初の推測、次に予測「エラー」を「修正」)が必要だと思われる場合は、これを考慮してください。つまり、加法(ロジット)モデルの空間で。ロジスティック回帰は、多くの機械学習手法の直接の競争相手であり、予測子が主に相加的に作用する場合(または主題の知識が相互作用を正しく事前に指定する場合)にそれらの多くより優れています。ロジスティック回帰を機械学習の一種と呼ぶ人もいますが、ほとんどはそうではありません。いくつかの機械学習法(ニューラルネットワークが例です)統計モデルを呼び出すことができます。
ここでの回答の大部分に反対し、機械学習を主張する必要があります範囲は非常に正確で、統計とは明確に区別されます。MLは長い歴史を持つコンピューターサイエンスのサブフィールドであり、最近ではドメイン外のアプリケーションが見つかっています。MLの父方のフィールドとアプリケーションドメインは、人工知能(ロボット、パターン認識ソフトウェアなど)内にあるため、「ビッグデータ」や「データサイエンス」のような「ホットな用語」ではありません。一方、統計(「状態」という言葉に由来する)は、機械ではなく人間のためのツールとして、社会科学および経済科学の中で開発されました。MLは統計とは別に進化し、統計原理に大きく依存し始めた途中のどこかでも、統計のサブフィールドではありません。MLと統計は補完的なものであり、重複するフィールドではありません。
長い答え:
その名前が示すように、MLメソッドはソフトウェア/マシン用に作成され、統計メソッドは人間用に作成されました。MLと統計の両方がデータの予測を処理しますが、MLメソッドはノンパラメトリック自動化アプローチに従いますが、統計メソッドは追加の説明要素を使用して大量の手動モデル構築作業を必要とします。これは、ロボットソフトウェアに統合されることを意図した自動化された予測作成の手段としてMLアルゴリズムがAI研究で開発されたと考える場合に完全に理にかなっています(音声認識や顔認識など)。「マシン」が予測を行うとき、その背後にある理由を気にしません。マシンは、電子メールをスパムまたは非スパムとして分類するモデルの背後にあるドライバー/予測子を知ることを気にせず、予測の精度が最高であることだけを気にします。ブラックボックス、それは彼らがモデルを持っていないからではありません、それはモデルがアルゴリズム的に構築され、人間にも機械にも見えないことを意図していないからです。
MLの「トレーニング」の概念は計算能力に依存していますが、パラメータ推定のためのOLSタイプの方法による統計モデルの構築は、人間の専門家の知識に依存しています。重回帰シナリオでは、モデルを選択し、必要なすべての統計的仮定を検証するために専門家の判断を使用するのは統計学者次第です。統計学者の目標は、パターンを見つけて予測に使用するだけでなく、MLよりもはるかに深くデータと問題を理解することです。
もちろん、多くの分野の場合のように、MLと統計が重複する場合があります。ロジスティック回帰はこれらの機会の1つです。もともと統計的手法であり、単純なパーセプトロン(最も基本的なML手法の1つ)と非常によく似ているため、ML手法と見なされる人もいます。
機械学習はかなり大まかに定義されており、ロジスティック回帰モデルだけでなく、回帰モデルもデータから「学習」すると考えるのは正しいことです。これが機械学習が本当に統計であるのか、統計が本当に機械学習であるのか、あるいはこれが重要なのかどうかは、よくわかりません。
ただし、一部のアルゴリズムは予測エラーから学習します。これは、エージェントが何らかのアクションを取り、その結果を観察し、その結果を使用して将来のアクションを計画する強化学習で特に一般的です。たとえば、ロボット掃除機は、すべての場所を同じ頻度で掃除する世界のモデルから開始し、汚れた場所(汚れを見つけることで「報われる」)を掃除し、場所を少なくすることを学習します。
オンラインまたは増分アルゴリズムは、新しいトレーニングデータで繰り返し更新できます。これは必ずしもモデルの予測精度に依存するわけではありませんが、たとえば、現在のモデルでは新しいデータが非常に低いと思われる場合、重みがより積極的に更新されるアルゴリズムを想像できます。ロジスティック回帰のオンラインバージョンがあります。たとえば、McMahan and Streeeter(2012)などです。
私はついにそれを理解しました。統計モデルのフィッティングと機械学習の違いがわかりました。
したがって、ロジスティック回帰を学習する場合、それは機械学習アルゴリズムです。
コメント:古いギーザーであることを容赦してください。しかし、モデルの学習や退行の学習について人々が話しているのを聞くたびに、ジェスロを「私は教育を学んだ」と思うようになります。
スレッドの終わり
ロジスティック回帰(より一般的にはGLM)は機械学習に属しません!むしろ、これらの方法はパラメトリックモデリングに属します。
パラメトリックモデルとアルゴリズム(ML)モデルはどちらもデータを使用しますが、方法は異なります。アルゴリズムモデルは、予測子が予測子にどのようにマッピングされるかをデータから学習しますが、観測値を生成したプロセスに関する仮定は行いません(実際には他の仮定も行いません)。彼らは、入力変数と出力変数の間の基礎となる関係は複雑で不明であると考えているため、正式な方程式を課すのではなく、データ駆動型アプローチを採用して何が起こっているかを理解します。
一方、パラメトリックモデルは、検討するプロセスの知識に基づいてアプリオリに処方され、データを使用してパラメーターを推定し、実際にはほとんど保持されない非現実的な仮定(独立、等分散、エラーの正規分布)。
また、パラメトリックモデル(ロジスティック回帰など)はグローバルモデルです。データ内のローカルパターンをキャプチャすることはできません(ツリーをベースモデルとして使用するMLメソッドとは異なり、たとえばRFやBoosted Trees)。このペーパー 5ページを参照してください。修復戦略として、ローカル(つまり、ノンパラメトリック)GLMを使用できます(たとえば、locfit Rパッケージを参照)。
多くの場合、基礎となる現象に関する知識がほとんどない場合、データ駆動型のアプローチを採用し、アルゴリズムモデリングを使用することをお勧めします。たとえば、入力変数と出力変数の相互作用が線形でない場合にロジスティック回帰を使用すると、モデルは明らかに不適切になり、多くの信号がキャプチャされません。ただし、プロセスが十分に理解されている場合、パラメトリックモデルには、すべてを要約する公式の方程式を提供するという利点があり、これは理論的な観点から強力です。
より詳細な議論については、Leo Breimanによるこの素晴らしい論文を読んでください。
他の答えは、機械学習が何であるかを特定するのに良い仕事をしていると思います(彼らが示すように、それはファジーなものになる可能性があります)。ロジスティック回帰(およびより一般的な多項バージョン)は、人工ニューラルネットワークで分類を実行する手段として非常に一般的に使用されます(選択した賢明な機械学習定義によって明確にカバーされると思います)。ニューラルネットの人へのロジスティック回帰は、このコンテキストですぐに考えられるでしょう。機械学習でヘビーヒッターに縛られるのは、自分で機械学習手法になるための良い方法です。適切な機械学習手法であることを軽視することはできませんが、さまざまな回帰手法である程度は起こったと思います自分自身で。
それはほとんどの人がする非常に一般的な間違いであり、私はここでそれを見ることができます(ほとんどの人によって行われます)。詳しく説明しましょう... モデルのパラメーター(シータ)を推定するために使用している方法に依存します。線形回帰とロジスティックregでモデルパラメーターを見つけるには2つの方法があります。
勾配降下法:ここでは、ランダムな値をパラメーターに割り当て、コスト関数(エラー)を見つけることから始めます。各反復で、パラメーターを更新し、コスト関数を最小化します。一定回数の反復の後、コスト関数は目的の値に減少し、対応するパラメーター値が最終値になります。これは、機械学習技術が行うことになっていることです。そのため、勾配降下法を使用している場合、ロジスティック回帰は機械学習法として呼び出すことができます。
最小二乗法を使用する方法:ここでは、正規方程式として知られているパラメーターを見つけるための直接式があります(この式の導出を理解するには、いくつかの行列代数が必要です)。

ここで、bはXが設計マトリックスであるパラメーターを表します。どちらの方法にも独自の利点と制限があります。詳細を取得するには、まだ実行中のコースラ機械学習コースに従ってください。
この投稿が参考になることを願っています.. :-)