自動機械学習は夢ですか?


12

機械学習を発見すると、次のようなさまざまな興味深い手法が見つかります。

  • 以下のような技術を用いて自動的に調整アルゴリズムgrid search
  • 同じ「タイプ」の異なるアルゴリズムの組み合わせにより、より正確な結果を取得します。つまりboosting
  • 異なるアルゴリズムの組み合わせにより、より正確な結果を取得します(ただし、同じタイプのアルゴリズムではありません)。つまりstacking
  • おそらくもっと多くのことを発見する必要があります...

私の質問は次のとおりです。すべてのそれらの部分があります。しかし、それらをまとめて、すべての手法の中で最善のものを使用して、入力としてクリーンなデータを取得し、良好な結果を出力するアルゴリズムを作成することは可能ですか?(もちろん、プロのデータサイエンティストほど効率的ではありませんが、私よりも優れています!)はいの場合、サンプルコードを持っていますか、それを実行できるフレームワークを知っていますか?

編集:いくつかの答えの後、いくつかの絞り込みを行う必要があるようです。例を見てみましょう。カテゴリデータを含む1つの列があり、それyを呼び出して、Xダミーまたは実際の数値データ(高さ、温度)のいずれかである数値データから予測したいとします。クリーニングは以前に行われたものと想定しています。そのようなデータを取得して予測を出力できる既存のアルゴリズムはありますか?(複数のアルゴリズムのテスト、チューニング、ブースティングなど)はいの場合、計算は効率的ですか(通常のアルゴリズムと比較した場合、計算は妥当な時間内に行われますか)、コードの例はありますか?


1
おそらく強力なAIができるまではそうではありません。
GUNG -復活モニカ

1
自動チューニングに関しては、機械学習のハイパーパラメーター検索に関する記事に興味があるかもしれません。グリッド検索は、ハイパーパラメーターを最適化するひどい方法です。
マーククレセン

2
くださいあなたは 持っているので、多く使用するように書式設定を
シコラックスは、Reinstate Monica

2
あなたが説明したことを行うと主張する製品、例えばクリスタルボールがあります。私は個人的にそれらを信用していませんが、あなたが書いたように:彼らは統計について何の手がかりも持たない誰かよりも仕事をします
Aksakalはほぼ確実に

1
auto.arimaforecastライブラリからの)予測については、人間よりも優れている可能性があります-Rob Hyndmanはプレゼンテーションで何度か言及しています。そのため、ある種の「自動学習」が成功して適用される分野があります。
ティム

回答:


7

フィードするデータの種類が事前にわかっている場合(「これらはCPGの月間売上、価格とプロモーションマーカー、およびポイント予測が必要です」)、事前にセットアップを調整できます。可能かつ既に行われている、特定の特定のタスクについては、さまざまな「エキスパートシステム」を参照してください。

あなたは、あらゆる種類のデータを取り、それを持つ「有用な何かが」( "ああ、ここで私が手書きし、出力ZIPコードを認識することが出来るのです、と私は不正検出し、この入力ファイルをそこに行う必要があります行うことができる何かを探しているなら、明らかにクレジットスコアリングタスクです」)、いいえ、私はそれが長い時間で起こるとは思わない。

意見に基づく質問として閉じられる可能性のあるものに対する意見に基づく回答を申し訳ありません。


編集して、編集した質問に対処します。

yバツ

y


あなたのおかげで私の質問を編集しました。最初の部分は「何でも入力して結果を投げてください」であり、あなたの答えは非常に洞察に富んでいます。結果"。
-Pholochtairze

さまざまな問題に関するディープラーニングの大成功を考えると、最後の段落がまだ当てはまるかどうかはわかりません。これらのメソッドは間違いなく汎用ですが、コンピュータービジョンやNLPなどのいくつかのアプリケーションドメインで記録を保持しています。アーキテクチャはタスクごとに異なると主張するかもしれませんが、理論レベルでは、完全に接続されたディープネットワークは、たとえば畳み込みネットワークと少なくとも同等のパフォーマンスを発揮します。
マーククレセン

@MarcClaesen:「適切なトレーニング方法がとらえどころのないことだけだ」と言うのは、ドメイン固有の専門知識がまだ必要だという点です。
ステファンKolassa

7

あなたが説明するものは、例えばAutoWEKAにすでにある程度存在し、積極的に再調査されています(例えば、ChalearnのAutoMLのような課題)。

これは通常、ハイパーパラメーター最適化のサブフィールドで考慮されます。OptunityHyperoptParamILSなどのソフトウェアパッケージを使用して、特定のアプローチのハイパーパラメーターを自動的に最適化し、最適なアプローチ選択できます。ただし、このような最適化の問題は簡単ではなく、通常、最適なモデル(またはそれに近いモデル)を自動的に取得するには長い時間がかかります。

あなたは、自動的に最適な学習アルゴリズムを決定するためにOptunityの使用例を見つけることができますし、でそのハイパーを最適化http://optunity.readthedocs.org/en/latest/notebooks/notebooks/sklearn-automated-classification.html


4

ハイパーパラメーターチューニングとアンサンブルモデルの進歩により、モデル構築から多くの「技術」が取り除かれています。ただし、モデルの構築には2つの重要な側面があり、ハイパーパラメーターチューニングとアンサンブルでは対処しないため、最適なモデルを見つけることができません。

まず、特定の種類のアルゴリズムは、特定の種類のデータのモデリングに適しています。たとえば、変数間に相互作用がある場合、加法モデルはそれらを検出しませんが、決定木は検出します。モデルがさまざまなデータセットでどのように動作するかを知り、正しいデータセットを選択するには、ドメインに関する知識が必要な場合があります。

第二に、フィーチャエンジニアリングとフィーチャ抽出は、モデル作成の本当の「芸術」です。あなたの質問は、データセットがすでに準備されていることを前提としています。しかし、想定してはならないのは、データセットがモデル化しようとしているものの可能な限り最良の表現であるということです。これは常に未解決の問題です。データセットが複雑な多くの場合、1日中機能を設計できますが、アルゴリズムにノイズを追加するリスクが高まります。どの機能を追加するかを知るには、統計の観点から意味のある機能と、ドメインエキスパートの観点から意味のある機能を知る必要があります。

これらの2つの理由から、いいえ、あなたは可能な限り最良のモデルを自動的に見つけるアルゴリズムを見つけることができないと結論します。これが、データサイエンティストの必要性を置き換えるツールを売り込むソフトウェアベンダーに懐疑的である理由でもあります。

ただし、最適なハイパーパラメーターを使用して、固定されたモデルのセットから最適なモデルを見つけることに野心を絞り込んでいる場合、トレーニングセットで最高の予測精度として「最高」が定義されている場合は、可能です。

モデルを自動的に調整する方法の例として、caretパッケージをご覧くださいRcaret欠陥のあるグリッド検索を使用し、一度に1つのモデルのみを構築します。ただし、多くの異なるパッケージのモデルの長いリストのモデルと便利なラッパーを比較する関数がありRます。


私たちは完全に自動化された機械学習からはまだ遠いですが、あなたが指定した理由ではないことに同意します。2つのこと:(i)所定のセットから最適なモデルを見つける(+そのハイパーパラメーターを最適化する)こと既に可能です。現在不足している主なものは、事前知識と分野固有の常識を組み込む自動化された方法です。
マーククレセン

「事前知識と分野固有の常識」がMLプロセスをどのように改善できるかは、(i)最適なモデルを見つけ、(ii)最適な機能を見つけるのを助けることを除いてはわかりません。2番目から最後の段落で、真のモデルと最適な(最大精度)モデルを区別しようとしました。
brandco

誤ったラベルや情報漏えい、欠落データへの対処方法、実際の学習タスクの識別(+適切なスコア/損失関数)などのモデリングプロセスの明らかな欠陥を発見し、通常は完全なデータクリーンアップ(常に私が関与してきたすべての実用的な問題の主な努力でした)。
マーククレセン

2

あなたが尋ねる人に依存します。

最近、Context RelevantでScott Golderの講演を聞きました。彼らの製品は本質的に機能とモデル選択ロボットです。基本的な基礎モデルはロジスティック回帰ですが、システムは基本的に機械学習を使用して、正確な予測を生成するための特徴選択、次元削減、正則化などの正しい組み合わせを見つけ出します。それは非常に印象的な話であり、詳細はすべて非常に独占的です。どうやら彼らのクライアントには大手金融会社が含まれており、システムは任意の大規模なデータセットを処理できます。

少なくとも一部の人々は、少なくとも特定のアプリケーションについては、自動化されたデータサイエンスがすでに存在していると考えているようです。そして、それらの人々の何人か(Context Relevantのクライアント)は、明らかに、そのアクセスのために鼻から支払いをしています。


1

いいえ、それは夢ではありません。H2O機械学習ライブラリでこれを実装しました(スタックアンサンブルを含む、あなたが言及したすべての手法の組み合わせ)。RとPythonのコード例については、こちらをご覧ください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.