統計とビッグデータ machine-learning

6

Al Rahimiは最近、NIPS 2017で現在の機械学習とAlchemyを比較する非常に挑発的な講演を行いました。彼の主張の1つは、基本的な結果を証明する簡単な定理を得るために、理論的な発展に戻る必要があるということです。彼がそれを言ったとき、私はMLの主要な定理を探し始めましたが、主要な結果を理解する良い参照を見つけることができませんでした。だからここに私の質問があります：ML / DLの現在の主要な数学的定理（理論）とは何ですか？Vapnikの仕事はここのどこかに行くと思います。余分に、主な理論上の未解決の問題は何ですか？

45 machine-learning deep-learning theory

2

サポートベクターマシン用の線形カーネルと非線形カーネル？

サポートベクターマシンを使用する場合、RBFのような線形カーネルと非線形カーネルの選択に関するガイドラインはありますか？特徴の数が多くなると、非線形カーネルはうまく機能しない傾向があると聞いたことがあります。この問題に関する参照はありますか？

45 machine-learning classification svm references kernel-trick

8

すべてのモデルは役に立ちませんか？正確なモデルは可能ですか？または有用ですか？

この質問は、1か月以上にわたって私の頭の中で悩まされてきました。Amstat Newsの 2015年2月号には、バークレー教授Mark van der Laanによる不正確なモデルの使用をforる記事が掲載されています。彼は、モデルを使用することで、統計は科学ではなく芸術になると述べています。彼によると、いつでも「正確なモデル」を使用でき、そうしないと「厳密性の欠如...データサイエンスにおける私たちの表現が取り残されてしまうのではないか」と心配しています。私たちは疎外される危険にさらされていることに同意しますが、脅威は通常、おおよその方法を使用していないが、実際にはその方法がはるかに少ないと主張する人（ファンデルラーン教授のように聞こえます）慎重に適用された統計モデルよりも厳密です。 Van der Laan教授は、Boxのよく使われる引用を繰り返している人々に対して「すべてのモデルは間違っているが、一部は有用である」と軽ratherしていると言ってもいいと思います。基本的に、私がそれを読んだとき、彼はすべてのモデルが間違っていて、すべてが役に立たないと言っています。今、私はバークレーの教授に反対するだろうか？一方、私たちの分野の本当の巨人の一人の意見をそれほど軽んじて却下するのは誰ですか？詳述すると、ファンデルラーン博士は、「すべてのモデルが間違っていると述べるのは完全にナンセンスです。たとえば、仮定を行わない統計モデルは常に正しい」と述べています。「しかし、多くの場合、私たちはそれよりもはるかに優れた結果を得ることができます。データは、独立した同一の実験の結果であることがわかります。非常に狭いランダムサンプリングまたは制御された実験設定を除いて、どのようにそれを知ることができるかわかりません。著者は、「機械学習/データ適応推定の最新技術、因果推論、打ち切りデータ、効率性、経験的経験のすべてを統合する、目標最尤学習と目標最小損失ベース学習の研究を指摘しています。正式な統計的推論を提供しながら、プロセス理論。」nnn 私が同意する声明もいくつかあります。彼は、私たちの仕事、統計学者としての役割、そして科学協力者を真剣に受け止める必要があると言います。聞いて聞いて！科学的な質問に答えることが適切かどうか、またはデータに適合するかどうかを慎重に検討せずに、人々が日常的にロジスティック回帰モデルなどを使用する場合、それは確かに悪いニュースです。そして、私はこのフォーラムに投稿された質問でそのような虐待の多くを見ています。しかし、パラメトリックなモデルであっても、不正確なモデルの効果的で価値のある使用法も見ています。そして、彼の言うこととは反対に、私はめったに「別のロジスティック回帰モデルによって死に退屈する」ことはありません。これが私の素朴さだと思います。だからここに私の質問があります：まったく仮定を行わないモデルを使用して、どのような有用な統計的推論を行うことができますか？対象の最尤法を使用した重要な実際のデータを使用したケーススタディはありますか？これらの方法は広く使用され、受け入れられていますか？すべての不正確なモデルは本当に役に立たないのですか？あなたが些細な場合以外の正確なモデルを持っていることを知ることは可能ですか？これがあまりにも意見に基づいているため、トピックから外れている場合、どこで議論できますか？ファン・デル・ラーン博士の記事は間違いなく議論が必要だからです。

45 machine-learning maximum-likelihood modeling nonparametric parametric

4

他の機能マップを作成するために、機能マップにカーネルをどのように適用しますか？

畳み込みニューラルネットワークの畳み込み部分を理解しようとしています。次の図を見てください。 4つの異なるマップ（サイズ）がある最初の畳み込み層を理解するのに問題はありません。これは、入力画像と畳み込んで4つの特徴マップを取得します。k×kk×kk \times k 私が理解できないのは、次の畳み込み層で、4つのフィーチャマップから6つのフィーチャマップに移動します。このレイヤーに6つのカーネルがあると想定しています（その結果、6つの出力機能マップが提供されます）が、これらのカーネルはC1に示されている4つの機能マップでどのように機能しますか？カーネルは3次元ですか、それとも2次元であり、4つの入力フィーチャマップにわたって複製されていますか？

44 machine-learning neural-networks deep-learning conv-neural-network

6

最新の統計/機械学習で多重共線性がチェックされないのはなぜですか

従来の統計では、モデルの構築中に、分散インフレーション係数（VIF）の推定などの方法を使用して多重共線性をチェックしますが、機械学習では、代わりに特徴選択に正則化を使用し、特徴が相関しているかどうかをチェックしないようですまったく。なぜそうするのですか？

44 regression machine-learning multicollinearity regularization vif

13

機械学習はSHA256ハッシュをデコードできますか？

64文字のSHA256ハッシュがあります。ハッシュの生成に使用される平文が1で始まるかどうかを予測できるモデルをトレーニングしたいと考えています。これが「可能」かどうかに関係なく、どのアルゴリズムが最良のアプローチでしょうか？私の最初の考え： 1で始まるハッシュの大きなサンプルと1で始まらないハッシュの大きなサンプルを生成しますハッシュの64文字のそれぞれを、ある種の教師なしロジスティック回帰モデルのパラメーターとして設定します。モデルが正しいか間違っているかを伝えることでモデルを訓練します。プレーンテキストが1で始まるかどうかを十分に高い精度で（および適切なカッパで）予測できるモデルを作成できることを願っています

43 machine-learning logistic

3

強化学習における割引要因の役割を理解する

私は強化学習について学び、割引報酬の概念を理解しようとしています。そのため、システムに状態とアクションのペアのどちらが良いか、どれが悪いかを伝えるために報酬が必要です。しかし、私が理解していないのは、割引報酬が必要な理由です。後で良い状態に到達するのではなく、すぐに到達するかどうかが重要なのはなぜですか？これはいくつかの特定の場合に関連することを理解しています。たとえば、株式市場で取引するために強化学習を使用している場合、利益を遅らせるよりも早くする方がより有益です。これは、そのお金を持っていることで、そのお金で今やることができるようになるためです。しかし、ほとんどの場合、割引が役立つ理由はわかりません。たとえば、障害物と衝突した場合にペナルティがある反対側に到達するために、部屋の周りをナビゲートする方法をロボットに学習させたいとしましょう。割引要因がなければ、障害物と衝突することなく、完全に反対側に到達することを学習します。そこに着くまでに長い時間がかかるかもしれませんが、最終的にはそこに着くでしょう。しかし、報酬に割引を与えると、途中で物体と衝突しなければならない場合でも、ロボットは部屋の反対側にすばやく到達することが奨励されます。これは明らかに望ましい結果ではありません。確かに、ロボットを反対側にすばやく到達させたいのですが、途中でオブジェクトと衝突する必要がある場合はそうではありません。ですから、私の直感では、どのような形の割引率も、実際には次善の解決策につながるということです。そして、割引率の選択はしばしばarbitrary意的に思えます-私が見た多くの方法は単にそれを0.9に設定しました。これは私には非常に素朴なように見え、最適なソリューションと最速のソリューションの間の任意のトレードオフを与えるように見えますが、実際にはこのトレードオフは非常に重要です。誰かが私にこのすべてを理解するのを手伝ってくれますか？ありがとうございました：）

43 machine-learning reinforcement-learning

2

ニューラルネットワークのmaxoutとは何ですか？

ニューラルネットワークのmaxoutユニットが何をするのか説明できますか？彼らはどのように機能し、従来のユニットとどのように違いますか？ Goodfellow らによる 2013年の「Maxout Network」ペーパーを読みました。（ヨシュアベンジオ教授のグループから）、しかし、私はそれをよく理解していません。

42 machine-learning neural-networks

5

機械学習は因果関係の理解にはあまり役に立たないので、社会科学にはあまり興味がありませんか？

機械学習/その他の統計的予測手法と社会科学者（例：エコノミスト）が使用する統計の種類の違いについての私の理解は、エコノミストが単一または複数の変数の効果を理解することに非常に興味を持っているように見えることです。大きさと関係が因果関係であるかどうかの検出。このため、あなたは実験的および準実験的方法などで自分自身に関わることになります。予測的である機械学習または統計モデリングは、この側面をしばしば完全に無視し、多くの場合、1つの変数が結果に影響する特定の程度を与えません（ロジットとプロビットは両方を行うようです）。関連する質問は、新しいドメインを予測する際に、理論的に示唆された経済モデルまたは行動モデルが理論モデルよりもどの程度有利であるかということです。機械学習または予測指向の統計学者は、経済モデルがなければ、共変量が非常に異なる新しいサンプルを正しく予測することはできないという批判に対して何を言うでしょうか。あらゆる観点からこれについての人々の意見を聞いて本当にうれしいです。

42 machine-learning econometrics

6

なぜダウンサンプリングするのですか？

電子メールがスパムかどうかを予測する分類子を学習したいとします。そして、メールの1％のみがスパムであるとします。最も簡単な方法は、メールはどれもスパムではないという単純な分類法を学ぶことです。この分類子は99％の精度を提供しますが、興味深いことは何も学習せず、100％の誤検出率を持ちます。この問題を解決するために、人々は「ダウンサンプル」するか、例の50％がスパムであり、50％がスパムではないデータのサブセットで学習するように私に言っています。しかし、このアプローチを心配しています。この分類子を構築して、実際の電子メールのコーパスで使用を開始すると（50/50テストセットではなく）、多くの電子メールがスパムであると予測される可能性があるためです本当にない。データセットに実際に存在するよりもはるかに多くのスパムを見ることに慣れているからです。それでは、この問題をどのように修正するのでしょうか？（「アップサンプリング」、または肯定的なトレーニングの例を複数回繰り返して、データの50％が肯定的なトレーニングの例になるようにすると、同様の問題が発生するようです。）

42 machine-learning classification

2

パンダ/ Statsmodel / Scikit-learn

パンダ、Statsmodels、およびScikitは、機械学習/統計操作の異なる実装を学習していますか、またはこれらは相互に補完的ですか？どれが最も包括的な機能を備えていますか？積極的に開発および/またはサポートされているのはどれですか？ロジスティック回帰を実装する必要があります。これらのどれを使用すべきかについての提案はありますか？

41 machine-learning python scikit-learn statsmodels pandas

5

実用的なハイパーパラメーター最適化：ランダム検索とグリッド検索

私は現在、BengioとBergstaのハイパーパラメーター最適化のためのランダム検索[1]を行っています。著者は、ランダム検索がグリッド検索よりもほぼ同等のパフォーマンスを達成する上で効率的であると主張しています。私の質問は次のとおりです。ここの人々はその主張に同意しますか？私の仕事では、ランダム検索を簡単に実行できるツールが不足しているため、主にグリッド検索を使用しています。グリッド対ランダム検索を使用している人々の経験は何ですか？

41 machine-learning hyperparameter optimization

1

エラー対策の解釈方法は？

Wekaで特定のデータセットに対して分類を実行していますが、公称値を予測しようとすると、出力に正確に予測された値と誤って予測された値が明確に表示されることに気付きました。ただし、現在は数値属性に対して実行しており、出力は次のとおりです。 Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 これをどうやって解釈しますか？私はそれぞれの概念をグーグルで試しましたが、統計は私の専門分野ではまったくないため、あまり理解していません。統計の観点からELI5タイプの回答をいただければ幸いです。

41 machine-learning error weka mse rms

1

softmax_cross_entropy_with_logitsはsoftmax_cross_entropy_with_logits_v2とどう違うのですか？

具体的には、私はこの声明について疑問に思うだろう： TensorFlowの将来のメジャーバージョンでは、デフォルトでbackpropのラベル入力に勾配が流れるようになります。を使用すると表示されますtf.nn.softmax_cross_entropy_with_logits。同じメッセージの中で、それを見ることを促しますtf.nn.softmax_cross_entropy_with_logits_v2。私はドキュメントを調べましたが、それは次のことだけを述べていtf.nn.softmax_cross_entropy_with_logits_v2ます：バックプロパゲーションは、ロジットとラベルの両方に発生します。ラベルへの逆伝播を禁止するには、この関数にフィードする前にstop_gradientsにラベルテンソルを渡します。反対に、tf.nn.softmax_cross_entropy_with_logits「S：バックプロパゲーションはロジットにのみ発生します。件名が非常に新しいので（基本的なチュートリアルを進めようとしています）、これらのステートメントはあまり明確ではありません。私は逆伝播の浅い理解を持っていますが、前のステートメントは実際には何を意味しますか？バックプロパゲーションとラベルはどのように接続されていますか？そして、これtf.nn.softmax_cross_entropy_with_logits_v2はオリジナルとは対照的に私がどのように働くかをどのように変えますか？

41 machine-learning supervised-learning tensorflow backpropagation

4

分類の想起と精度

情報検索のコンテキストでは毎回ですが、想起と精度の定義をいくつか読みました。私は誰かがこれを分類の文脈でもう少し説明し、おそらくいくつかの例を説明できるかどうか疑問に思っていました。たとえば、60％の精度と95％のリコールを提供するバイナリ分類器があるとします。これは良い分類器ですか？私の目標をもう少し助けるために、あなたによる最高の分類器は何ですか？（データセットは不均衡です。マジョリティクラスにはマイノリティクラスの2倍の例があります）個人的には、レシーバーオペレーターカーブの下の面積のために5と言います。（ここでわかるように、モデル8の精度は低く、再現率は非常に高くなっていますが、AUC_ROCが最も低いモデルの1つであるため、良いモデルですか？それとも悪いモデルですか？）編集：詳細情報を含むExcelファイルがあります：https : //www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx このドキュメントでは、レシーバーオペレーターカーブの下の領域と精密リコールカーブの下の領域を見つけることができます。プロットと一緒に。

40 machine-learning metric

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」