統計とビッグデータ machine-learning

1

クラスタリング：Jensen-Shannon Divergenceまたはその正方形を使用する必要がありますか？

Affinity Propagationアルゴリズムを使用して確率分布をクラスタリングしており、距離メトリックとしてJensen-Shannon Divergenceを使用する予定です。 JSD自体を距離として使用するのは正しいですか、それともJSDの2乗ですか？どうして？どちらを選択するとどのような違いが生じますか？

15 machine-learning clustering entropy distance-functions

5

小サンプル臨床研究における機械学習技術の応用

目的が分類コンテキストで興味深い予測因子を分離することである場合、ランダムフォレストやペナルティ付き回帰（ペナルティ付き回帰（L1またはL2ペナルティ、またはそれらの組み合わせ））などの機械学習手法を小規模サンプル臨床研究に適用することについてどう思いますか？モデルの選択に関する問題ではなく、変数の効果/重要性の最適な推定値を見つける方法についても質問していません。強力な推論を行うつもりはありませんが、多変量モデリングを使用するだけであるため、各予測変数を一度に1つずつ対象の結果に対してテストすることを避け、それらの相互関係を考慮に入れます。この特定の極端なケースで、そのようなアプローチが既に適用されているのかと思っていました。たとえば、10〜15のカテゴリ変数または連続変数のデータを持つ20〜30の被験者です。それは正確にはないn≪pn≪pn\ll p場合、私はここでの問題は、（多くの場合、うまくバランスされていない）私たちが説明しようとするクラスの数に関係していると思うし、（非常に）小さなN。私はバイオインフォマティクスの文脈でこのトピックに関する膨大な文献を知っていますが、心理測定的に測定された表現型を用いた生物医学研究に関連する参考文献は見つかりませんでした（例：神経心理学的アンケートを通して）。関連する論文へのヒントや指針はありますか？更新この種のデータを分析するためのその他のソリューション、たとえばC4.5アルゴリズムまたはその派生物、アソシエーションルールメソッド、および教師付きまたは半教師付き分類のためのデータマイニング手法を受け入れています。

15 machine-learning feature-selection

10

ご使用のアプリケーションに最適な、すぐに使用可能な2クラス分類子とは何ですか？[閉まっている]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。閉じた3年前。ルール：回答ごとに1つの分類子同意したら投票する重複の削除/削除。コメントにアプリケーションを入れてください

15 machine-learning classification application

4

人工ニューラルネットワークとは何ですか？

ニューラルネットワークの文献を詳しく調べると、ニューロモーフィックトポロジ（「ニューラルネットワーク」のようなアーキテクチャ）を使用した他の方法を特定することができます。そして、私は普遍近似定理について話していません。以下に例を示します。それから、不思議に思う：人工ニューラルネットワークの定義は何ですか？そのトポロジーはすべてをカバーしているように見えます。例：最初に行う識別の1つは、PCAと、エンコーダーとデコーダーの結合重みとボトルネックレイヤーのしきい値付きアクティブ化を備えた線形オートエンコーダーの間です。また、線形モデル（特別なロジスティック回帰）と、非表示層および単一の出力層のないニューラルネットワークとの間で共通の識別が行われます。この識別はいくつかの扉を開きます。フーリエ級数とテイラー級数？ANN。SVM？ANN。ガウス過程？ANN（無限の非表示ユニットを持つ単一の非表示レイヤー）。そのため、同様に簡単に、これらのアルゴリズムの特殊な損失関数を持つ任意の正規化バージョンをニューラルネットワークフレームワークに組み込むことができます。しかし、掘り下げるほど、より多くの類似点が現れます。Deep Neural Decision Treesに出会ったところです。これにより、ディシジョンツリーを使用して特定のANNアーキテクチャを識別し、ANNメソッド（勾配降下逆伝搬など）で学習できるようになりました。これから、ニューラルネットワークトポロジのみからランダムフォレストと勾配ブーストディシジョンツリーを構築できます。すべてを人工ニューラルネットワークとして表現できる場合、人工ニューラルネットワークを定義するものは何ですか？

15 machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

2

ニューラルネットワークとその他すべて

これに対する満足のいく答えがgoogleから見つかりませんでした。もちろん、私が持っているデータが数百万のオーダーである場合、深層学習が道です。そして、ビッグデータがない場合は、機械学習で他の方法を使用した方が良いかもしれないことを読みました。指定された理由は、過剰適合です。機械学習：すなわち、データの参照、特徴抽出、収集されたものからの新しい特徴の作成など。機械学習全体の9ヤードなど、重相関変数の削除など。そして、私は疑問に思っていました：なぜ1つの隠れ層を持つニューラルネットワークが機械学習問題の万能薬ではないのですか？それらは普遍的な推定量であり、過剰適合はドロップアウト、l2正則化、l1正則化、バッチ正規化で管理できます。トレーニングの例が50,000件しかない場合、通常、トレーニング速度は問題になりません。テスト時は、ランダムフォレストよりも優れています。なぜそうではないのですか？データをきれいにし、一般的に行うように欠損値を代入し、データを中央に配置し、データを標準化し、1つの隠れ層を持つニューラルネットワークのアンサンブルに投げ、過剰適合が見られないように正規化を適用してから訓練しますそれらを最後まで。勾配爆発や勾配消失は、2層のネットワークであるため問題ありません。深い層が必要な場合、それは階層的な機能を学習することを意味し、他の機械学習アルゴリズムも同様に良くありません。たとえば、SVMはヒンジ損失のみのニューラルネットワークです。他のいくつかの機械学習アルゴリズムが、慎重に正規化された2層（おそらく3？）のニューラルネットワークよりも優れている例はありがたいです。問題へのリンクを教えていただければ、できる限り最高のニューラルネットワークをトレーニングし、2層または3層のニューラルネットワークが他のベンチマーク機械学習アルゴリズムに及ばないかどうかを確認できます。

15 regression machine-learning classification neural-networks deep-learning

4

決定木に低バイアスと高分散があるのはなぜですか？

ご質問ツリーが浅いか深いかに依存しますか？または、ツリーの深さ/レベルに関係なく、これを言うことができますか？バイアスが低く、分散が大きいのはなぜですか？直感的かつ数学的に説明してください

15 machine-learning variance covariance cart bias

3

ディープニューラルネットワークの最小層数

どの時点で多層ニューラルネットワークをディープニューラルネットワークとして分類し始めるか、または別の方法で「ディープニューラルネットワークの最小層数は？」

15 machine-learning neural-networks deep-learning terminology

3

線形分類器の場合、係数が大きいほど重要な機能を意味しますか？

私は機械学習に取り組んでいるソフトウェアエンジニアです。私の理解から、線形回帰（OLSなど）および線形分類（ロジスティック回帰やSVMなど）は、トレーニング済み係数と特徴変数内積に基づいて予測を行います。w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 私の質問は、モデルがトレーニングされた後（つまり、係数が計算された後）、モデルがより正確に予測するために重要な特徴変数の係数が大きくなるということですか？wiwiw_i つまり、変数を係数値で並べ替えてから、最も高い係数を持つフィーチャを選択するだけで、係数の相対的な大きさをフィーチャ選択に使用できるかどうかを尋ねています。このアプローチが有効な場合、機能の選択について（ラッパーメソッドやフィルターメソッドなどとともに）言及されていないのはなぜですか。私がこれを尋ねる理由は、L1対L2の正規化に関する議論に出くわしたためです。次のような宣伝文句があります：組み込み機能の選択は、L1-normの有用なプロパティとして頻繁に言及されていますが、L2-normはそうではありません。これは実際にはL1ノルムの結果であり、スパース係数を生成する傾向があります（以下で説明します）。モデルに100個の係数があり、そのうちの10個のみが非ゼロ係数を持つと仮定すると、これは事実上「他の90個の予測変数は目標値の予測には役に立たない」と言っています。行間を読むと、係数が0に近い場合、その係数を持つ特徴変数にはほとんど予測力がないはずだと思います。編集：私はまた、数値変数にZスケーリングを適用しています。

15 regression machine-learning classification feature-selection linear-model

2

ランダムフォレストについて報告するトレーニングエラーの尺度

現在randomForest、R のパッケージを使用して分類問題にランダムフォレストを適合させていますが、これらのモデルのトレーニングエラーを報告する方法については不明です。コマンドで取得した予測を使用して計算すると、トレーニングエラーは0％に近くなります。 predict(model, data=X_train) X_trainトレーニングデータはどこにありますか。関連する質問への回答では、ランダムフォレストのトレーニングエラーメトリックとしてout-of-bag（OOB）トレーニングエラーを使用する必要があることを読みました。この数量は、コマンドで取得した予測から計算されます。 predict(model) この場合、OOBトレーニングエラーは平均10 CVテストエラーである11％にはるかに近くなります。不思議なんだけど：ランダムフォレストのトレーニングエラーの尺度としてOOBトレーニングエラーを報告することは一般に受け入れられていますか？従来のトレーニングエラーの測定値が人為的に低いというのは本当ですか？従来のトレーニングエラーの測定値が人為的に低い場合、RFが過適合であるかどうかを確認するために2つの測定値を比較できますか？

15 r machine-learning classification random-forest overfitting

5

カーネルSVM：高次元の特徴空間へのマッピングと、これにより線形分離がどのように可能になるかを直感的に理解したい

カーネルSVMの背後にある直感を理解しようとしています。今、私は線形SVMがどのように機能するかを理解します。それにより、データを可能な限り分割する決定ラインが作成されます。また、データをより高次元の空間に移植する背後にある原理と、この新しい空間で線形決定ラインを見つけやすくする方法を理解しています。私が理解していないのは、この新しいスペースにデータポイントを投影するためにカーネルがどのように使用されるかです。カーネルについて知っていることは、2つのデータポイント間の「類似性」を効果的に表しているということです。しかし、これはどのように投影に関連していますか？

15 machine-learning svm kernel-trick

1

検証の精度は高いが、研究のテストの精度が低い場合はどうなりますか？

機械学習の研究における検証について具体的な質問があります。私たちが知っているように、機械学習体制は、トレーニングデータでモデルをトレーニングし、検証セットで候補モデルから選択し、テストセットで精度を報告するように研究者に求めます。非常に厳密な研究では、テストセットは1回しか使用できません。しかし、論文を発表する（または提出する）前に、テストの精度が最新の結果よりも良くなるまでパフォーマンスを改善する必要があるため、研究シナリオになることはありません。ここで問題が発生します。50％が最も最先端の結果であり、私のモデルは一般に50--51の精度を達成できるとしましょう。これは平均して優れています。ただし、私の最高の検証精度（52％）では、テスト精度が非常に低くなります（例：49％）。次に、検証accをさらに改善できない場合、全体的なパフォーマンスとして49％を報告する必要がありますが、これは望みではありません。これは本当に私が問題を研究することを妨げますが、私の仲間にとっては問題ではありません。52％のaccが見られないからです。では、人々は通常どのように研究を行っていますか？同じ状況が発生する可能性があるため、ps k-fold検証は役に立ちません。

15 machine-learning cross-validation reproducible-research

1

CNNは勾配の消失問題をどのように回避しますか

私は畳み込みニューラルネットワークについて多くのことを読んでおり、それらが消失勾配問題をどのように回避するのか疑問に思っていました。深い信念のネットワークが単一レベルの自動エンコーダーまたは他の事前に訓練された浅いネットワークをスタックすることを知っているため、この問題を回避できますが、CNNでどのように回避されるかわかりません。ウィキペディアによると：「上記の「勾配の消失問題」にも関わらず、GPUの優れた処理能力により、多くの層を備えたディープフィードフォワードニューラルネットワークで単純な逆伝播が実行可能になります。 GPU処理がこの問題を解決する理由がわかりませんか？

15 machine-learning optimization deep-learning gradient-descent

4

潜在的な特徴の意味？

推奨システムの行列因子分解モデルを理解しようとしていますが、常に「潜在機能」を読みますが、それはどういう意味ですか？トレーニングデータセットにとって機能が何を意味するかは知っていますが、潜在的な機能の概念を理解することはできません。私が見つけることができるトピックに関するすべての論文はあまりにも浅いです。編集：少なくともアイデアを説明するいくつかの論文を教えていただければ。

15 machine-learning data-mining recommender-system

3

オンライン学習での正則化と機能スケーリング？

ロジスティック回帰分類器があるとします。通常のバッチ学習では、過剰適合を防ぎ、体重を小さく保つための正規化用語があります。また、機能を正規化およびスケーリングします。オンライン学習環境では、継続的なデータのストリームを取得しています。各例で勾配降下更新を行い、それを破棄します。オンライン学習で機能スケーリングと正則化用語を使用することになっていますか？はいの場合、どうすればそれができますか？たとえば、スケーリングするトレーニングデータのセットがありません。また、正規化パラメーターを調整するための検証セットもありません。いいえの場合、なぜですか？オンライン学習では、例のストリームを継続的に取得します。新しい例ごとに、予測を行います。次に、次のタイムステップで、実際のターゲットを取得し、勾配降下更新を実行します。

15 machine-learning normalization regularization online

3

分類子を評価するときにエラーメトリックを選択する方法は？

Kaggleコンペティションで使用されるさまざまなエラーメトリックスを見ました：RMS、平均二乗、AUCなど。エラーメトリックの選択に関する一般的な経験則は何ですか。つまり、特定の問題に対してどのエラーメトリックを使用するかをどのように知るのですか。ガイドラインはありますか？

15 machine-learning classification error

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」