タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。

11
テストセットと検証セットの違いは何ですか?
Matlabでニューラルネットワークツールボックスを使用すると、このことがわかりにくくなりました。 生データセットを3つの部分に分割しました。 トレーニングセット 検証セット テストセット 多くのトレーニングまたは学習アルゴリズムでは、データは多くの場合、トレーニングセットとテストセットの2つの部分に分かれています。 私の質問は: 検証セットとテストセットの違いは何ですか? 検証セットは本当にニューラルネットワークに固有ですか?または、オプションです。 さらに進むと、機械学習のコンテキストでの検証とテストに違いはありますか?

20
二つの文化:統計と機械学習?
昨年、私は「統計対機械学習、戦い!」というタイトルのブレンダン・オコナーのブログ記事を読みました。2つのフィールドの違いの一部について説明しました。 アンドリュー・ゲルマンはこれに好意的に反応しました: サイモン・ブロンバーグ: Rの福袋から:挑発的に言い換えると、「機械学習は統計からモデルと仮定のチェックを差し引いたものです」。-ブライアンD.リプリー(機械学習と統計の違いについて)useR!2004年、ウィーン(2004年5月):-)季節のご挨拶! アンドリュー・ゲルマン: その場合、モデルと仮定のチェックをより頻繁に取り除く必要があります。そうすれば、機械学習の人々が解決できる問題のいくつかを解決できるかもしれませんが、できません! ありました:「二つの文化の統計モデリング」紙統計学者は、データモデリングに過度に依存し、その機械学習技術が代わりに頼ることで進展していると主張し、2001年にレオ・ブレイマンによって予測精度のモデルは。 これらの批判に応えて、統計分野は過去10年間で変化しましたか?か二つの文化がまだ存在や統計は、ニューラルネットワークやサポートベクターマシンなどの機械学習技術を包含するように成長していますか?

5
K-meansの欠点を理解する方法
K-meansは、クラスター分析で広く使用されている方法です。私の理解では、この方法はいかなる仮定も必要とせず、すなわち、データセットと事前に指定されたクラスター数kを与え、二乗誤差の合計(SSE)を最小化するこのアルゴリズムを適用します。エラー。 したがって、k-meansは本質的に最適化の問題です。 k-meansの欠点に関する資料を読みました。それらのほとんどはそれを言う: k-meansは、各属性(変数)の分布の分散が球形であると仮定します。 すべての変数の分散は同じです。 すべてのkクラスターの事前確率は同じです。つまり、各クラスターの観測数はほぼ同じです。 これら3つの仮定のいずれかに違反した場合、k-meansは失敗します。 この声明の背後にある論理を理解できませんでした。k-means法は本質的に仮定をしておらず、SSEを最小化するだけなので、SSEの最小化とこれらの3つの「仮定」の間のリンクはわかりません。


8
ユークリッド距離が高次元で適切なメトリックではないのはなぜですか?
「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか?また、「高次元」とは何ですか?100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか?

12
データマイニング、統計、機械学習、AIの違いは何ですか?
データマイニング、統計、機械学習、AIの違いは何ですか? 非常によく似た問題を解決しようとする4つの分野であるが、異なるアプローチであると言うのは正確でしょうか?彼らは正確に何を共有していて、どこで違うのですか?それらの間に何らかの階層がある場合、それは何でしょうか? 同様の質問が以前に聞かれましたが、まだわかりません。 データマイニングと統計分析 二つの文化:統計と機械学習?

3
機械学習の問題が絶望的であることを知る方法は?
標準的な機械学習シナリオを想像してください: 大規模な多変量データセットに直面しており、それについてかなり曖昧な理解を持っています。あなたがする必要があるのは、あなたが持っているものに基づいていくつかの変数について予測することです。いつものように、データを消去し、記述統計を調べ、いくつかのモデルを実行し、それらを相互検証しますが、何度か試行した後、前後に行って複数のモデルを試しても何も機能しないようで、結果は悲惨です。このような問題に数時間、数日、または数週間費やすことができます... 問題は、いつ停止するかです。データが実際に絶望的であり、すべての派手なモデルがすべてのケースまたは他の些細な解決策の平均結果を予測するよりも良いことをしないことをどのように知っていますか? もちろん、これは予測可能性の問題ですが、私が知る限り、多変量データの予測可能性を評価するのは困難です。それとも私は間違っていますか? 免責事項:この質問はこの質問に触発され ました。いつモデルを探すのをやめなければなりませんか?それはあまり注目されませんでした。このような質問に対する詳細な回答を参考にしていただければ幸いです。

4
ニューラルネットワークの隠れ層は何を計算しますか?
多くの人々が「あなたのためにグーグルにさせてください」へのリンクで応答すると確信しているので、私はこれを理解しようとしたと言いたいので、ここでの私の理解不足を許してください、しかし、私はどのようにニューラルネットワークの実際の実装は実際に機能します。 入力レイヤーとデータの正規化方法、バイアスユニットも理解していますが、非表示レイヤーについては、実際の計算はそのレイヤーで行われ、出力にどのようにマッピングされるかは少しぼやけています。非表示レイヤーに疑問符、AND / OR / XORなどのブール関数、アクティベーション関数、すべての非表示ユニットにマップする入力ノード、および各非表示ユニットのみにマップする入力ノードを含む図を見てきました私は実際的な面でいくつか質問があります。もちろん、子供に説明するようなニューラルネットワークプロセス全体の簡単な説明は素晴らしいでしょう。 隠れ層でどのような計算が行われますか? これらの計算は出力レイヤーにどのようにマッピングされますか? 出力層はどのように機能しますか?非表示層からのデータの非正規化? 入力層の一部の層が非表示層に接続されていて、一部が接続されていない理由

9
なぜテンソルに突然魅了されるのですか?
最近、多くの人々が多くの方法(テンソル因数分解、テンソルカーネル、トピックモデリングのテンソルなど)のテンソル等価物を開発していることに気付きました。なぜ世界は突然テンソルに魅了されるのでしょうか。これをもたらした特に驚くべき最近の論文/標準結果はありますか?以前に疑われていたよりも計算上はるかに安価ですか? 私はglibではありません、私は心から興味があり、これに関する論文へのポインタがあれば、私はそれらを読みたいです。

3
ROC対精密およびリコール曲線
私はそれらの間の正式な違いを理解しています。私が知りたいのは、どちらか一方を使用するほうがより適切な場合です。 特定の分類/検出システムのパフォーマンスに関する補完的な洞察を常に提供していますか? それらを両方とも、たとえば論文で提供するのが合理的なのはいつですか?ただ一つではなく? 分類システムのROCと精度の両方のリコールの関連する側面をキャプチャする代替(おそらくより現代的な)記述子はありますか? バイナリとマルチクラス(たとえば、1対すべて)の両方の場合の引数に興味があります。

2
生成的対差別的
生成は「P(x,y)P(x,y)P(x,y)基づいて」を意味し、識別は「P(y|x)P(y|x)P(y|x)に基づいて」を意味することを知っていますが、いくつかの点で混乱しています: ウィキペディア(およびWeb上の他の多くのヒット)では、SVMや意思決定ツリーなどを差別的なものとして分類しています。しかし、これらには確率的な解釈すらありません。ここでの差別とはどういう意味ですか?差別的というのは、生成的ではない何かを意味するようになったのでしょうか? Naive Bayes(NB)はP(x|y)P(x|y)P(x|y)およびをキャプチャするため生成的P(y)P(y)P(y)であり、したがってP(x,y)P(x,y)P(x,y)(およびP(y|x)P(y|x)P(y|x))があります。同様の方法で単純に計算することで、ロジスティック回帰(判別モデルのポスターボーイ)を「生成」するのは簡単ではありません(P (x )= P (x 0P(x)P(x)P(x)P(x)=P(x0)P(x1)...P(xd)P(x)=P(x0)P(x1)...P(xd)P(x) = P(x_0) P(x_1) ... P(x_d)、 MLEP(xi)P(xi)P(x_i)は単なる周波数です)? 識別モデルは生成モデルよりも性能が優れている傾向があることは知っています。生成モデルを使用する実用的な用途は何ですか?データを生成/シミュレートできることが挙げられますが、これはいつ発表されますか?個人的には、回帰、分類、コラボの経験しかありません。構造化データをフィルタリングするので、ここでの使用は私とは無関係ですか?「失われたデータ」引数(P(xi|y)P(xi|y)P(x_i|y)不足しているためxixix_i)学習データのみで、あなたにエッジを与えるように思われる(あなたが実際に知っているときyyyとオーバー過小評価する必要はありませんP(y)P(y)P(y)取得します比較的愚かなP(xi)P(xi)P(x_i)とにかく直接推定することができます)、それでも代入ははるかに柔軟です(だけでyyyなく他のも基づいて予測できxixix_iます)。 ウィキペディアからの完全に矛盾した引用とは何ですか?「生成モデルは通常、複雑な学習タスクで依存関係を表現する際に識別モデルよりも柔軟性が高い」対「識別モデルは一般に、観測変数とターゲット変数の間のより複雑な関係を表現できる」 これについて考えさせられた関連質問。

6
ディープニューラルネットワークのシグモイド関数に対するReLUの利点は何ですか?
最先端の非線形性は、ディープニューラルネットワークでシグモイド関数の代わりに整流線形ユニット(ReLU)を使用することです。利点は何ですか? ReLUが使用されているときにネットワークをトレーニングする方が速くなることを知っています。それはより生物学的なインスピレーションです。他の利点は何ですか?(つまり、シグモイドを使用することの欠点)?

5
相互検証後の完全なデータセットでのトレーニング?
相互検証後に完全なデータセットでトレーニングすることは常に良い考えですか?別の言い方をすれば、データセット内のすべてのサンプルでトレーニングを行っても、この特定のフィッティングがオーバーフィットするかどうかを確認できないのですか? 問題の背景: 私が持っていると言うモデルの家族によってパラメータ。また、データポイントのセットがあり、データを最も一般化するモデルを選択するために、k分割交差検証を使用してモデル選択を行うとします。α⃗ α→\vec\alphaNNN モデルの選択では、たとえば、各候補に対してk分割交差検証を実行することにより、検索(たとえば、グリッド検索)を実行できます。交差検証の各フォールドで、学習モデルます。α⃗ α→\vec\alpha βαβα\beta_\alpha 交差検証のポイントは、これらの各フォールドについて、「見えないデータ」でテストすることにより、学習したモデルに過剰適合があるかどうかを確認できることです。結果に応じて、グリッド検索でのクロス検証中に最適化されたパラメーターについて学習したモデル選択できます。βbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} ここで、モデルの選択後に、データセット内のすべてのポイントを使用し、できればより良いモデルを学習したいと考えています。このために、モデル選択中に選択したモデルに対応するパラメーター使用し、完全なデータセットでトレーニングした後、新しい学習モデル取得します。問題は、トレーニングのためにデータセットのすべてのポイントを使用 する場合、この新しい学習モデル目に見えないデータにオーバーフィットするかどうかを確認できないことです。この問題を考える正しい方法は何ですか?NNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full}

4
K分割交差検定でのKの選択
いくつかの学習アルゴリズムのパフォーマンスを評価するために、倍交差検証を数回使用していますが、の値をどのように選択すべきかについては常に困惑していました。KKKKKKK 私はよく見ての値が使用されてきた、これは私には全く任意のようだ、と私は今ちょうど使用代わりにそれを超える思考の習慣で。私には、の値を改善するにつれて、より良い粒度が得られるように思えます。理想的には、非常に大きくする必要がありますが、偏るリスクもあります。10 K KK=10K=10K = 10101010KKKKKK 私は、の値が何に依存すべきか、そしてアルゴリズムを評価するときにこれについてどう考えるべきかを知りたいと思います。クロスバリデーションの階層化バージョンを使用するかどうかによって、何かが変わりますか?KKK

7
線形カーネルを持つSVMでのCの影響は何ですか?
現在、線形カーネルを備えたSVMを使用してデータを分類しています。トレーニングセットにエラーはありません。パラメーターいくつかの値 (10 − 5、… 、10 2)を試しました。これは、テストセットのエラーを変更しませんでした。CCC10− 5、… 、10210−5、…、10210^{-5}, \dots, 10^2 今私は疑問に思う:これは誤りであるルビーのバインディングによって引き起こされるためにlibsvm、私は(使用しているRB-LIBSVMを)か、これは理論的に説明できますか? パラメーター常に分類器のパフォーマンスを変更する必要がありますか?CCC

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.