タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。


17
機械学習のクックブック/リファレンスカード/チートシート?
Probability and Statistics Cookbookやデータマイニング用のR Reference Cardなどのリソースは非常に便利です。それらは明らかに参考資料として役立ちますが、主題に関する私の考えを整理し、土地を築くのにも役立ちます。 Q:これらのリソースのようなものは、機械学習方法に存在しますか? 各MLメソッドに含まれる参照カードを想像しています: 一般的なプロパティ メソッドがうまく機能するとき メソッドが不十分な場合 どのメソッドから、または他のどのメソッドにメソッドが一般化されるか。ほとんど置き換えられましたか? メソッドに関する独創的な論文 メソッドに関連する未解決の問題 計算強度 これらすべては、私が確信している教科書を少し掘り下げることで見つけることができます。それらを数ページにすると便利です。



5
時系列予測に深層学習を使用する
私はディープラーニングの分野で新しく、最初のステップはdeeplearning.netサイトから興味深い記事を読むことでした。ディープラーニングに関する論文では、ヒントンと他の人は主にそれを画像の問題に適用することについて話します。誰かが私に答えようとすることができますか?それは時系列値(金融、インターネットトラフィックなど)を予測する問題に適用できますか?それが可能であれば私が焦点を当てる必要がある重要なことは何ですか?

10
ホールドアウト検証とクロス検証
私には、ホールドアウト検証は役に立たないようです。つまり、元のデータセットを2つの部分に分割し(トレーニングとテスト)、テストスコアを一般化の尺度として使用することは、役に立たないでしょう。 K分割交差検証は、一般化のより良い近似を提供するようです(すべての点でトレーニングとテストを行うため)。それでは、なぜ標準のホールドアウト検証を使用するのでしょうか?それともそれについて話す?

5
統計的学習におけるiid仮定の重要性について
統計的学習では、暗黙的または明示的に、トレーニングセットD = { X、y }は、同じ結合分布P(X、X、)から独立して描画されるN個の入力/応答タプル(X i、y i)で構成されると常に仮定しますy )とD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) およびp(y|X)p(y|X)p( y \vert {\bf{X}})特定の学習アルゴリズムを介して取得しようとしている関係。数学的には、このiidの仮定は次のように記述します。 (Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j …

10
Pythonを使用した機械学習
機械学習の実験にPythonライブラリを使用することを検討しています。これまで、私はWEKAに頼っていましたが、全体的にはかなり不満でした。これは主に、WEKAがあまりサポートされていないことを発見し(ごく少数の例、ドキュメントがまばらで、コミュニティのサポートが私の経験では望ましいものではない)、助けが得られずにスティッキーな状況にいることに気付いたからです。私がこの動きを検討しているもう1つの理由は、私はPythonが本当に好きで(Pythonが初めて)、Javaのコーディングに戻りたくないからです。 だから私の質問は、何がもっと 包括的 スケーラブル(10万の機能、1万の例)および PythonでMLを実行するためのライブラリをサポートしていますか? テキスト分類を行うことに特に興味があるので、分類子、特徴選択方法(情報ゲイン、カイ二乗など)の優れたコレクション、およびテキスト前処理機能(ステミング、ストップワード削除)を備えたライブラリを使用したいと思います。 、tf-idfなど)。 ここや他の場所での過去の電子メールスレッドに基づいて、これまでPyML、scikits-learn、Orangeを見てきました。私が言及した上記の3つの指標に関して、人々の経験はどうでしたか? 他の提案はありますか?

5
機械学習で不均衡なデータが本当に問題になるのはいつですか?
ロジスティック回帰、SVM、決定木、バギング、およびその他の類似の質問を使用する際に、不均衡なデータについて複数の質問がありました。これが非常に人気のあるトピックです。残念ながら、各質問はアルゴリズム固有であるようで、不均衡なデータを扱うための一般的なガイドラインは見つかりませんでした。 不均衡なデータを扱うMarc Claesenの回答の1つを引用 (...)学習方法に大きく依存します。ほとんどの汎用アプローチには、これに対処する1つ(または複数の)方法があります。 しかし、データの不均衡について正確に心配する必要があるのはいつですか?主に影響を受けるのはどのアルゴリズムで、どのアルゴリズムを処理できますか?データのバランスを取るためにどのアルゴリズムが必要ですか?このようなQ&Aサイトでは、各アルゴリズムについて議論することは不可能であることを認識しています。むしろ、いつ問題になるかについての一般的なガイドラインを探しています。

3
モデルの検証前または検証内で機能の正規化を実行しますか?
機械学習の一般的なグッドプラクティスは、予測変数の特徴の正規化またはデータの標準化を行うことです。つまり、データを中心に減算し、平均値を分散(または標準偏差)で割って正規化します。自己封じ込めと私の理解のために、これを行って主に2つのことを達成します。 数値の安定性のために、余分な小さなモデルの重みを避けます。 共役勾配などの最適化アルゴリズムの迅速な収束を確保し、1つの予測子次元の大きさが他の予測子次元よりも大きい場合、収束が遅くならないようにします。 通常、データはトレーニング、検証、テストセットに分割されます。文献では、通常、特徴の正規化を行うには、予測変数のセット全体の平均と分散(または標準偏差)を使用することがわかります。ここで見た大きな欠点は、それを行うと、実際にはトレーニング予測変数に将来の情報、つまり平均と分散に含まれる将来の情報が導入されることです。 したがって、トレーニングデータの正規化を行い、平均と分散を保存します。次に、トレーニング平均と分散を使用して、検証およびテストデータセットの予測変数に特徴の正規化を適用します。これに根本的な欠陥はありますか?誰もがより良い代替案を推奨できますか?

5
ニューラルネットワークとサポートベクターマシン:2番目は間違いなく優れていますか?
私が読んだ論文の多くの著者は、SVMが回帰/分類の問題に直面するための優れた手法であり、NNを介して同様の結果を得ることができないことを認識しています。多くの場合、比較では NNではなくSVM 強力な創立理論を持っている 二次計画法によるグローバル最適化に到達 適切な数のパラメーターを選択しても問題ありません 過剰適合の傾向が少ない 予測モデルを保存するために必要なメモリが少ない より読みやすい結果と幾何学的解釈をもたらす それは真剣に広く受け入れられた考えですか?ノーフリーランチ定理や同様の記述を引用しないでください。私の質問は、これらのテクニックの実用的な使用法です。 反対に、NNが直面する抽象的な問題はどのようなものですか?

6
強く不均衡なクラスを持つバイナリ分類
私は(機能、バイナリ出力0または1)の形式のデータセットを持っていますが、1はほとんど発生しないため、常に0を予測するだけで、70%と90%の間の精度が得られます(見ている特定のデータに応じて)。MLメソッドは、ほぼ同じ精度を与えてくれます。この状況に適用する標準的なメソッドがいくつかあるべきだと思います。これにより、明白な予測ルールよりも精度が向上します。



5
ランダムフォレストはブースティングアルゴリズムですか?
ブースティングの簡単な定義: 一連の弱い学習者が単一の強い学習者を作成できますか?弱学習器は、真の分類とわずかにしか相関しない分類子であると定義されます(ランダムな推測よりも例をラベル付けできます)。 ランダムフォレストの短い定義: ランダムフォレストは、多くの分類ツリーを成長させます。入力ベクトルから新しいオブジェクトを分類するには、入力ベクトルをフォレスト内の各ツリーに配置します。各ツリーは分類を提供し、ツリーはそのクラスに「投票」します。フォレストは、(フォレスト内のすべてのツリーに対して)最も投票数の多い分類を選択します。 ランダムフォレストの別の短い定義: ランダムフォレストは、データセットのさまざまなサブサンプルに多数の決定木分類器を適合させ、予測精度を向上させて過剰適合を制御するために平均化を使用するメタ推定器です。 私が理解しているように、ランダムフォレストは弱い分類子としてツリーを使用するブースティングアルゴリズムです。また、他の手法を使用し、それらを改善することも知っています。誰かがランダムフォレストがブースティングアルゴリズムではないことを修正しましたか? 誰かがこれについて詳しく説明できますか、なぜランダムフォレストがブースティングアルゴリズムではないのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.