タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。

2
ニューラルネットワークで使用されるコスト関数のリストとアプリケーション
ニューラルネットワークのパフォーマンスの評価に使用される一般的なコスト関数は何ですか? 詳細 (この質問の残りの部分は自由にスキップしてください。ここでの私の意図は、回答が一般読者に理解しやすくするために使用できる表記法を明確にすることです) 共通のコスト関数のリストを、それらが実際に使用されているいくつかの方法と一緒に持っていると便利だと思います。だから、他の人がこれに興味があるなら、コミュニティwikiがおそらく最良のアプローチだと思うか、トピックから外れている場合は削除することができます。 表記法 まず、これらを説明するときに全員が使用する表記法を定義したいので、回答が互いにうまく適合するようにします。 この表記は、ニールセンの本からのものです。 フィードフォワードニューラルネットワークは、互いに接続されたニューロンの多くの層です。次に、入力を受け取り、その入力はネットワークを「トリクル」し、ニューラルネットワークは出力ベクトルを返します。 より正式には層のニューロンの活性化(別名出力)と呼びます。ここでは入力ベクトルの要素です。 j t h i t h a 1 j j t haijajia^i_jjthjthj^{th}ithithi^{th}a1jaj1a^1_jjthjthj^{th} 次に、次の関係を介して、次のレイヤーの入力を前のレイヤーの入力に関連付けることができます。 aij=σ(∑k(wijk⋅ai−1k)+bij)aji=σ(∑k(wjki⋅aki−1)+bji)a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j) どこ σσ\sigmaはアクティベーション関数です。 k t h(i − 1 )t h j t h i t hwijkwjkiw^i_{jk}から重量であるのニューロンにレイヤのニューロン層、kthkthk^{th}(i−1)th(i−1)th(i-1)^{th}jthjthj^{th}ithithi^{th} j t h i t …

8
ニュートンの方法が機械学習で広く使用されていないのはなぜですか?
これはしばらくの間私を悩ませてきたものであり、満足のいく答えをオンラインで見つけることができなかったので、ここに行きます: 凸最適化に関する一連の講義をレビューした後、Newtonの方法は、勾配降下よりもはるかに優れたアルゴリズムであり、グローバルに最適なソリューションを見つけることができます。これは、Newtonの方法は、はるかに少ないステップ。ニュートン法などの2次最適化アルゴリズムが、機械学習問題で確率的勾配降下ほど広く使用されないのはなぜですか?

9
ランダムフォレストから知識を取得する
ランダムフォレストはブラックボックスと見なされますが、最近、ランダムフォレストからどのような知識が得られるのかと考えていましたか? 最も明白なことは、変数の重要性です。最も単純なバリアントでは、変数の出現回数を計算するだけでそれを行うことができます。 私が考えていた2番目のことは相互作用です。木の数が十分に大きければ、変数のペアの出現回数をテストできると思います(カイ二乗独立のようなもの)。3番目のことは、変数の非線形性です。私の最初のアイデアは、変数対スコアのチャートを見ることでしたが、それが意味をなすかどうかはまだわかりません。 追加された2012.01.2012 動機 この知識を使用して、ロジットモデルを改善したいと思います。見落とされた相互作用と非線形性を見つけることは可能だと思います(または少なくとも希望します)。

2
勾配ブースティングツリーとランダムフォレスト
Friedmanが提案する勾配ツリーブースティングでは、決定木をベース学習器として使用します。基本決定ツリーを可能な限り複雑にする(完全に成長させる)か、もっと単純にするべきか疑問に思っています。選択の説明はありますか? ランダムフォレストは、決定木を基本学習器として使用する別のアンサンブル手法です。私の理解に基づいて、通常、各反復でほぼ完全に成長した決定木を使用します。私は正しいですか?

8
顔画像のデータベースで特定の顔を検出する
私は、Twitterユーザーのプロフィール写真を使用した小さなプロジェクトに取り組んでいます。 私が遭遇した問題は、鮮明なポートレート写真である画像を除くすべてを除外した後、Twitterユーザーのごく少数のかなりの割合がジャスティンビーバーの写真をプロフィール画像として使用することです。 それらを除外するために、写真がジャスティンビーバーのものかどうかをプログラムでどのように判断できますか?

5
サポートベクターマシン(SVM)はどのように機能しますか?
サポートベクターマシン(SVM)の仕組みと、線形パーセプトロン、線形判別分析、ロジスティック回帰などの他の線形分類器との違いは何ですか?* (* アルゴリズム、最適化戦略、一般化機能、および実行時の複雑さの根本的な動機の観点から考えています)

5
大規模な統計分析を実行するには、どのようなスキルが必要ですか?
多くの統計業務では、大規模データの経験が求められます。大規模なデータセットを操作するために必要な統計および計算スキルの種類は何ですか。たとえば、1,000万サンプルのデータセットが与えられた場合に回帰モデルを構築するのはどうでしょうか。

7
精度が分類モデルを評価するための最良の尺度ではないのはなぜですか?
これは、ここで間接的に複数回尋ねられた一般的な質問ですが、信頼できる答えは1つありません。参照のためにこれに対する詳細な答えを持っていることは素晴らしいことです。 すべての分類の中で正しい分類の割合である精度は、非常に単純で非常に「直感的な」尺度ですが、不均衡なデータには不十分な尺度になる場合があります。なぜ私たちの直感がここで私たちを誤った方向に導き、この測定に他の問題がありますか?

1
条件付き推論ツリーと従来の決定ツリー
誰でも、従来の決定木アルゴリズム(R など)と比較した条件付き推論木(Rのパッケージctreeからparty)の主な違いを説明できますrpartか? CIツリーの違いは何ですか? 強みと弱み? 更新:私はホーソーンらによるコメントでチーが言及している論文を見てきました。私はそれを完全に追うことができませんでした-順列を使用して変数が選択される方法を説明できますか(例:影響関数とは)? ありがとう!

4
カーネルとは何ですか?
多くの機械学習分類子(サポートベクターマシンなど)では、カーネルを指定できます。カーネルとは何かを説明する直観的な方法は何でしょうか? 私が考えていた1つの側面は、線形カーネルと非線形カーネルの違いです。簡単に言えば、「線形決定関数」と「非線形決定関数」について言えます。しかし、カーネルに「決定関数」を呼び出すことが良いアイデアかどうかはわかりません。 提案?


6
バックプロパゲーションなしでニューラルネットワークをトレーニングすることは可能ですか?
多くのニューラルネットワークの本やチュートリアルでは、基本的に勾配を計算するツールである逆伝播アルゴリズムに多くの時間を費やしています。 〜10Kのパラメーター/ウェイトでモデルを構築していると仮定しましょう。勾配のない最適化アルゴリズムを使用して最適化を実行することはできますか? 数値勾配の計算は遅すぎると思いますが、ネルダーミード、シミュレーテッドアニーリング、遺伝的アルゴリズムなどの他の方法はどうですか? すべてのアルゴリズムは極小に苦しむでしょうが、なぜ勾配に取りつかれているのでしょうか?

3
混同マトリックスを使用してマルチクラス分類の精度とリコールをどのように計算しますか?
マルチクラス分類問題の混同マトリックスを使用して、精度を計算し、リコールする方法を疑問に思います。具体的には、観測値は最も可能性の高いクラス/ラベルにのみ割り当てることができます。計算したい: 精度= TP /(TP + FP) リコール= TP /(TP + FN) クラスごとに、マイクロ平均Fメジャーを計算します。

2
ニューラルネットワークの埋め込み層とは何ですか?
多くのニューラルネットワークライブラリには、KerasやLasagneのような「埋め込み層」があります。 ドキュメントを読んでも、その機能を理解しているかどうかはわかりません。たとえば、Kerasのドキュメントには次のように記載されています。 正の整数(インデックス)を固定サイズの密ベクトルに変換します。[[4]、[20]]-> [[0.25、0.1]、[0.6、-0.2]] 知識のある人がそれが何をするのか、いつそれを使うのかを説明できますか? 編集:ドキュメントの貼り付けに関して、ドキュメントから貼り付けることはあまりないので、私の質問です。私はそれがどのような変換を行うのか、なぜそれを使用すべきなのか理解していません。 とにかく、これはケラスで説明されている方法です: 埋め込み keras.layers.embeddings.Embedding(input_dim、output_dim、init = 'uniform'、input_length = None、weights = None、W_regularizer = None、W_constraint = None、mask_zero = False)正の整数(インデックス)を固定サイズの密ベクトルに変換します、たとえば [[4]、[20]]-> [[0.25、0.1]、[0.6、-0.2]] 入力形状:形状を持つ2Dテンソル:(nb_samples、sequence_length)。出力形状:形状を持つ3Dテンソル:(nb_samples、sequence_length、output_dim)。引数: input_dim:int> =0。語彙のサイズ。1+入力データで発生する最大整数インデックス。output_dim:int> =0。密な埋め込みの次元 そして、それはラザニアでそれがどのように説明されるかです: 単語を埋め込むためのレイヤー。入力は整数型のテンソル変数でなければなりません。 パラメーター:incoming:Layerインスタンスまたはタプル このレイヤーに入力するレイヤー、または予想される入力形状。 input_size:int さまざまな埋め込みの数。最後の埋め込みのインデックスはinput_size-1です。 output_size:int 各埋め込みのサイズ。 W:Theano共有変数、式、numpy配列または呼び出し可能 埋め込み行列の初期値、式または初期化子。これは、形状(input_size、output_size)の行列でなければなりません。詳細については、lasagne.utils.create_param()を参照してください。 例 >>> from lasagne.layers import EmbeddingLayer, InputLayer, get_output >>> import theano >>> x …

11
「次元の呪い」を子供に説明する
私は次元の呪いについて何度も聞いたが、どういうわけか私はまだアイデアを理解することができません、それはすべて霧です。 あなたが子供に説明するように、誰もがこれを最も直感的な方法で説明できますか? 編集: さて、子供が何らかの形でクラスタリングについて聞いたとしましょう(たとえば、おもちゃをクラスタ化する方法を知っています:))。次元の増加により、おもちゃをクラスタ化する仕事はどのように難しくなりますか? たとえば、かつてはおもちゃの形とおもちゃの色(1色のおもちゃ)だけを考慮していましたが、今ではおもちゃのサイズと重量も考慮する必要があります。子供が似たようなおもちゃを見つけるのが難しいのはなぜですか? 編集2 議論のために、「子供が似たようなおもちゃを見つけるのが難しいのはなぜか」によって明確にする必要があります。また、高次元の空間で距離の概念が失われるのはなぜですか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.