統計とビッグデータ machine-learning

3

F1-scoreは、精度と再現率の調和平均です。リコールのy軸は、真の陽性率です（これもリコールです）。それで、分類子はリコールは低いがAUCは非常に高い場合があります。 AUCとF1-scoreの違いは何ですか？

14 machine-learning precision-recall auc accuracy

1

一貫性のある推定量の定義がそのままなのはなぜですか？一貫性の代替定義についてはどうですか？

ウィキペディアからの引用：統計では、一貫性の推定又は漸近一致推定は、パラメータの計算推定のための推定ルールであるθ∗θ∗θ^*データポイントの数と、無期限に確率の推定値が収束の結果のシーケンスを増加を使用したこと特性を-having θ∗θ∗θ^*。このステートメントを正確にするには、推定する真のパラメーターの値をθ∗θ∗\theta^*とし、データの関数としてこのパラメーターを推定するためのルールをθ^(Sn)θ^(Sn)\hat\theta(S_n)とします。次に、推定量の一貫性の定義は次のように表現できます。 limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0 私の質問は一見表面的なようだが、それは次のとおりです。なぜ単語「一貫性/整合性は、」推定のこの振る舞いを記述するために使用されたのですか？私がこれを気にする理由は、私にとって、直感的に一貫性という言葉は異なるものを意味するためです（少なくとも、私にとっては異なるように見えますが、等しいことを示すことができるかもしれません）。例を使用して、その意味を説明します。「あなた」は一貫して「良い」（何らかの良い定義について）、そして一貫しているということは、あなたが良いことを証明/示す機会があるたびに、あなたが本当に良いことを毎回本当に証明することを意味します（または少なくともほとんどの時間）。直観を適用して、推定量の一貫性を定義します。"you"をθ^θ^\hat{\theta}を計算する関数とし、 "good"が真の推定値\ theta ^ *からどれだけ離れているかを意味しますθ∗θ∗\theta^*（良い、l1l1l_1意味で、そうではありません）。一貫性のより良い定義は次のとおりです。 ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]<δ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]<δ\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta 一貫性の定義としてはあまり有用ではないかもしれませんが、推定器θ^θ^\hat\thetaに投げるトレーニング/サンプルセットについては、一貫性を定義する方法のほうが理にかなっています。良い仕事です。つまり、私は一貫してうまくやるでしょう。すべてのn（おそらく不可能）に対してそれを行うのは少し非現実的ですが、次のように言ってこの定義を修正できます。 ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]<δ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]<δ\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta すなわち、nが十分に大きい場合、推定器は真のから（つまり、「真実」から超えない）より悪くなることはありません（は少なくとも必要な直感をキャプチャしようとしています何かを学習/推定するためのいくつかの例があり、その数に達すると、推定者が定義しようとしている方法に一貫性がある場合、推定者はほとんどの場合うまくいきます）。ϵϵ\epsilonϵϵ\epsilonθ∗θ∗\theta^*n0n0n_0 ただし、前の定義は強力であり、サイズほとんどのトレーニングセットでから遠ざかる可能性を低くすることができます（つまり、すべてのでこれを必要としませんが、またはそのようなものの分布）。そのため、ほとんどのサンプル/トレーニングセットで高いエラーが発生することはほとんどありません。θ∗θ∗\theta^*n≥n0n≥n0n \geq n_0SnSnS_nSnSnS_n とにかく、私の質問は、「一貫性」のこれらの提案された定義は実際に一貫性の「公式」定義と同じですか、しかし等価性を証明するのは難しいですか？証拠を知っているなら、それを共有してください！または、私の直感は完全にオフになっていますか？通常定義されている方法で定義の一貫性を選択するより深い理由がありますか？なぜ（「公式」）一貫性がそのように定義されているのですか？ある種の同等性の証明候補、または私の一貫性の概念と受け入れられている一貫性の概念の類似性についての私の考えのいくつかは、制限の定義。しかし、私はその方法を100％確信していませんでしたが、一貫性の公式定義では、すべての潜在的なトレーニング/サンプルセットについて話すことを考慮していないようです。私はそれらが同等であると信じているので、私が提供した公式の定義は不完全ですか（つまり、私たちができるデータセットまたはサンプルセットを生成できるすべての異なるデータセットについて話さないのはなぜですか）？(ϵ,δ)−(ϵ,δ)−(\epsilon, …

14 machine-learning mathematical-statistics consistency

2

Support Vector Machineは不均衡なデータセットを処理しますか？

SVMは不均衡なデータセットを処理しますか？不均衡なデータセットを処理するパラメーター（Cや誤分類コストなど）はありますか？

14 machine-learning svm unbalanced-classes

1

機械学習分類器の大規模または複雑さ

新しい分類アルゴリズムのパフォーマンスを評価するために、精度と複雑さを比較しようとしています（トレーニングと分類でのビッグO）。Machine Learningから：レビュー完全な教師付き分類子リスト、アルゴリズム間の精度表、およびUCIデータリポジトリからの44のテスト問題を取得します。ただし、次のような一般的な分類子のレビュー、論文、またはウェブサイトが見つかりません。 C4.5 RIPPER（これは不可能かもしれないと思うが、誰が知っているか）逆伝播を伴うANN 素朴なベイジアン K-NN SVM 誰かがこれらの分類子の式を持っている場合、それは非常に役立ちます、ありがとう。

14 machine-learning classification multiple-comparisons algorithms time-complexity

3

ランダムフォレストモデルの最新データの重み付け

6つのカテゴリを区別するために、ランダムフォレストで分類モデルをトレーニングしています。私のトランザクションデータには、約60k +の観測値と35の変数があります。これがおおよそどのように見えるかの例を次に示します。 _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG | group1 | |333 | 2013-05-05 | 30 | DE | group2 | |444 | 2013-05-10 | 78 | US | group3 | |555 | 2013-06-15 …

14 r machine-learning classification random-forest

1

ある時系列を別の時系列から予測する方法（関連している場合）

私はこの問題を一年以上解決しようとしてきましたが、あまり進歩していません。これは私が行っている研究プロジェクトの一部ですが、問題の実際の領域は少しわかりにくい（視線追跡）ので、作成したストーリーの例で説明します。あなたは海を横断する敵船を追跡する飛行機なので、船の一連の（x、y、time）座標を収集しました。隠された潜水艦は船を保護するために船と一緒に移動しますが、その位置に相関関係がありますが、潜水艦はしばしば船から離れてさまよいます。そのため、しばしば潜水艦は近くにありますが、たまに世界。あなたは潜水艦の進路を予測したいのですが、残念ながらそれはあなたから隠されています。しかし、4月の1か月間、潜水艦が自分自身を隠すのを忘れていることに気付くので、1,000回の航海を通じて潜水艦と船の両方の一連の座標があります。このデータを使用して、船の動きだけを考慮して、潜水艦の経路を予測するモデルを作成します。素朴なベースラインは「潜水艦の位置の推測=「船の現在の位置」と言うことですが、潜水艦が見える4月のデータから、潜水艦が少し船の前方にいる傾向があることに気づくでしょう。さらに、4月のデータは、船が長時間水に沈むと、潜水艦が沿岸水域をパトロールしている可能性が高いことを示しています。他のパターンもあります。もちろん。 4月のデータをトレーニングデータとして、このモデルをどのように構築して、潜水艦の進路を予測しますか？私の現在の解決策は、因子が「旅行時間」、「船のx座標」、「1日間船が遊休した」などのアドホック線形回帰であり、Rに重みを計算させ、相互検証を実行します。。しかし、4月のデータからこれらの要因を自動的に生成する方法が本当に欲しいです。また、線形回帰はそうではなく、関連性があると思うので、シーケンスまたは時間を使用するモデルがいいでしょう。これをすべて読んでくれてありがとう、私は何でも明確にしたいと思います。

14 time-series machine-learning prediction

2

Gaussian RBFカーネルに有限次元の特徴空間がないことを証明する方法は？

動径基底関数k （x 、y ）= exp （− | | x − y | | 2）に対してそれを証明する方法k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})いかなる有限次元の特徴空間がないHHH一部のように、Φ:Rn→HΦ:Rn→H\Phi: \text{R}^n \to H我々は？k(x,y)=⟨Φ(x),Φ(y)⟩k(x,y)=⟨Φ(x),Φ(y)⟩k(x, y) = \langle \Phi(x), \Phi(y)\rangle

14 machine-learning svm kernel-trick

3

ニューラルネットの隠された活性化関数の選択

NNの隠れ層アクティベーション関数の選択は必要に応じて行う必要があることを別の場所で読みました。つまり、-1から1の範囲の値が必要な場合はtanhを使用し、0から1の範囲にシグモイドを使用します私の質問は、自分のニーズがどのようにわかるのかということです。入力レイヤーの範囲に基づいていますか。たとえば、入力レイヤーの値の全範囲を網羅できる関数を使用するか、入力レイヤーの分布を何らかの形で反映します（ガウス関数）。それとも、問題/ドメイン固有のニーズであり、この選択を行うには経験/判断が必要ですか？それとも単に、「相互検証された最良の最小トレーニングエラーを与えるものを使用する」か？

14 machine-learning classification neural-networks

1

ニューラルネットワークでバイナリ入力と連続入力が混在する場合の対処方法

Rでnnetパッケージを使用して、コンドミニアム（個人プロジェクト）の不動産価格を予測するANNを構築しようとしています。私はこれに新しく、数学の背景を持っていないので、私と一緒に裸にしてください。バイナリと連続の両方の入力変数があります。たとえば、元々はyes / noだった一部のバイナリ変数は、ニューラルネット用に1/0に変換されました。他の変数はのように連続していSqftます。入力データのサンプルすべての値を0〜1のスケールで正規化しています。たぶん、Bedrooms及びBathroomsその範囲のみであるため、正規化すべきではありません0-4？これらの混合入力は、ANNに問題を引き起こしますか？私は大丈夫な結果を得ましたが、綿密な調査で、ANNが特定の変数に選択した重みは意味をなさないようです。私のコードは下にありますが、提案はありますか？ ANN <- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + Terrace + Washer.Dryer + Doorman + Exercise.Room + New.York.View,data[1:700,], size=3, maxit=5000, linout=TRUE, decay=.0001) 更新：バイナリ入力を各値クラスの個別のフィールドに分割することに関する以下のコメントに基づいて、私のコードは次のようになりました。 ANN <- nnet(Price ~ Sqft + Studio + X1BR + X2BR + …

14 r machine-learning data-transformation neural-networks nnet

3

隠れマルコフモデルのしきい値処理

私はmfccおよび非表示のマルコフモデルを使用した音声認識のための概念実証システムを開発しました。既知の音でシステムをテストすると、有望な結果が得られます。システムは、未知の音が入力されると、最も近い一致で結果を返しますが、スコアは考案するのにそれほど明確ではありません。私は、スピーチ用、水道の蛇口から出る水用、机の上でノックするための3つの隠れたマルコフモデルを訓練しました。それから、私はそれらを目に見えないデータでテストし、次の結果を得ます： input: speech HMM\knocking: -1213.8911146444477 HMM\speech: -617.8735676792728 HMM\watertap: -1504.4735097322673 So highest score speech which is correct input: watertap HMM\knocking: -3715.7246152783955 HMM\speech: -4302.67960438553 HMM\watertap: -1965.6149147201534 So highest score watertap which is correct input: knocking HMM\filler -806.7248912250212 HMM\knocking: -756.4428782636676 HMM\speech: -1201.686687761133 HMM\watertap: -3025.181144273698 So highest score knocking which is correct input: …

14 machine-learning hidden-markov-model pattern-recognition

2

可変数の特徴を持つデータセットを扱う

可変数の特徴を持つデータを分類するためのいくつかのアプローチは何ですか？例として、各データポイントがxおよびyポイントのベクトルであり、各インスタンスに同じ数のポイントがないという問題を考えます。xおよびyポイントの各ペアを特徴として扱うことはできますか？または、各データポイントに固定数のフィーチャが含まれるように、ポイントを何らかの形で要約する必要がありますか？

14 machine-learning missing-data

3

学校の子供に統計と機械学習について何を伝えることができますか？

来週、家の地元の学校からインターンを迎えます。彼の短いインターンシップの背後にあるコンセプトは、現実の世界がどのように機能し、特定の仕事が何を扱うか、毎日の仕事がどのように見えるかなどを知ることです。今、私はそのような若い子供に統計と機械学習について何を伝える/見せる/実証することができるのだろうと思ったので、彼/彼女はこの分野の基本的なアイデアを得る熱心になっています（子供の優先順位が他の利益に有利に重くなりすぎないと仮定します）翌日それを忘れない私は主に画像の貼り付け、デモンストレーションの例などを探しています。子供の背景： 15〜16歳基本的な数学の概念が知られている（グラフとは何か、3つの規則、変数とは何か（数学的に、統計的には言えない））この質問の難しい部分は、背景知識のない人にあなたの地域を説明することであるため、この質問は、親relativeや友人とのチャットの参考にもなります。サイドノート：私は自分の仕事の説明を意図的にスキップしたので、この質問はあまり具体的ではなく、この質問はこのサイトの一般的なトピックに関するものです。

14 machine-learning teaching

2

機械学習のためにカテゴリ機能を数値にエンコードする

ニューラルネットワークなどの多くの機械学習アルゴリズムは、数値を扱うことを想定しています。そのため、カテゴリデータがある場合は、変換する必要があります。カテゴリ別の意味は、たとえば：自動車ブランド：アウディ、BMW、シボレー...ユーザーID：1、25、26、28 ... ユーザーIDは数字ですが、単なるラベルであり、年齢や金額などの継続性の観点からは意味がありません。そのため、基本的なアプローチでは、バイナリベクトルを使用してカテゴリをエンコードするようです。アウディ：1、0、0 ... BMW：0、1、0 ...シボレー：0、0、1 ... カテゴリがほとんどない場合でも問題ありませんが、それ以上は少し非効率的に見えます。たとえば、10 000個のユーザーIDをエンコードする場合、10,000個の機能になります。質問は、より良い方法はありますか？たぶん、確率を伴うものですか？

14 machine-learning many-categories

5

どの統計分類アルゴリズムが入力シーケンスの真/偽を予測できますか？

入力シーケンスが与えられたら、このシーケンスに特定の望ましい特性があるかどうかを判断する必要があります。プロパティはtrueまたはfalseのみです。つまり、シーケンスが属することができるクラスは2つだけです。シーケンスとプロパティの正確な関係は不明ですが、非常に一貫性があり、統計的な分類に役立つはずです。分類器をトレーニングするケースは多数ありますが、このトレーニングセットではシーケンスに間違ったクラスが割り当てられる可能性がわずかにあるという意味で、少しうるさいかもしれません。トレーニングデータの例： Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... 大まかに言うと、プロパティはシーケンス内の値のセット（たとえば、「11」の存在はプロパティがほぼ確実にfalseであることを意味します）、および値の順序（「21 7 5 「プロパティがtrueである可能性が大幅に増加します）。トレーニング後、分類器にのように以前は見えなかったシーケンスを与えることができ(1 21 7 5 3)、プロパティがtrueであるという確信を出力する必要があります。この種の入力/出力で分類器をトレーニングするための有名なアルゴリズムはありますか？私は、単純なベイズ分類器（少なくとも入力が独立しているという仮定をひどく壊すことなく、順序が重要であるという事実に実際には適応できない）を検討しました。また、隠れマルコフモデルのアプローチについても調査しました。これは、入力ごとに1つの出力ではなく、1つの出力しか利用できないため、適用できないようです。私は何を取りこぼしたか？

14 machine-learning classification modeling

1

不均衡なクラスをオーバー/アンダーサンプリングする場合、精度の最大化は誤分類コストの最小化と異なりますか？

まず、データマイニングの書籍で使用されるいくつかの一般的なレイアウトについて説明し、不均衡なデータセットの処理方法を説明します。通常、メインセクションの名前はUnbalanced Datasetsで、これらの2つのサブセクション、コスト重視の分類とサンプリングテクニックについて説明します。まれなクラスの問題に直面すると、コストに敏感な分類とサンプリングの両方を実行できるようです。代わりに、まれなクラスも分類の対象であり、そのクラスのレコードの誤分類がコストがかかる場合は、コストに敏感な手法を適用する必要があると思います。一方、オーバーサンプリングやアンダーサンプリングなどのサンプリング手法は、特定のクラスに焦点を当てることなく、分類のターゲットが全体的に良好な精度である場合に役立ちます。この信念は、分類子をコスト重視にする一般的な方法であるMetaCostの理論的根拠に由来しています：まれなクラスの誤分類エラーにペナルティを課すために分類子をコスト重視にする場合、他のクラスをオーバーサンプリングする必要があります。大まかに言えば、分類器は他のクラスに適応しようとし、まれなクラスに固有になります。これは、まれなクラスをオーバーサンプリングすることの反対であり、通常、この問題に対処するために推奨される方法です。まれなクラスのオーバーサンプリングまたは他のクラスのアンダーサンプリングは、全体の精度を向上させるのに役立ちます。私の考えを確認していただければ幸いです。これを述べると、不均衡なデータセットが直面する一般的な質問は次のとおりです。他のレコードと同じくらい多くのまれなレコードをカウントするデータセットを取得しようとする必要がありますか？私の答えは、正確さを求めている場合です。OK。よりまれなクラスの例を見つけるか、他のクラスの一部のレコードを削除して実行できます。コストに敏感な手法でレアクラスに焦点を当てている場合は、答えます。レアクラスの例を見つけることはできますが、他のクラスのレコードは削除しないでください。後者の場合、分類器を他のクラスに適応させることはできず、まれなクラスの誤分類エラーが増加する可能性があります。あなたは何に答えますか？

14 machine-learning classification unbalanced-classes

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」