統計とビッグデータ classification

5

トレーニングデータを増やすとシステム全体が改善される状況では、可能な例で誰かが私に要約することはできますか？トレーニングデータを追加すると、データが過剰に適合し、テストデータの精度が低下する可能性があることをいつ検出しますか？これは非常に非特定の質問ですが、特定の状況に固有の質問に答えたい場合は、そうしてください。

15 machine-learning classification dataset precision-recall

2

コインをひっくり返して分類器を組み合わせる

私は機械学習コースを勉強しており、講義のスライドには推奨されている本と矛盾する情報が含まれています。問題は次のとおりです。3つの分類子があります。低い範囲のしきい値でより良いパフォーマンスを提供する分類子A より高い範囲のしきい値でより優れたパフォーマンスを提供する分類子B 分類子C pコインを反転し、2つの分類子から選択することで得られるもの。 ROC曲線で見た分類器Cのパフォーマンスはどうなりますか？講義のスライドでは、このコインを反転させるだけで、分類器AとBのROC曲線の魔法の「凸包」が得られると述べています。私はこの点を理解していません。コインをひっくり返すだけで、どのようにして情報を得ることができますか？講義スライド本が言うこと一方、推奨される本（Ian H. Witten、Eibe Frank、Mark A. HallによるData Mining ...）は次のように述べています。これを確認するには、tAとfAのそれぞれ正と偽の正の割合を与えるメソッドAの特定の確率カットオフと、tBとfBを与えるメソッドBの別のカットオフを選択します。これら2つのスキームを確率pとq（p + q = 1）でランダムに使用すると、pの真と偽の陽性率が得られます。tA + q tBおよびp fA + q fB。これは、ポイント（tA、fA）と（tB、fB）を結ぶ直線上にあるポイントを表し、pとqを変えることにより、これら2つのポイント間のライン全体をトレースできます。私の理解では、本が言うことは、実際に情報を得て凸包に到達するためには、単にpコインをひっくり返すよりも高度なことをする必要があるということです。私の知る限り、正しい方法は（本で提案されているように）次のとおりです。分類器Aの最適なしきい値Oaを見つける必要があります分類器Bの最適なしきい値Obを見つける必要があります Cを次のように定義します。 t <Oaの場合、tで分類器Aを使用します t> Obの場合、tで分類器Bを使用 Oa <t <Obの場合、OaとObの間の位置の線形結合としての確率により、Oaを持つ分類器AとObを持つBの間を選択します。これは正しいです？はいの場合、スライドが示唆するものと比較していくつかの重要な違いがあります。それは単純なコインの反転ではなく、どの地域に属するかに基づいて手動で定義されたポイントとピックを必要とするより高度なアルゴリズムです。 OaとObの間のしきい値で分類子AとBを使用することはありません。私の理解が正しくなかった場合、この問題とそれを理解する正しい方法は何ですか？スライドが示すように、単にpコインを反転させるだけで何が起こるでしょうか？AとBの間のROC曲線が得られると思いますが、特定のポイントでより良い曲線よりも「良い」曲線になることはありません。私が見る限り、私はスライドがどのように正しいかを本当に理解していません。左側の確率的計算は私には意味がありません。更新： …

15 machine-learning probability data-visualization classification roc

4

背の高い脂肪データによる分類

数十万のデータポイントと約1万の機能を使用して、ラップトップで線形分類器をトレーニングする必要があります。私のオプションは何ですか？このタイプの問題の最新技術は何ですか？確率的勾配降下は有望な方向のようであり、私の感覚ではこれは最新技術であるということです。「Pegasos：SVMの原始推定サブGrAdient SOlver」Shai Shalev-Shwartz、Yoram Singer、Nathan Srebro、Andrew Cotter。」Mathematical Programming、シリーズB、127（1）：3-30、年：2007 これはコンセンサスですか？他の方向を向くべきですか？

15 classification

2

機能の数を増やすと精度は低下しますが、prec / recallは増加します

機械学習は初めてです。現時点では、NLTKとpythonを使用して、ナイーブベイズ（NB）分類器を使用して、3つのクラスの小さなテキストをポジティブ、ネガティブ、またはニュートラルとして分類しています。 300,000のインスタンス（16,924のポジティブ7,477のネガと275,599のニュートラル）で構成されるデータセットを使用していくつかのテストを行った後、フィーチャの数を増やすと、精度は低下しますが、ポジティブおよびネガティブクラスの精度/リコールは増加することがわかりました。これは、NB分類器の通常の動作ですか？より多くの機能を使用する方が良いと言えますか？一部のデータ： Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 F_Measure Class Neutral 0.904684 F_Measure Class Positive 0.223353 F_Measure Class Negative 0.134942 前もって感謝します... 2011/11/26を編集 Naive Bayes分類器を使用して、3つの異なる機能選択戦略（MAXFREQ、FREQENT、MAXINFOGAIN）をテストしました。最初に、精度とクラスごとのF1メジャーを示します。次に、トップ100およびトップ1000の機能でMAXINFOGAINを使用するときに、トレーニングセットを増分してトレインエラーとテストエラーをプロットしました。したがって、FREQENTを使用すると最高の精度が得られますが、MAXINFOGAINを使用したものが最適な分類器であるように思えますが、これは正しいですか？上位100個の機能を使用する場合、バイアスがあり（テストエラーはトレーニングエラーに近い）、トレーニングサンプルを追加しても役に立ちません。これを改善するには、さらに機能が必要です。1000個の機能を使用すると、バイアスは減少しますが、エラーは増加します... さらに機能を追加する必要がありますか？私はこれをどう解釈するか本当にわかりません... 再度、感謝します...

15 machine-learning classification naive-bayes precision-recall

5

異なる分類子の長所と短所の比較を含む優れたリソースとは何ですか？

すぐに使える最高の2クラス分類器とは何ですか？はい、私はそれが百万ドルの質問だと思います、そして、はい、私は知っています無料の昼食定理ないいます、そして私は前の質問も読んでいます：ご使用のアプリケーションに最適な、すぐに使用可能な2クラス分類子とは何ですか？そして最悪の分類器それでも、私はこの主題についてもっと読むことに興味があります。さまざまな分類器の特性、利点、機能の一般的な比較を含む、良い情報源は何ですか？

15 machine-learning classification references

4

時系列の統計的類似性

期間、最大、最小、平均などのさまざまな測定値を取得できる時系列があり、それらを使用して同じ属性を持つモデル正弦波を作成すると仮定すると、定量化できる統計的アプローチはありますか実際のデータが仮定されたモデルにどの程度適合しているか？シリーズのデータポイントの数は、10〜50ポイントの範囲になります。私の最初の非常に単純な考えは、正弦波の方向の動きに値を割り当てることでした。つまり、+ 1 +1 +1 +1 -1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1、実際のデータに対して同じことを行い、何らかの方法で方向性運動の類似度を定量化します。編集：データで本当にやりたいことをより深く考え、元の質問への回答に照らして、競合する仮定の間で選択する意思決定アルゴリズムが必要です：つまり、データは基本的に線形（またはトレンド）周期的な要素を含む可能性のあるノイズを含む; 私のデータは基本的に循環的であり、方向性のある傾向はありません。データは本質的に単なるノイズです。または、これらの状態のいずれかの間を移行しています。私の考えは、何らかの形のベイジアン分析とユークリッド/ LMSメトリックを組み合わせることです。このアプローチの手順は次のとおりです。データ測定から想定正弦波を作成します LMS直線をデータに適合させる上記のそれぞれの元のデータからの逸脱について、ユークリッドまたはLMSメトリックを導出しますこのメトリックに基づいて、それぞれのベイジアン事前分布を作成します。つまり、組み合わせた出発の60％が一方に接続し、40％が他方に接続します。ウィンドウをデータに沿って1データポイントスライドし、上記を繰り返して、このわずかに変更されたデータセットの新しい％メトリックを取得します-これは新しい証拠です-ベイジアン分析を実行して事後を作成し、各仮定に有利な確率を変更しますこのスライディングウィンドウ（ウィンドウ長10〜50データポイント）で、データセット全体（3000+データポイント）に沿って繰り返します。希望/意図は、データセットの任意の時点で優勢/好まれる仮定を特定し、これが時間とともにどのように変化するかです。この潜在的な方法論、特にベイジアン分析パートを実際に実装する方法についてのコメントを歓迎します。

15 time-series classification

10

ご使用のアプリケーションに最適な、すぐに使用可能な2クラス分類子とは何ですか？[閉まっている]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。閉じた3年前。ルール：回答ごとに1つの分類子同意したら投票する重複の削除/削除。コメントにアプリケーションを入れてください

15 machine-learning classification application

2

ニューラルネットワークとその他すべて

これに対する満足のいく答えがgoogleから見つかりませんでした。もちろん、私が持っているデータが数百万のオーダーである場合、深層学習が道です。そして、ビッグデータがない場合は、機械学習で他の方法を使用した方が良いかもしれないことを読みました。指定された理由は、過剰適合です。機械学習：すなわち、データの参照、特徴抽出、収集されたものからの新しい特徴の作成など。機械学習全体の9ヤードなど、重相関変数の削除など。そして、私は疑問に思っていました：なぜ1つの隠れ層を持つニューラルネットワークが機械学習問題の万能薬ではないのですか？それらは普遍的な推定量であり、過剰適合はドロップアウト、l2正則化、l1正則化、バッチ正規化で管理できます。トレーニングの例が50,000件しかない場合、通常、トレーニング速度は問題になりません。テスト時は、ランダムフォレストよりも優れています。なぜそうではないのですか？データをきれいにし、一般的に行うように欠損値を代入し、データを中央に配置し、データを標準化し、1つの隠れ層を持つニューラルネットワークのアンサンブルに投げ、過剰適合が見られないように正規化を適用してから訓練しますそれらを最後まで。勾配爆発や勾配消失は、2層のネットワークであるため問題ありません。深い層が必要な場合、それは階層的な機能を学習することを意味し、他の機械学習アルゴリズムも同様に良くありません。たとえば、SVMはヒンジ損失のみのニューラルネットワークです。他のいくつかの機械学習アルゴリズムが、慎重に正規化された2層（おそらく3？）のニューラルネットワークよりも優れている例はありがたいです。問題へのリンクを教えていただければ、できる限り最高のニューラルネットワークをトレーニングし、2層または3層のニューラルネットワークが他のベンチマーク機械学習アルゴリズムに及ばないかどうかを確認できます。

15 regression machine-learning classification neural-networks deep-learning

3

線形分類器の場合、係数が大きいほど重要な機能を意味しますか？

私は機械学習に取り組んでいるソフトウェアエンジニアです。私の理解から、線形回帰（OLSなど）および線形分類（ロジスティック回帰やSVMなど）は、トレーニング済み係数と特徴変数内積に基づいて予測を行います。w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 私の質問は、モデルがトレーニングされた後（つまり、係数が計算された後）、モデルがより正確に予測するために重要な特徴変数の係数が大きくなるということですか？wiwiw_i つまり、変数を係数値で並べ替えてから、最も高い係数を持つフィーチャを選択するだけで、係数の相対的な大きさをフィーチャ選択に使用できるかどうかを尋ねています。このアプローチが有効な場合、機能の選択について（ラッパーメソッドやフィルターメソッドなどとともに）言及されていないのはなぜですか。私がこれを尋ねる理由は、L1対L2の正規化に関する議論に出くわしたためです。次のような宣伝文句があります：組み込み機能の選択は、L1-normの有用なプロパティとして頻繁に言及されていますが、L2-normはそうではありません。これは実際にはL1ノルムの結果であり、スパース係数を生成する傾向があります（以下で説明します）。モデルに100個の係数があり、そのうちの10個のみが非ゼロ係数を持つと仮定すると、これは事実上「他の90個の予測変数は目標値の予測には役に立たない」と言っています。行間を読むと、係数が0に近い場合、その係数を持つ特徴変数にはほとんど予測力がないはずだと思います。編集：私はまた、数値変数にZスケーリングを適用しています。

15 regression machine-learning classification feature-selection linear-model

2

ランダムフォレストについて報告するトレーニングエラーの尺度

現在randomForest、R のパッケージを使用して分類問題にランダムフォレストを適合させていますが、これらのモデルのトレーニングエラーを報告する方法については不明です。コマンドで取得した予測を使用して計算すると、トレーニングエラーは0％に近くなります。 predict(model, data=X_train) X_trainトレーニングデータはどこにありますか。関連する質問への回答では、ランダムフォレストのトレーニングエラーメトリックとしてout-of-bag（OOB）トレーニングエラーを使用する必要があることを読みました。この数量は、コマンドで取得した予測から計算されます。 predict(model) この場合、OOBトレーニングエラーは平均10 CVテストエラーである11％にはるかに近くなります。不思議なんだけど：ランダムフォレストのトレーニングエラーの尺度としてOOBトレーニングエラーを報告することは一般に受け入れられていますか？従来のトレーニングエラーの測定値が人為的に低いというのは本当ですか？従来のトレーニングエラーの測定値が人為的に低い場合、RFが過適合であるかどうかを確認するために2つの測定値を比較できますか？

15 r machine-learning classification random-forest overfitting

3

分類子を評価するときにエラーメトリックを選択する方法は？

Kaggleコンペティションで使用されるさまざまなエラーメトリックスを見ました：RMS、平均二乗、AUCなど。エラーメトリックの選択に関する一般的な経験則は何ですか。つまり、特定の問題に対してどのエラーメトリックを使用するかをどのように知るのですか。ガイドラインはありますか？

15 machine-learning classification error

2

精密リコール曲線の「ベースライン」とは

正確なリコール曲線を理解しようとしていますが、精度とリコールが何であるかは理解していますが、理解できないのは「ベースライン」値です。私はこのリンクを読んでいました https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ 「完全な分類子の精度-リコール曲線」に示されているように、ベースライン部分が理解できません。そして、どのように計算するのですか？選択したランダムなベースラインですか？たとえば、retweet,status_countetcなどの属性を持つtwitterデータがあり、Favoritedお気に入りの場合はクラスラベルは1、お気に入りでない場合は0で、単純なベイズを適用し、今度は正確なリコールカーブを描画したいのですが、この場合のベースラインの設定方法を教えてください？

15 r machine-learning classification precision-recall

1

決定木の深さ

デシジョンツリーアルゴリズムはすべてのステップで属性で分割されるため、デシジョンツリーの最大の深さはデータの属性の数に等しくなります。これは正しいです？

14 classification cart

3

サポートベクターマシンと超平面の直観

私のプロジェクトでは、バイナリ分類（1または0）を予測するためのロジスティック回帰モデルを作成します。 15個の変数があり、そのうち2個はカテゴリ変数で、残りは連続変数と離散変数の混合です。ロジスティック回帰モデルに適合するために、SVM、パーセプトロンまたは線形プログラミングのいずれかを使用して線形分離可能性をチェックすることをお勧めします。これは、線形分離性のテストに関するここでの提案と関連しています。機械学習の初心者として、私は上記のアルゴリズムに関する基本的な概念を理解していますが、概念的には非常に多くの次元（この場合は15）を持つデータを分離する方法を視覚化するのに苦労しています。オンライン資料のすべての例は、通常、2つの数値変数（高さ、重量）の2Dプロットを示しています。これは、カテゴリ間の明確なギャップを示し、理解しやすくしますが、実際のデータは通常、はるかに高い次元です。Irisデータセットに引き戻され続け、3つの種に超平面を当てはめようとしています。2つの種の間でそうすることが不可能ではないにしても、特に難しい方法です。さらに高次元の場合、どのようにこれを達成しますか？この分離可能性を達成するためにカーネルを使用して高次元空間にマッピングする特定の数の特徴を超えると仮定されますか？また、線形分離可能性をテストするために、使用されるメトリックは何ですか？SVMモデルの精度、つまり混同マトリックスに基づく精度ですか？このトピックをよりよく理解するための助けをいただければ幸いです。また、以下はデータセット内の2つの変数のプロットのサンプルであり、これらの2つの変数だけが重なり合っていることを示しています。

14 machine-learning logistic classification svm separation

3

データ増強と訓練検証分割の方法

機械学習を使用して画像分類を行っています。トレーニングデータ（画像）があり、そのデータをトレーニングセットと検証セットに分割するとします。また、ランダムな回転とノイズ注入によってデータを増強します（元の画像から新しい画像を生成します）。拡張はオフラインで行われます。データ増強を行う正しい方法はどれですか？最初にデータをトレーニングセットと検証セットに分割し、次にトレーニングセットと検証セットの両方でデータ拡張を行います。最初にデータをトレーニングセットと検証セットに分割してから、トレーニングセットでのみデータの拡張を行います。最初にデータのデータ増強を行い、次にデータをトレーニングと検証セットに分割します。

14 machine-learning classification cross-validation dataset data-augmentation

タグ付けされた質問 「classification」

タグ付けされた質問「classification」