統計とビッグデータ classification

1

この記事では、著者は線形判別分析（LDA）を主成分分析（PCA）にリンクします。私の知識が限られているため、LDAがPCAといくぶん類似していることを理解することはできません。 LDAは、ロジスティック回帰と同様の分類アルゴリズムの一種であると常に考えてきました。LDAがPCAにどのように似ているか、つまり、次元削減手法であるLDAがどのように理解されているかを理解する上で、私はいくらか感謝します。

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

2

ランダムフォレストは過剰適合ですか？

私はscikit-learnを使用してランダムフォレストで実験しており、トレーニングセットでは素晴らしい結果を得ていますが、テストセットでは比較的悪い結果が得られています... ここに私が解決しようとしている問題（ポーカーに触発された）があります：プレーヤーAのホールカード、プレーヤーBのホールカード、およびフロップ（3枚のカード）がある場合、どのプレーヤーが最高のハンドを持っていますか？数学的には、これは14個の入力（7枚のカード-それぞれに1つのランクと1つのスーツ）と1つの出力（0または1）です。これまでの私の結果の一部を以下に示します。 Training set size: 600k, test set size: 120k, number of trees: 25 Success rate in training set: 99.975% Success rate in testing set: 90.05% Training set size: 400k, test set size: 80k, number of trees: 100 Success rate in training set: 100% Success rate in testing set: …

19 classification random-forest scikit-learn

3

分類のための半教師あり学習、能動学習、および深層学習

すべてのリソースが更新された最終編集：プロジェクトでは、機械学習アルゴリズムを分類に適用しています。課題：非常に限られたラベル付きデータと、より多くのラベルなしデータ。目標：半教師付き分類を適用する何らかの方法で半教師付きのラベル付けプロセスを適用します（アクティブラーニングとして知られています） EM、Transductive SVM、S3VM（Semi Supervised SVM）の適用、またはLDAの使用など、研究論文から多くの情報を見つけました。このトピックに関する本はほとんどありません。質問：実装と実際のソースはどこにありますか？最終更新（mpiktas、bayer、およびDikran Marsupialが提供するヘルプに基づく）半教師付き学習： TSVM：SVMligthおよびSVMlinで。 PythonのEM Naive Bayes LinePipeプロジェクトのEM 能動的学習： Dualist：テキスト分類に関するソースコードを使用した能動学習の実装このWebページは、アクティブラーニングの素晴らしい概要を提供しています。実験的なデザインワークショップ：ここ。深層学習：ここで紹介ビデオ。一般サイト。スタンフォード教師なし機能学習および深層学習チュートリアル。

19 machine-learning classification software svm text-mining

7

機械学習のバイアスデータ

私は、既にデータ選択によって（かなり）偏っているデータを使用した機械学習プロジェクトに取り組んでいます。ハードコーディングされたルールのセットがあると仮定しましょう。使用できるすべてのデータがこれらのルールによって既にフィルター処理されたデータである場合、それを置き換える機械学習モデルをどのように構築しますか？物事を明確にするために、最良の例は信用リスク評価でしょう。タスクは、支払いに失敗する可能性のあるすべてのクライアントをフィルタリングすることです。今、あなたが持っている唯一の（ラベル付けされた）データは、ルールのセットによって受け入れられたクライアントからのものです。受け入れた後にのみ、誰かが支払うかどうか（明らかに）を見るからです。ルールのセットがどれだけ優れているか、そしてそれらがどれだけ有料から非有料の分布に影響するかはわかりません。また、一連のルールにより、拒否されたクライアントからのラベルのないデータがあります。したがって、それらのクライアントが受け入れられた場合、それらのクライアントで何が起こるかはわかりません。たとえば、ルールの1つは次のようになります。「クライアントの年齢が18歳未満の場合、受け入れない」分類子には、これらのルールによってフィルタリングされたクライアントを処理する方法を学習する方法がありません。ここで分類器はどのようにパターンを学習することになっていますか？この問題を無視すると、これまでに遭遇したことのないデータにモデルがさらされることになります。基本的に、ここでxが[a、b]の外側にあるときのf（x）の値を推定したいと思います。

18 machine-learning classification data-mining bias extrapolation

1

一般的なオーバーサンプリング、および特にSMOTEアルゴリズムに関する意見[非公開]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。閉まっている 2年前にました。一般的な分類、特にSMOTEアルゴリズムのオーバーサンプリングについてのあなたの意見は何ですか？クラスデータの不均衡と不均衡なエラーコストを調整するために、単にコスト/ペナルティを適用しないのはなぜですか？私の目的では、将来の一連の実験ユニットに対する予測の精度が究極の尺度です。参考のために、SMOTEの論文： http

18 machine-learning classification oversampling

5

大規模なテキスト分類

テキストデータの分類を検討しています。私が持っている300 classes、クラスごとに200件のトレーニング文書を（そう60000 documents in total）、これはおそらくもたらすことがある非常に高い次元データ（私たちはを超えて見てすることができる100万の寸法）。パイプラインで次の手順を実行します（私の要件が何であるかを把握するためです）。各ドキュメントを特徴ベクトルに変換（tf-idfまたはvector space model） Feature selection（Mutual Informationできればベース、または他の標準的なもの）（分類器をトレーニングSVM、Naive Bayes、Logistic RegressionまたはRandom Forest）訓練された分類子モデルに基づいて、見えないデータを予測します。質問は、このような高次元のデータを処理するためにどのツール/フレームワークを使用するのですか？私はいつもの容疑者（R、WEKA ...）を知っていますが、私の知る限り（間違っているかもしれません）、おそらく誰もこの大規模なデータを処理できません。私が見ることができる他の市販のツールはありますか？並列化する必要がある場合、Apache Mahoutを検討する必要がありますか？必要な機能をまだ提供していないようです。事前にすべてに感謝します。更新：このWebサイト、Rメーリングリスト、およびインターネット全般を調べました。私の状況では、次の問題が発生する可能性があります。（1）R（特にtmパッケージ）を使用したデータの前処理は、非常に遅いため、実用的ではありませんtm。（2）Rパッケージ（前処理、スパース行列、分類子など）のアンサンブルを使用する必要があるため、パッケージ間の相互運用性が問題になる可能性があり、データをある形式から別の形式に変換する際に追加のオーバーヘッドが発生する可能性があります。たとえば、tm（またはWEKAなどの外部ツール）を使用して前処理を行う場合、このデータをRのHPCライブラリが読み取れる形式に変換する方法を見つける必要があります。繰り返しになりますが、分類器パッケージがHPCライブラリによって提供されるデータを直接取り込むかどうかは明確ではありません。私は正しい軌道に乗っていますか？そしてもっと重要なことは、私は理にかなっていますか？

18 machine-learning classification text-mining

10

ソーシャルネットワークデータセット

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。分類タスク用のソーシャルネットワークデータセット（twitter、friendfeed、facebook、lastfmなど）を探しています（できればarff形式）。 UCIとGoogleでの検索はこれまで成功していませんでした...何か提案はありますか？

18 classification dataset

2

オーバーサンプリングされた不均衡データの分類のテスト

私はひどく不均衡なデータに取り組んでいます。文献では、いくつかの方法を使用して、再サンプリング（オーバーサンプリングまたはアンダーサンプリング）を使用してデータのバランスを再調整しています。2つの優れたアプローチは次のとおりです。 SMOTE：合成マイノリティオーバーサンプリングTEchnique（SMOTE） ADASYN：不均衡学習のための適応合成サンプリングアプローチ（ADASYN） ADASYNを実装したのは、その適応性とマルチクラス問題への拡張の容易さからです。私の質問は、ADASYN（またはその他のオーバーサンプリング手法）によって生成されたオーバーサンプリングデータをテストする方法です。前述の2つの論文では、彼らがどのように実験を行ったかは明らかではありません。2つのシナリオがあります。 1-データセット全体をオーバーサンプリングし、それをトレーニングセットとテストセットに分割します（または相互検証）。 2-元のデータセットを分割した後、トレーニングセットのみでオーバーサンプリングを実行し、元のデータテストセットでテストします（クロス検証で実行できます）。最初のケースでは、結果はオーバーサンプリングを行わない場合よりもはるかに優れていますが、オーバーフィットがあるかどうか心配です。2番目の場合、結果はオーバーサンプリングなしの場合よりわずかに良く、最初の場合よりもはるかに悪いです。しかし、2番目のケースに関する懸念は、少数クラスのすべてのサンプルがテストセットに送られた場合、オーバーサンプリングでは利点が得られないことです。そのようなデータをテストする他の設定があるかどうかはわかりません。

18 classification dataset resampling unbalanced-classes oversampling

3

マルチクラス分類器の構築は、いくつかのバイナリ分類器よりも優れていますか？

URLをカテゴリに分類する必要があります。すべてのURLをゼロにする15のカテゴリがあるとします。 15ウェイ分類器の方が良いですか？15個のラベルがあり、各データポイントの機能を生成します。または、15種類のバイナリ分類子を作成します。たとえば、映画または非映画で、これらの分類から取得した数値を使用して、ランキングを作成し、最適なカテゴリを選択します。

18 machine-learning classification categorical-data svm feature-selection

1

クイズ：判定境界で分類器に通知する

以下に6つの決定境界を示します。決定境界はスミレ線です。点と十字は2つの異なるデータセットです。どちらを決定する必要があります：線形SVM カーネル化SVM（次数2の多項式カーネル）パーセプトロンロジスティック回帰ニューラルネットワーク（10の修正線形ユニットを含む1つの隠れ層）ニューラルネットワーク（10タン単位の1つの隠れ層）解決策があります。しかし、もっと重要なのは、違いを理解することです。たとえば、c）は線形SVMです。決定境界は線形です。しかし、線形SVM決定境界の座標を均質化することもできます。d）多項式化された次数2であるため、カーネル化されたSVM。f）「粗い」エッジにより修正されたニューラルネットワーク。たぶんa）ロジスティック回帰：線形分類器でもありますが、確率に基づいています。

17 machine-learning self-study classification neural-networks svm

3

アンサンブル分類器を使用しない場合

一般に、目標がサンプル外のクラスメンバーシップを正確に予測することである分類問題では、アンサンブル分類器を使用しないのはいつですか？この質問は、アンサンブル学習を常に使用しないのはなぜですか？。その質問は、なぜアンサンブルを常に使用しないのかを尋ねています。アンサンブルが同等のアンサンブルよりも悪い（「良くないだけでなく時間の無駄」ではない）ことがわかっている場合があるかどうかを知りたい。また、「アンサンブル分類器」とは、たとえば、独自にロールアップしたサポートベクターマシンとは対照的に、AdaBoostやランダムフォレストなどの分類器を指します。

17 classification boosting ensemble bagging

1

Naive BayesはSVMよりも優れたパフォーマンスを発揮しますか？

私が探していた小さなテキスト分類の問題で、Naive BayesはSVMと同等以上のパフォーマンスを示しており、非常に混乱していました。あるアルゴリズムが他のアルゴリズムよりも勝つことを決定する要因は何かと思いまして。SVMでNaive Bayesを使用しても意味がない状況はありますか？誰かがこれに光を当てることができますか？

17 machine-learning classification svm naive-bayes

1

ニュース記事に基づいて犯罪指数と政治的不安定性指数を構築したい

私は、この国のローカルニュースWebサイトをクロールし、犯罪指数と政治的不安定性指数を構築するこのサイドプロジェクトを持っています。プロジェクトの情報検索の部分についてはすでに説明しました。私の計画は次のとおりです。監視なしのトピック抽出。ほぼ重複した検出。監視された分類とインシデントレベル（犯罪/政治-高/中/低）。 pythonとsklearnを使用し、それらのタスクに使用できるアルゴリズムを既に研究しています。2.ストーリーの関連性の要因を与えることができると思います。ストーリーやトピックについてより多くの新聞が発行すればするほど、その日により関連するようになります。私の次のステップは、私が持っている機能に基づいて、月ごと、週ごと、日ごとのインデックス（全国および都市ごと）を構築することです。つまり、昨年の主要な不安定事件の指標は、今年の指標よりも低い可能性があります。また、固定スケール0-100を使用するかどうか。後で、これに基づいてインシデントを予測できるようにしたいと思います。たとえば、過去数週間の一連のイベントが重大なインシデントにつながっているかどうかです。しかし、今のところは、分類を機能させ、インデックスモデルを構築することに満足しています。論文へのポインタ、関連する読み物、または考えをいただければ幸いです。ありがとう。 PD：質問がここに属さない場合は申し訳ありません。更新：まだ「作成」していませんが、最近、ニュースアーカイブを使用してイベントを予測するシステムで作業している科学者グループに関するニュースがあり、関連する論文「マイニングthe Web to Predict Future Events」（PDF ）。

17 machine-learning classification text-mining

3

統計的有意性に関する2つの分類器の精度結果をt検定と比較する

統計的有意性について2つの分類器の精度を比較したいと思います。両方の分類器は同じデータセットで実行されます。これは、私が読んでいたものから1つのサンプルt検定を使用するべきだと思うように導きます。例えば： Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 これは使用するのに適切なテストですか？もしそうなら、分類器間の精度の差が有意であるかどうかをどのように計算しますか？または、別のテストを使用する必要がありますか？

17 machine-learning statistical-significance classification t-test

2

リッジ回帰分類器がテキスト分類で非常にうまく機能するのはなぜですか？

テキスト分類の実験中に、SVM、NB、kNNなどのテキストマイニングタスクに一般的に言及され、適用されている分類子の中で常にテストを上回る結果を生成するリッジ分類子を発見しました。パラメータに関するいくつかの簡単な調整を除き、この特定のテキスト分類タスクで各分類子を最適化する。そのような結果はディクラン・マースピアルにも言及されました。統計の背景から来ていない、オンラインでいくつかの資料を読んだ後、私はまだこれの主な理由を理解することはできません。誰でもそのような結果についての洞察を提供できますか？

17 machine-learning classification text-mining ridge-regression

タグ付けされた質問 「classification」

タグ付けされた質問「classification」