統計とビッグデータ classification

5

クロスバリデーションを行っている分類子と、機能の最適な組み合わせを見つけるために前方選択を行っている100個程度の機能があります。また、これをPCAで同じ実験を実行した場合と比較します。PCAでは、潜在的な特徴を取り、SVDを適用し、元の信号を新しい座標空間に変換し、前方選択プロセスで上位特徴を使用します。kkk 私の直感では、信号は元の機能よりも「有益」であるため、PCAは結果を改善します。PCAに対する私の素朴な理解は、私をトラブルに導きますか？PCAが特定の状況では結果を改善するが、他の状況では結果を悪化させる一般的な理由のいくつかを提案できますか？

27 classification pca feature-selection

1

相互検証は検証セットの適切な代替物ですか？

テキスト分類では、約800サンプルのトレーニングセットと約150サンプルのテストセットがあります。テストセットは使用されたことがなく、最後まで使用されるのを待っています。私は800のサンプルトレーニングセット全体を使用し、分類器と機能を調整および微調整しながら10倍の相互検証を行います。つまり、個別の検証セットはありませんが、10倍に達するたびに検証セットが自動的に選択されます。すべてに満足し、評価の最終段階に入りたいと思ったら、800サンプル全体で分類器をトレーニングします。150サンプルのテストセットでテストします。テキスト分類でのクロス検証のそのような使用法を理解していますか？このプラクティスは有効ですか？クロス検証に関するもう1つの質問は次のとおりです。 10倍ではなく、パフォーマンスの一般的な指標として1つを省いてみました。除外する場合、f1 / precision / recallに関する情報を取得することはできないため、leave-one-outの精度と10倍のメトリクスの関係はどうなっているのでしょうか？どんな洞察も大歓迎です。編集：これは、相互検証の非常に良い紹介です。また、他の研究論文も参照しています。

27 machine-learning classification cross-validation text-mining

4

CARTを使用する際の「変数重要度」の測定/ランク付け方法（具体的にはRの{rpart}を使用）

rpart（R内）を使用してCARTモデル（特に分類ツリー）を構築する場合、モデルに導入されたさまざまな変数の重要性を知ることはしばしば興味深いです。したがって、私の質問は次のとおりです。CARTモデルの参加変数の変数の重要度をランク付け/測定するための一般的な尺度は何ですか？Rを使用してこれをどのように計算できますか（たとえば、rpartパッケージを使用する場合）たとえば、ダミーコードを作成して、ソリューションを示します。この例は、変数x1とx2が「重要」であり、（ある意味では）x1がx2よりも重要であることを明確にするように構造化されています（x1はより多くのケースに適用されるため、データの構造により大きな影響を与えるため、次にx2）。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …

27 r classification model-selection cart rpart

7

Naive Bayesでは、テストセットに未知の単語があるのに、なぜラプラススムージングに悩まされるのですか？

今日は、単純ベイズ分類について読んでいた。追加のスムージングを使用したパラメーター推定の見出しの下で読みました：してみましょう（例えば正または負など）クラスを参照してください、としましょうトークンまたは単語を参照してください。cccwww の最尤推定量は、P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. この推定は、未知の単語を含むドキュメントに対して確率を与えるため、問題になる可能性があります。この問題を解決する一般的な方法は、ラプラス平滑化を使用することです。P(w|c)P(w|c)P(w|c)000 Vをトレーニングセット内の単語セットとし、単語セットに新しい要素（不明）を追加します。UNKUNKUNK 定義P（w | c ）= カウント（w 、c ）+ 1カウント（c ）+ | V| +1、P（w|c）=カウント（w、c）+1カウント（c）+|V|+1、P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

2

不適切なスコアリングルールを使用するのが適切な場合

マークル＆スタイバーズ（2013）執筆：適切なスコアリングルールを正式に定義するには、真の成功確率pを持つベルヌーイ試行dの確率的予測をとします。適切なスコアリングルールは、f = pの場合に期待値が最小化されるメトリックです。fffdddpppf= pf=pf = p これは良いことだと思います。なぜなら、私たちは、予測者が彼らの本当の信念を正直に反映する予測を生成することを奨励したいからです。不適切なスコアリングルールを使用することが適切である実際の例はありますか？ Reference Merkle、EC、およびSteyvers、M。（2013）。厳密に適切なスコアリングルールの選択。意思決定分析、10（4）、292-304

27 classification forecasting scoring-rules

1

svmでOne-vs-AllおよびOne-vs-One？

one-vs-allとone-vs-one SVM分類器の違いは何ですか？ one-vs-allは新しい画像のすべてのタイプ/カテゴリを分類する1つの分類子を意味し、one-vs-oneは新しい画像の各タイプ/カテゴリを異なる分類子で分類することを意味しますか（各カテゴリは特別な分類子によって処理されます）？たとえば、新しい画像が円、長方形、三角形などに分類される場合

26 machine-learning classification svm

2

判別分析の3つのバージョン：違いとその使用方法

誰もが違いを説明し、これらの3つの分析を使用する方法を特定の例を与えることができますか？ LDA-線形判別分析 FDA-フィッシャーの判別分析 QDA-二次判別分析私はどこでも検索しましたが、実際の値のない実際の例を見つけることはできませんでした。これらの分析がどのように使用され、計算されるかを確認できませんでした。私が理解しようとしたとき、どの方程式/式がLDAに属し、どの方程式/ FDAに属するかを区別するのは困難でした。たとえば、そのようなデータがあるとしましょう： x1 x2 class 1 2 a 1 3 a 2 3 a 3 3 a 1 0 b 2 1 b 2 2 b そして、いくつかのテストデータを考えてみましょう： x1 x2 2 4 3 5 3 6 では、これら3つのアプローチすべてでこのようなデータを使用する方法は？背後ですべてを計算する数学パッケージを使用するのではなく、すべてを手動で計算する方法を確認することをお勧めします。：PS私はこのチュートリアル見つけhttp://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDAを。LDAの使用方法を示します。

26 classification discriminant-analysis

2

ニューラルネットワーク：バイナリ分類では、1つまたは2つの出力ニューロンを使用しますか？

バイナリ分類を行うと仮定します（クラスAまたはクラスBに属するもの）。ニューラルネットワークの出力層でこれを行う可能性がいくつかあります。 1つの出力ノードを使用します。出力0（<0.5）はクラスAと見なされ、1（> = 0.5）はクラスBと見なされます（シグモイドの場合） 2つの出力ノードを使用します。入力は、最高の値/確率（argmax）を持つノードのクラスに属します。これを議論する（また）書かれた論文はありますか？検索する特定のキーワードは何ですか？この質問はすでにこのサイトですでに尋ねられています。たとえば、実際の答えのないこのリンクを参照してください。私は選択する必要があります（修士論文）ので、各ソリューションの賛否両論の洞察を得たいと思います。

26 machine-learning classification neural-networks

4

連続機能とカテゴリ機能の両方を使用した予測

予測モデリング手法の中には、連続予測変数を処理するように設計されているものもあれば、カテゴリ変数または離散変数を処理する方が優れているものもあります。もちろん、1つの型を別の型に変換する手法（離散化、ダミー変数など）があります。ただし、単純にフィーチャのタイプを変換せずに、両方のタイプの入力を同時に処理するように設計された予測モデリング手法はありますか？そうである場合、これらのモデリング手法は、より自然に適合するデータに対してよりうまく機能する傾向がありますか？私が知っている最も近いものは、通常、決定木がうまく離散データを処理し、それらが必要とせず、連続的なデータを扱うことになりますアップフロント離散化を。ただし、これは私が探していたものとはまったく異なります。効果的に連続フィーチャ上の分割は、動的な離散化の一種にすぎません。参考のために、関連する重複しない質問を次に示します。連続変数を予測するとき、決定木分割はどのように実装する必要がありますか？カテゴリー予測因子と連続予測因子が混在している場合、重回帰を使用できますか？カテゴリデータを連続として扱うのは理にかなっていますか？連続およびカテゴリー変数データ分析

26 classification predictive-models categorical-data continuous-data discrete-data

1

分類と回帰を組み合わせたアルゴリズムはありますか？

分類と回帰を同時に行うことができるアルゴリズムがあるかどうか疑問に思っています。たとえば、アルゴリズムに分類子を学習させたいと同時に、各ラベル内で連続ターゲットも学習させます。したがって、トレーニングの例ごとに、カテゴリラベルと連続値があります。最初に分類器をトレーニングし、次に各ラベル内のリグレッサーをトレーニングできますが、両方を実行できるアルゴリズムがあれば素晴らしいと思います。

25 regression machine-learning classification predictive-models finite-mixture-model

5

上位主成分は、従属変数の予測力をどのように保持できますか（または、より良い予測につながりますか）？

私は回帰実行していると仮定Y〜XY〜バツY \sim X。上位kkk主成分を選択することにより、モデルは予測力を保持するのはなぜですか？YバツバツXYYY 次元削減/機能選択の観点から、が上位固有値を持つの共分散行列の固有ベクトルであり、が上位主成分である場合、最大の分散で。それにより、特徴の数をkに減らして、予測力の大部分を保持することができます。 X K X 、V 1、XのV 2。。。X v k k kv1、v2、。。。vkv1、v2、。。。vkv_1, v_2, ... v_kXバツXkkkXv1,Xv2...Xvkバツv1、バツv2。。。バツvkXv_1, Xv_2 ... Xv_kkkkkkk しかし、なぜ上位コンポーネントが予測力を保持するのでしょうか？YkkkYYY 一般的なOLSについて話す場合、フィーチャ分散が最大である場合、が最も予測力があることを示唆する理由はありません。Z I Z I YY∼ZY〜ZY \sim ZZiZ私Z_iZiZ私Z_iYYY コメントを見た後の更新：次元削減のためにPCAを使用する例がたくさんあると思います。私は、残された次元が最も予測力があることを意味していると思っていました。それ以外の場合、次元削減のポイントは何ですか？

25 regression classification pca dimensionality-reduction regularization

2

PCAとLDAを組み合わせるのは理にかなっていますか？

たとえば、ベイズ分類器を介して、教師付き統計分類タスク用のデータセットがあるとします。このデータセットは20個のフィーチャで構成されており、主成分分析（PCA）や線形判別分析（LDA）などの次元削減手法を使用して2つのフィーチャに要約します。どちらの手法も、データをより小さな特徴部分空間に投影しています。PCAでは、データセットの分散を最大化する方向（コンポーネント）を見つけ（クラスラベルを考慮せず）、LDAでは、 -クラス分離。今、私はこれらの技術を組み合わせることができるのか、どのように、そしてなぜできるのか、それが理にかなっているのか疑問に思っています。例えば： PCAを介してデータセットを変換し、それを新しい2Dサブスペースに投影する LDAを介した（既にPCA変換済みの）データセットの変換クラス内の分離または PCAステップをスキップし、LDAの上位2つのコンポーネントを使用します。または意味のある他の組み合わせ。

25 classification pca regularization discriminant-analysis overfitting

4

ランダムフォレストを回避する場合

ランダムフォレストはさまざまなタスクでかなりよく動作することが知られており、学習方法の革細工人と呼ばれてきました。ランダムフォレストの使用を避けるべき問題や特定の条件はありますか？

25 machine-learning classification random-forest

3

最初に試す上位5つの分類子

のような明らかな分類器の特徴に加えて計算コスト機能/ラベルの期待されるデータタイプとデータセットの特定のサイズと次元への適合性、まだあまり知られていない新しいデータセット（たとえば、セマンティクスと個々の機能の相関）で最初に試す上位5（または10、20？）分類子は何ですか？通常、Naive Bayes、Nearest Neighbor、Decision Tree、SVMを試します。ただし、この選択を行う理由はありません。最も重要な一般的な分類アプローチをカバーする分類器を選択する必要があると思います。その基準に従って、またはその他の理由で、どの選択をお勧めしますか？更新：この質問の別の定式化は、「分類に対する一般的なアプローチが存在し、最も重要/人気のある/有望な方法をカバーする特定の方法はどれですか？」です。

25 machine-learning classification methodology

2

多問試験での不正行為のパターンの検出

質問：試験問題のバイナリデータがあります（正しい/正しくない）。一部の個人は、質問とその正解のサブセットに事前にアクセスした可能性があります。私は誰、何人、または誰がわからない。不正行為がない場合、アイテム正しい応答の確率をとしてモデル化するとします。ここで、は質問の難易度を表し、は個人の潜在能力です。これは、Rのltmのrasch（）のような関数で推定できる非常に単純な項目応答モデルです。潜在変数の推定（個人にインデックスを付ける）に加えて、個別の推定にアクセスできますL O G I T （（P iは = 1 | Z ））= β I + Z β I Z 、Z jは j個のq Jiiilogit((pi=1|z))=βi+zlogit((pi=1|z))=βi+zlogit((p_i = 1 | z)) = \beta_i + zβiβi\beta_izzzz^jz^j\hat{z}_jjjjq^jq^j\hat{q}_j 不正行為が不可能な別のデータセットから派生した同じ潜在変数の。目標は、だまされた可能性が高い個人と、だまされたアイテムを識別することです。あなたが取るかもしれないいくつかのアプローチは何ですか？生データに加えて、、、およびがすべて利用可能ですが、最初の2つは不正のためにバイアスがあります。理想的には、ソリューションは確率的クラスタリング/分類の形で提供されますが、これは必須ではありません。正式なアプローチと同様に、実用的なアイデアは大歓迎です。 Z j個のq jをβ^iβ^i\hat{\beta}_iz^jz^j\hat{z}_jq^jq^j\hat{q}_j これまで、スコアの高い個人と低い個人のペアの質問スコアの相関を比較しました（は彼らがだました確率の大まかな指標）。たとえば、個人をでソートし、個人の質問スコアの連続するペアの相関をプロットしました。また、値がの分位よりも大きい個体のスコアの平均相関をプロットしてみました、関数として。どちらのアプローチにも明らかなパターンはありません。のq J - Z j個のq J - Z j個のq J - Z jをNTHの …

25 r clustering classification psychometrics

タグ付けされた質問 「classification」

タグ付けされた質問「classification」