統計とビッグデータ classification

3

実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group（コントロール、実験）、time（最初、2、3）、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です！記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。どう思いますか？どちらが正しい方法でしょうか？

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

4

ベイジアン分類子は、数値メタデータを含むテキストに適したアプローチですか？

私のウェブサイトで詐欺広告を検出するためのアプローチを考え出そうとしています。詐欺を示す信号の多くは広告のテキスト内に見つかるので、問題はスパムメールの検出（多くの場合、単純なベイジアン分類器が一般的な解決策です）と多くの共通点があると思います。ただし、他にも特定の詐欺インジケーターになる可能性のある情報がありますが、ベイズ分類器がそれらを使用できるかどうか/どのように使用できるかはわかりません。数値が関係しているためです（範囲の両端の値が疑わしいため）。テキスト内の単語の有無に対応する単純なバイナリ値よりも。たとえば、多くの詐欺広告では、アイテムの価格が非常に低く設定されている（多くの視聴を引き付けるため）ので、広告が詐欺である可能性があることを示す強力な指標として、通常よりも低い価格を設定します。ベイズはまだ私の要件に適していますか？そうでない場合は、別のアプローチをお勧めできますか？

8 bayesian classification naive-bayes

1

RBFカーネルを使用した非線形SVM分類

私は、RBFカーネルで非線形SVM分類器を実装しています。通常のSVMとの唯一の違いは、ドット積をカーネル関数に置き換えるだけでよいということです：通常の線形SVMのしくみを知っています。つまり、2次最適化問題（デュアルタスク）を解決した後、最適な分割超平面をとして計算します。および超平面のオフセットここで、はトレーニングベクトルのリスト、はそれぞれのラベル（）、K(xi,xj)=exp(−||xi−xj||22σ2)K(xi,xj)=exp⁡(−||xi−xj||22σ2) K(x_i,x_j)=\exp\left(-\frac{||x_i-x_j||^2}{2\sigma^2}\right) w∗=∑i∈SVhiyixiw∗=∑i∈SVhiyixi w^*=\sum_{i \in SV} h_i y_i x_i b∗=1|SV|∑i∈SV(yi−∑j=1N(hjyjxTjxi))b∗=1|SV|∑i∈SV(yi−∑j=1N(hjyjxjTxi)) b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j x_j^T x_i\right)\right) xxxyyyyi∈{−1,1}yi∈{−1,1}y_i \in \{-1,1\}hhhはラグランジュ係数で、はサポートベクトルのセットです。その後、と単独で使用して簡単に分類できます：。SVSVSVw∗w∗w^*b∗b∗b^*cx=sign(wTx+b)cx=sign(wTx+b)c_x=\text{sign}(w^Tx+b) しかし、RBFカーネルではそのようなことはできないと思います。示唆するいくつかの資料を見つけました。それなら簡単でしょう。それにもかかわらず、私はこのカーネルにそのような分解が存在するとは考えておらず、どこにも言及されていません。分類にはすべてのサポートベクターが必要な状況ですか？もしそうなら、その場合どのように分類しますか？K(x,y)=ϕ(x)ϕ(y)K(x,y)=ϕ(x)ϕ(y)K(x,y)=\phi(x)\phi(y)

8 classification svm kernel-trick nonlinear

1

データセットで学習を行わない場合、分類エラーは低くなりますか？

単語の袋のデータセットがあります。私はランダムにいくつかのポイントを選択し、それらをテストに使用し、他のポイントはトレーニングに使用します。ケース（1）テストセットから各データポイントを取得し、トレーニングセットからの最も近いポイントと同じクラスラベルを持つものとして分類します。ケース（2）既知の教師付き分類子を使用して分類を行います。ケース（1）の方が常に認識率が高くなります。つまり、このデータセット（およびその他のデータセット）については、監視付き学習を使用するよりも、まったく学習を行わない方が優れています。それは頻繁な状況ですか？

8 machine-learning classification

3

マルチラベルロジスティック回帰

ロジスティック回帰を使用してマルチラベルデータを分類する方法はありますか？マルチラベルとは、複数のカテゴリに同時に属することができるデータを意味します。このアプローチを使用して、いくつかの生物学的データを分類したいと思います。

8 classification logistic multilabel

1

マルチクラスLDAと2クラスLDA

LDAを使用してマルチクラス分類器を設計する問題は、2クラス問題（1つ対その他すべて）またはマルチクラス問題として表すことができます。特定のケースでマルチクラスLDA分類器が2クラスLDA（1つ対他のすべて）を上回る、またはその逆の場合があるのはなぜですか。

8 machine-learning classification pattern-recognition discriminant-analysis

1

名義属性を持つ順次データの分析のためのデータマイニングアプローチ

経験豊富なデータマイナーへの質問：このシナリオを考えると： N個のショッピングカートがあります各ショッピングカートには、無限に大きいセットからの任意の数のMアイテムが入っています（私が持っている現在のデータ量では、その任意の数は約1500に達する可能性があります）。各カートが満たされる順序は重要です買い物客の地理位置情報などの他の属性もありますが、アルゴリズムをより簡単にするために、これらの属性を破棄することができます（現在は除外しています）。する必要がある：特定の時点で、各カートに注文されたアイテムのセットのみが与えられている場合、クラスラベルの事前の知識がなくても「類似した」カートを識別します一定量のデータが収集され、データが処理されてラベルが割り当てられたら、将来の目に見えないデータをすばやく処理できる分類子を作成します最初のアプローチ：これまでのところ、私のアプローチは最初の点に焦点を当ててきました。私の方法では、k平均クラスタリングを使用し、カート間のハミング距離を計算して生成された距離行列を使用して、データの順次的な性質を処理します。このように、[りんご、バナナ、梨]は[梨、りんご、バナナ]とは異なりますが、[りんご、バナナ、梨]は[りんご、バナナ、カモシカ]とそれほど異なりません。kの適切な値は、シルエット係数の調査を通じて決定されます。これから生成されたクラスターは理にかなっているように見えますが、私のデータセットがスケーリングするため、私のメソッドの実行時間は明らかに禁止されます。質問：誰かがこの問題について初心者のデータマイナーに何か提案をすることはありますか？詳細情報を含む編集： n-gram機能を使用してペアで比較することを検討する提案を見つけました。これについて私が懸念しているのは順序です。n-gramモデルが使用されている場合、シーケンスの順序は維持されますか？また、この方法ではパフォーマンスの問題が発生する可能性が高くなります。

8 clustering classification data-mining ordinal-data

1

RまたはMATLABでキャリブレーションされたブーストされた決定木

で教師付き学習アルゴリズムのアン実証的比較（2006 ICML）著者（リッチカルアナとアレクサンドル・ニクレスク-Mizil）は、いくつかの分類アルゴリズム（SVMを、ANN、KNN、ランダムフォレスト、決定木など）を評価した、と報告した校正ブースト木々こと8つの異なるメトリック（Fスコア、ROC面積、平均精度、クロスエントロピーなど）全体で最高の学習アルゴリズムとしてランク付けされています。キャリブレーションされたブーストされた決定木をテストしたい私のプロジェクトの1つでと思います。誰かがこれに適したRパッケージまたはMATLABライブラリを提案できるかどうか疑問に思っていました。私はRに比較的慣れていませんが、MATLABおよびPythonでの経験は豊富です。私はRさんについて読んだことがGBM、木、およびRPARTが、これらのパッケージが調整されたブーストされた決定木を実装しているかどうか、またはそれらを実装している他のパッケージがあるかどうかはません。ありがとう

8 r classification matlab

1

継続的な臨床変数と遺伝子発現データの相関

各ケースとコントロールの〜25の遺伝子発現（〜400変数/遺伝子）のデータセットのSVM（線形カーネル）分類分析では、遺伝子発現ベースの分類子が非常に優れたパフォーマンス特性を持っていることがわかりました。ケースとコントロールは、（フィッシャーの正確確率検定またはt検定に従って）多数のカテゴリー的および継続的な臨床/人口統計学的変数について有意差はありませんが、年齢については有意差があります。分類分析の結果が年齢の影響を受けているかどうかを示す方法はありますか？遺伝子発現データを主成分に減らし、年齢に対する成分のスピアマン相関分析を行うことを考えています。これは合理的なアプローチですか？または、SVM分析で得られた年齢とクラスメンバーシップの確率値の相関関係を確認できますか。ありがとう。

8 correlation classification pca continuous-data

1

分類モデルと同様のスコアのランダム生成

こんにちは仲間の数クラッカーバイナリ分類モデルによって生成されたかのように、（クラスラベルと共に）n個のランダムスコアを生成したいと思います。詳細には、次のプロパティが必要です。すべてのスコアは0から1の間ですすべてのスコアは、値が「0」または「1」のバイナリラベルに関連付けられています（後半は陽性クラス）スコアの全体的な精度は、たとえば0.1（<-ジェネレータのパラメータ）である必要がありますラベル「1」のスコアの比率は、上部セクション全体の精度より高く、下部セクションでは低くする必要があります（<-「モデル品質」もジェネレーターのパラメーターである必要があります）スコアは、結果のroc曲線が滑らかになるようにしてください（たとえば、ラベル「1」のスコアの束が上部にあり、ラベル「1」の残りのスコアが下部にあるなどリスト）。これにどのように取り組むかについて誰かが考えを持っていますか？多分roc-curveの生成を介して、その治療法からポイントを生成しますか？前もって感謝します！

8 machine-learning classification roc random-generation

2

非常に高い次元での相互検証（非常に高い次元の分類で使用される変数の数を選択するため）

私の質問は、観測値よりも多くの変数がある場合の相互検証についてです。アイデアを修正するために、非常に高い次元（観察よりも多くの機能）の分類フレームワークに制限することを提案します。問題：各変数について、分類問題の特徴の関心度を正確に測定するよりも重要度測定値があると仮定します。特徴のサブセットを選択して分類エラーを最適に減らすという問題は、特徴の数を見つけるという問題に減少します。i=1,…,pi=1,…,pi=1,\dots,pT[i]T[i]T[i]iii 質問：この場合に相互検証を実行する最も効率的な方法は何ですか（相互検証スキーム）？私の質問は、コードの記述方法ではなく、選択された機能の数を見つけようとするときに使用する交差検証のバージョン（分類エラーを最小限に抑えるため）ではなく、交差検証を実行するときに高次元を処理する方法（したがって、上記の問題は、CVを高次元で議論するための「おもちゃの問題」のようなものです。表記：は学習セットのサイズ、pは特徴の数（つまり、特徴空間の次元）です。非常に高い次元とは、p >> nを意味します（たとえば、および）。nnnp=10000p=10000p=10000n=100n=100n=100

8 machine-learning classification cross-validation

1

オープンソースのペアワイズ学習モデル

ペアワイズ学習トレーニングセットを使用して分類問題を解決しています。私たちは2つのクラスを持っています：悪いと良い。オブジェクトのペアもあります（a私、b私）んi = 1(ai,bi)i=1n(a_i,b_i)_{i=1}^n、つまりそのオブジェクト a私aia_i 優れているよりもb私bib_i。各オブジェクトは、その実際の座標を通じて記述されます。a私=バツ1私、バツ2私、…バツk私ai=xi1,xi2,…xika_i = x_i^1, x_i^2, \dots x_i^k。私の目的は、そのようなアルゴリズムを構築することです。それは、悪いテストオブジェクトと優れたテストオブジェクトについて述べています。問題は、この種のペアワイズ学習問題を解決するために、どのオープンソースのアルゴリズム/プログラム/パッケージを提案できるかです。そのようなペアワイズトレーニングデータを処理するsvm-lightプロジェクトからのsvm-rankアルゴリズムのみを見つけました。matlab / R / rapidminerで同様のものが見つからなかったのでしょうか。

8 machine-learning classification

1

コンテンツに基づく会話の分類

会話の種類を区別できる分類子を設計できるようにしたいと思います（気分、誠実さ、または結果について必ずしも何も伝えられていませんが、少し離れすぎています）。たとえば、会話の50のサンプルのうち、10は将来のイベントに関する情報を求める両方の当事者を含み、30は目標がないように見え、10は過去のイベントについて別の当事者から情報を求めることを含みます（実際、アルゴリズムはこれらは、実際の状況に関係なく、タイプI、II、またはIIIです。言い換えると、話者の順序はコンテンツと一緒に重要であり、おそらく特定のキーワードでアルゴリズムをシードすることによって助けられるでしょう。このタスクをかなり高い精度で実行できる分類システムはありますか？

8 machine-learning classification text-mining

5

分類子の精度の統計的有意性を評価する方法は？

パーセンテージと入力サンプル数で分類子の精度を出力します。この情報に基づく結果が統計的に有意であるかどうかを判断できるテストはありますか？ありがとう

8 statistical-significance classification

2

いくつかのバイナリテストの結果を組み合わせる方法は？

まず、38年前に工学部で統計学のコースを1つ受けていたとしましょう。だから私はここで盲目的に飛んでいます。疾患の診断テストは基本的に18種類ありますが、その結果はわかりました。各テストはバイナリです-はい/いいえ、テストを「調整」するために調整できるしきい値はありません。各テストについて、「ゴールドスタンダード」と比較した場合の真/偽陽性/陰性の表向きは有効なデータがあり、特異性と感度の数値（およびそのデータから導出できる他のすべて）が得られます。もちろん、単独で使用するのに十分な特異性/感度を持つ単一のテストはありません。また、すべてのテストの結果を「目玉」にした場合、多くの場合、明らかな傾向はありません。これらの数値を組み合わせて、（できれば）単一のテストよりも信頼性の高い最終スコアが得られるようにするための最良の方法は何でしょうか。これまでのところ、TRUEテストの特異性を組み合わせて spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N) FALSEの感度を組み合わせると、同じ方法でテストされます。比率 (1 - sens_combined) / (1 - spec_combined) 次に、10を超える値は信頼できるTRUEであり、0.1未満の値は信頼できるFALSEであり、かなり良い「最終スコア」をもたらすようです。しかし、このスキームは真の厳密さを欠いており、テスト結果のいくつかの組み合わせでは、直感に反する答えを生成するようです。特異性と感度を考慮して、複数のテストのテスト結果を組み合わせるより良い方法はありますか？（一部のテストの特異度は85、感度は15です。他のテストはその逆です。） OK、頭が痛い！感度/特異度（％）のテスト1〜4があるとします。 65/50 25/70 30/60 85/35 テスト1と2は陽性、3と4は陰性です。 1が偽陽性であると推定される確率は（1-0.5）であり、2は（1-0.7）であるため、両方が偽陽性である確率は0.5 x 0.3 = 0.15です。 3および4が偽陰性であると推定される確率は、（1-0.3）および（1-0.85）または0.7 x 0.15 = 0.105です。（現時点では、数値が合計されないという事実は無視します。）ただし、1と2が真陽性であると推定される確率は0.65と0.25 …

8 classification bayesian diagnostic

タグ付けされた質問 「classification」

タグ付けされた質問「classification」