統計とビッグデータ clustering

2

教師なしアルゴリズム（クラスタリング）を使用して、異なるデータセットをグループ化しようとしています。問題は、私が多くの機能（〜500）と少量のケース（200-300）を持っていることです。これまでは、データを常にトレーニングセットとしてラベル付けしていた分類問題のみを使用していました。そこで、機能の事前選択にいくつかの基準（つまり、random.forest.importanceまたはinformation.gain）を使用し、次に、さまざまな学習者に順次転送選択を使用して、関連する機能を見つけました。これで、教師なし学習の場合、事前選択の基準がなく、順次フォワード選択を使用できないことがわかります（少なくともmlrパッケージでは使用できません）。クラスタリングアルゴリズムに適用する少数の機能を見つける前に主成分分析を実行できるかどうか疑問に思っていました。それとも他のアイデアはありますか？ありがとう編集：さて、オンラインで調査した後、質問を少し更新できます。まず、次の2つの理由により、アルゴリズムをクラスタリングする前にPCAの使用を妨げる記事をいくつか読んだことがあります。 PCはすべての機能の機能であるため、結果を初期データセットに関連付けることが難しく、解釈が難しくなります。さらに、実際には機能のごく一部しかクラスタリングに役立たないという問題がある場合、これらの機能がサンプル間の最大の分散（PCが行うこと）も説明しているとは言えません。 PCAは発表されていません... これで、クラスタリングのために順次フォワード選択を行うという最初のアイデアに戻りました。どのパフォーマンス指標をお勧めしますか？（ダンインデックスについて考えました）どのクラスタリングアルゴリズムが多かれ少なかれ同じサイズのクラスターをもたらすでしょうか？（階層的クラスタリングでは、通常、1つの異常値を持つ1つのクラスターと残りすべての異常値を持つ別のクラスターを取得します->したがって、異常値から何らかの形で保護するものが必要になります）皆さんが私を助けてくれることを願っています...

9 r clustering feature-selection unsupervised-learning

2

非類似度メジャーの重みを見つける方法

クラスタリングに使用できる非類似度メジャーの属性の重みを学習（推定）したいと思います。「類似」するオブジェクトのペアのいくつかの例（同じクラスター内にある必要があります）、および「類似していない」オブジェクトのペアのいくつかの例（c i、d i）があります。 "（同じクラスター内にあってはなりません）。各オブジェクトにはいくつかの属性があります。必要に応じて、各オブジェクトをd次元の特徴ベクトルと考えることができます。ここで、各特徴は非負の整数です。そのような類似/非類似オブジェクトの例を使用して、非類似度測定値の最適な特徴の重みをそれらから推定する手法はありますか？(ai,bi)(ai,bi)(a_i,b_i)(ci,di)(ci,di)(c_i,d_i)ddd それが役立つ場合、私のアプリケーションでは、重み付けされたL2ノルムである非類似度の測定に集中することはおそらく妥当でしょう。 d(x,y)=∑jαj(x[j]−y[j])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. どこの重み知られていないと学習されるべきです。（または、重み付きコサイン類似性尺度のいくつかの種類があまりにも合理的であるかもしれない。）の重みを学習することが良いアルゴリズムですα Jを例与えられ、そのような措置のために？または、私が考慮すべき類似性測定値/非類似性測定値を学習する他の方法はありますか？αjαj\alpha_jαjαj\alpha_j ディメンションの数は残念ながら非常に多くなっています（数千以上。バッグオブワード機能から派生しています）。しかし、私は何万もの例を持っています。次に、クラスタ化したいオブジェクトが数十万あるので、優れた非類似度メトリックを学習するには、例から一般化することが重要です。私はこれが半教師ありクラスタリングのルーブリックに該当することを収集します。これは「類似性適応」の傾向のように聞こえますが、この目的に使用するアルゴリズムの明確な説明を見つけることができませんでした。

9 clustering similarities supervised-learning semi-supervised

2

この「Redditの米国」グラフはどのように作成されますか？

以下はpからのグラフです。James Dowdellが作成したものですが、Christian RudderのDataclysmの 202 。これは、ユーザーがリンク、コメント、および投票を送信できるreddit.comの関心領域である、さまざまな上位200のサブレディット間の関係を示しています。これらは、このサイトのタグに似ています。subredditリージョンのサイズはその人気を表しています。サブレディットはクロスコメントによってグループ化され、濃い色合いはそのサブレディット内にとどまり、他のユーザーに投稿しない人の割合を表します。これは標準的なボロノイ分割で、島の色を付けたものですか、それとももっと複雑なものですか？これらのいずれかを作成するにはどうすればよいですか？

9 clustering data-visualization

2

ノイズの多いデータまたは異常値を使用したクラスタリング

このような2つの変数のノイズの多いデータがあります。 x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- c(y1 + e1,yn) x <- …

9 r machine-learning clustering

1

scikit Learnの慣性公式のクラスタリング

パンダとscikit学習を使用して、Pythonでkmeansクラスタリングをコーディングしたいと思います。良いkを選択するために、Tibshirani and al 2001（pdf）からのギャップ統計をコード化したいと思います。すべての距離計算を再コーディングする必要なしに、scikitの惰性結果を使用してギャップ統計式を適応できるかどうか知りたいのですが。高レベル距離関数を使用してギャップ統計を再コーディングする簡単な方法をscikitで使用されている慣性公式を知っている人はいますか？

9 clustering python k-means scikit-learn metric

3

k-meansのクラスターの選択：1クラスターの場合

kmeansを使用したクラスタリングが適切かどうかを判断するための良い方法を知っている人はいますか？つまり、サンプルが実際に均質である場合はどうなりますか？（Rのmclustを介した）混合モデルのようなものが1：kクラスターの場合の適合統計を提供することを知っていますが、kmeansを評価するすべての手法には少なくとも2つのクラスターが必要であるようです。 kmeansの1と2のクラスターケースを比較する手法を知っている人はいますか？

9 r clustering k-means

5

事前クラスタリングは、より優れた予測モデルの構築に役立ちますか？

チャーンモデリングのタスクについて、私は検討していました：データのk個のクラスターを計算する各クラスターのkモデルを個別に作成します。その根拠は、サブスクライバの母集団が均一であることを証明するものは何もないため、データ生成プロセスが異なる「グループ」では異なる可能性があると仮定するのが妥当です私の質問は、それは適切な方法ですか？それは何かに違反していますか、それとも何らかの理由で悪いと考えられていますか？もしそうなら、なぜですか？そうでない場合、その問題に関するいくつかのベストプラクティスを共有しますか？2つ目は、モデルツリーよりも事前クラスタリングを行う方が一般に良いか悪いかです（Witten、Frankで定義されているように、葉にモデルがある分類/回帰ツリー。「通常の」クラスタリングよりも優れている場合はidk。

9 machine-learning clustering data-mining predictive-models

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

7

クラスタリングアルゴリズムの特性を示すための2D人工データの検索

さまざまな分布と形式に従う2次元のデータポイント（各データポイントは2つの値（x、y）のベクトル）のデータセットを探しています。そのようなデータを生成するコードも役立ちます。それらを使用して、いくつかのクラスタリングアルゴリズムが実行する方法をプロット/視覚化したいと思います。ここではいくつかの例を示します。星のような雲データ 4つのクラスター、1つは分離可能スパイラル（クラスターなし）指輪 2つのかろうじて分離された雲らせんを形成する2つの平行なクラスター ...など

9 distributions data-visualization clustering dataset

4

1Dデータが1つまたは3つの値の周りにクラスター化されているかどうかを定量的に確認するにはどうすればよいですか？

人間の心拍間の時間に関するデータがあります。異所性（追加）ビートの1つの兆候は、これらの間隔が1つではなく3つの値に集中していることです。どうすればこれを定量的に測定できますか？私は複数のデータセットを比較したいと考えています。これら2つの100ビンヒストグラムはそれらすべての代表です。分散を比較することもできますが、アルゴリズムで、各ケースに1つまたは3つのクラスターがあるかどうかを、他のケースと比較することなく検出できるようにしたいと考えています。これはオフライン処理用であるため、必要に応じて多くの計算能力を利用できます。

9 clustering

5

グラフのクラスタリングとコミュニティ検出方法の違いは何ですか？

基本的に、グラフのクラスタリングとコミュニティ検出方法の目標は、クラスターを計算することです。それらの間に違いはありますか？

9 clustering

2

階層的クラスタリングが有効であるためには、距離が「メトリック」である必要がありますか？

N個のアイテム間の距離をmetricではないものと定義するとします。この距離に基づいて、次に凝集階層的クラスタリングを使用します。既知の各アルゴリズム（単一/最大/平均リンクなど）を使用して、意味のある結果を取得できますか？または別の言い方をすると、距離がメトリックでない場合にそれらを使用することの問題は何ですか？

9 clustering multilevel-analysis metric hierarchical-clustering

4

非対称距離メジャーを使用したクラスタリング

非対称距離メジャーを使用してフィーチャをどのようにクラスタリングしますか？たとえば、曜日を特徴としてデータセットをクラスタリングしているとしましょう。月曜日から金曜日までの距離は金曜日から月曜日までの距離と同じではありません。これをクラスタリングアルゴリズムの距離測定にどのように組み込みますか？

9 clustering distance

2

Rでのノイズを伴うアプリケーションの密度ベースの空間クラスタリング（DBSCAN）クラスタリング

この質問は「Rでの空間データのクラスタリング」から始まり、現在はDBSCANの質問に移動しています。最初の質問への回答が示唆したように、私はDBSCANに関する情報を検索し、いくつかのドキュメントを読みました。新しい質問が発生しました。 DBSCANにはいくつかのパラメータが必要です。そのうちの1つは「距離」です。私のデータは3次元、経度、緯度、および温度なので、どの「距離」を使用する必要がありますか？どの距離がその距離に関連していますか？温度だと思います。Rでそのような最小距離を見つけるにはどうすればよいですか？別のパラメーターは、クラスターを形成するために必要なポイントの最小数です。その数を見つける方法はありますか？残念ながら見つかりませんでした。 Googleで検索すると、私のようなデータセットでdbscanを使用するためのRの例が見つかりませんでした。そのような種類のWebサイトを知っていますか？だから私は読んで私のケースに適応しようとすることができます。最後の質問は、DBSCANを使用した最初のR試行（前の質問に対する適切な回答なし）がメモリ問題を引き起こしたということです。Rは、ベクトルを割り当てることができないと言います。有効ではないSSTポイントを削除する場合、約300000行x 3列（緯度、経度、温度）で終わる779191ポイントの4 km間隔のグリッドから始めます。このメモリの問題に対処するためのヒント。それは私のコンピューターに依存していますか、それともDBSCAN自体に依存していますか？長くて退屈なメッセージを読むのを辛抱強く、そしてあなたの助けをありがとう。

9 r clustering spatial

3

k-meansアルゴリズムでの循環

wikiによると、最も広く使用されている収束基準は「割り当ては変更されていません」です。このような収束基準を使用すると、サイクリングが発生するのではないかと思いました。サイクリングの例を挙げている記事や、これが不可能であることを証明する記事への参照を誰かが指摘してくれたら嬉しいです。

9 clustering algorithms k-means

タグ付けされた質問 「clustering」

タグ付けされた質問「clustering」