統計とビッグデータ clustering

2

質問：試験問題のバイナリデータがあります（正しい/正しくない）。一部の個人は、質問とその正解のサブセットに事前にアクセスした可能性があります。私は誰、何人、または誰がわからない。不正行為がない場合、アイテム正しい応答の確率をとしてモデル化するとします。ここで、は質問の難易度を表し、は個人の潜在能力です。これは、Rのltmのrasch（）のような関数で推定できる非常に単純な項目応答モデルです。潜在変数の推定（個人にインデックスを付ける）に加えて、個別の推定にアクセスできますL O G I T （（P iは = 1 | Z ））= β I + Z β I Z 、Z jは j個のq Jiiilogit((pi=1|z))=βi+zlogit((pi=1|z))=βi+zlogit((p_i = 1 | z)) = \beta_i + zβiβi\beta_izzzz^jz^j\hat{z}_jjjjq^jq^j\hat{q}_j 不正行為が不可能な別のデータセットから派生した同じ潜在変数の。目標は、だまされた可能性が高い個人と、だまされたアイテムを識別することです。あなたが取るかもしれないいくつかのアプローチは何ですか？生データに加えて、、、およびがすべて利用可能ですが、最初の2つは不正のためにバイアスがあります。理想的には、ソリューションは確率的クラスタリング/分類の形で提供されますが、これは必須ではありません。正式なアプローチと同様に、実用的なアイデアは大歓迎です。 Z j個のq jをβ^iβ^i\hat{\beta}_iz^jz^j\hat{z}_jq^jq^j\hat{q}_j これまで、スコアの高い個人と低い個人のペアの質問スコアの相関を比較しました（は彼らがだました確率の大まかな指標）。たとえば、個人をでソートし、個人の質問スコアの連続するペアの相関をプロットしました。また、値がの分位よりも大きい個体のスコアの平均相関をプロットしてみました、関数として。どちらのアプローチにも明らかなパターンはありません。のq J - Z j個のq J - Z j個のq J - Z jをNTHの …

25 r clustering classification psychometrics

5

各クラスターのポイント数が等しいクラスタリング手順？

にいくつかのポイントがあり、ポイントをクラスター化して次のようにします。X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 各クラスターには、等しい数のの要素が含まれます。（クラスターの数が分割すると仮定します。）XXXnnn 各クラスターは、平均のクラスターのように、ある意味で「空間的に凝集」しています。kkk これらのいずれかを満たす多くのクラスタリング手順を考えるのは簡単ですが、誰もが両方を一度に取得する方法を知っていますか？

25 machine-learning clustering k-means unsupervised-learning

3

データベースから1Dデータの異なるクラスターを決定する

異なるノード間のデータ転送のデータベーステーブルがあります。これは巨大なデータベースです（約4,000万回の転送）。属性の1つは、0バイトから2テラバイトの範囲のバイト数（nbytes）転送です。n個のクラスターを、k個のクラスターの一部のx1転送がk1クラスターに属し、x2トランスファーがk2に属するようにクラスター化したいと思います。私が使用した用語から、あなたは私が何をしようとしていたかを推測したかもしれません：K-means。nbytesが私が気にする唯一の機能なので、これは1dデータです。これとは異なる方法を探していたとき、EMが非クラスタリングアプローチとともに数回言及されているのを見ました。この問題にアプローチする方法についてのあなたの見解を知りたい（具体的にはクラスター化するかしないか）。ありがとう！

24 clustering k-means

3

視覚化のための次元削減は、t-SNEによって解決される「閉じた」問題と見なされるべきですか？

私は次元削減のための -snetttアルゴリズムについてたくさん読んでいます。MNISTのように数字の明確な分離を実現する「クラシック」データセットのパフォーマンスには非常に感銘を受けました（元の記事を参照）。また、トレーニング中のニューラルネットワークによって学習された機能を視覚化するためにも使用し、結果に非常に満足しています。だから、私が理解しているように： tttO （n ログn ）O（nログ⁡n）O(n \log n) これはかなり大胆な発言であることは承知しています。この方法の潜在的な「落とし穴」を理解することに興味があります。つまり、有用ではないことがわかっているケースはありますか？さらに、この分野の「未解決の」問題は何ですか？

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

2

それらの間の相関に基づくクラスタリング変数

質問：大きな相関行列があります。個々の相関をクラスタリングする代わりに、相互の相関に基づいて変数をクラスタリングします。つまり、変数Aと変数Bが変数C〜Zと同様の相関を持っている場合、AとBは同じクラスターの一部である必要があります。これの良い実例は、さまざまな資産クラスです。資産内クラス相関は、資産間クラス相関よりも高くなっています。また、変数AとBの相関が0に近い場合、それらは多かれ少なかれ独立して作用するなど、変数間の厳密な関係の観点から変数をクラスタリングすることも検討しています。根本的な条件が突然変化し、強い相関（正または負）が発生した場合、これら2つの変数は同じクラスターに属していると考えることができます。したがって、正の相関関係を探すのではなく、関係と関係なしを探します。類推は、正と負に帯電した粒子のクラスターになり得ると思います。電荷が0になると、粒子はクラスターから離れます。ただし、正電荷と負電荷の両方が粒子を魅力的なクラスターに引き付けます。これのいくつかがあまり明確でない場合、私は謝罪します。特定の詳細を明確にします。

23 correlation clustering correlation-matrix

1

距離メトリックとしての相関の使用（階層クラスタリングの場合）

データを階層的にクラスター化したいのですが、ユークリッド距離を使用するのではなく、相関を使用したいと思います。また、相関係数の範囲は-1から1であり、研究では-1と1の両方が「共規制」を表すため、-1と1の両方をd = 0として扱います。したがって、私の計算は d= 1 − | r | d=1−|r|\ d = 1-|r| コサイン定理を使用してrを真のユークリッドdに変換する必要があることを別の質問（k-meansクラスタリングに関して）で読みました：d= 2 （1 − r ）−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 階層的クラスタリングの相関を距離に変換する最も正確な方法は何ですか？

22 correlation clustering distance hierarchical-clustering

3

教師付きクラスタリングまたは分類？

2番目の質問は、Web上のどこかで「教師ありクラスタリング」について話している議論で見つけたということです。私が知る限り、クラスタリングは教師なしです。「分類」に関する違いは何ですか？それについて話している多くのリンクがあります： http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf など...

22 clustering classification unsupervised-learning statistical-learning

2

バイナリ行列のクラスタリング

次元250k x 100 のバイナリフィーチャの半小さなマトリックスがあります。各行はユーザーであり、列は、「likes_cats」などのユーザー動作のバイナリ「タグ」です。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 ユーザーを5〜10個のクラスターに適合させ、負荷を分析して、ユーザーの行動のグループを解釈できるかどうかを確認します。バイナリデータにクラスターをフィッティングするためのアプローチはかなりあるように思われます-このデータに最適な戦略は何だと思いますか？ PCA Jaccard Similarityマトリックスを作成し、階層クラスターを適合させてから、上位の「ノード」を使用します。 Kメディアン K-medoid プロキシマス？アグネスこれまでのところ、階層的クラスタリングを使用することである程度の成功を収めてきましたが、それが最善の方法であるかどうかは確かではありません。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …

22 r clustering binary-data

8

特徴点ごとのデータではなく、距離行列のみを使用してK平均（またはその近縁）クラスタリングを実行します。

所有しているオブジェクトに対してK-meansクラスタリングを実行したいのですが、オブジェクトは空間内のポイント、つまりobjects x featuresデータセットによって記述されていません。ただし、2つのオブジェクト間の距離は計算できます（類似度関数に基づいています）。そのため、距離行列を破棄しobjects x objectsます。私は以前にK-meansを実装しましたが、それはポイントデータセットの入力でした。距離行列の入力では、ポイント表現なしでクラスタを「中心」に更新する方法が明確ではありません。これは通常どのように行われますか？そのために、それに近いK-meansまたはメソッドのバージョンはありますか？

22 machine-learning clustering data-mining k-means distance

2

クラスタリングの比較：ランドインデックスと情報のバリエーション

クラスタリングを比較するための情報のバリエーションとランドインデックスの違いの背後にある洞察や直感を誰かが持っているのではないかと思っていました。マリーナメリアの論文「Comparing Clusterings-An Information Based Distance」（2007年、多変量解析ジャーナル）を読んだことがありますが、定義の違いに気付く以外に、情報のばらつきが何であるかがわかりませんrandインデックスがキャプチャしないことをキャプチャします。

21 machine-learning clustering metric

4

ユークリッドベースのクラスタリングアルゴリズムで混合データが問題になるのはなぜですか？

ほとんどの古典的なクラスタリングおよび次元削減アルゴリズム（階層的クラスタリング、主成分分析、k-means、自己組織化マップ...）は数値データ専用に設計されており、それらの入力データはユークリッド空間の点と見なされます。これはもちろん問題です。多くの現実世界の質問には混合データが含まれているためです。たとえば、バスを勉強する場合、高さと長さ、モーターサイズは数字になりますが、色（カテゴリ変数：青/ red / green ...）および容量クラス（順序変数：小/中/大容量）。具体的には、これらのさまざまなタイプの変数を同時に調べたい場合があります。たとえば、階層型クラスタリングまたは多次元スケーリングにプラグインするGowerの非類似性、または距離行列を入力として使用する他の方法を使用して、従来のクラスタリングアルゴリズムを混合データに拡張する方法がいくつかあります。または、たとえばこのメソッド、混合データへのSOMの拡張。私の質問は、なぜ混合変数にユークリッド距離を使用できないのですか？またはなぜそうするのが悪いのですか？カテゴリ変数をダミーエンコードし、すべての変数を観測間の距離で同様の重みを持つように正規化し、これらの行列で通常のアルゴリズムを実行できないのはなぜですか？それは本当に簡単であり、一度も行われたことがないので、それは非常に間違っていると思いますが、誰がその理由を教えてもらえますか？および/またはいくつかのrefを教えてください？ありがとう

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

2

時系列をクラスター化する方法は？

クラスター分析について質問があります。3000社があり、5年間の電力使用量に応じてクラスター化する必要があります。各企業には、5年間の1時間ごとの価値があります。一部の企業が、一定期間にわたって使用電力のパターンが同じかどうかを調べたいと思います。結果は、電力使用量の毎日の予測に使用する必要があります。SPSSで時系列をクラスター化する方法についてアイデアをお持ちの場合は、私と共有してください。

21 time-series clustering spss

2

k-meansクラスタリングが混合ガウスモデリングの形式である場合、データが正常でない場合に使用できますか？

GMMのEMアルゴリズムと、GMMとk-meansの関係についてBishopを読んでいます。この本では、k-meansはGMMのハードアサインバージョンです。私は、クラスター化しようとしているデータがガウスではない場合、k-meansを使用できない（または少なくとも使用に適していない）ことを意味しているのだろうか？たとえば、データがそれぞれ値0または1の8 * 8ピクセルで構成される手書き数字の画像である場合（そしてそれらが独立していると仮定して、ベルヌーイの混合物である必要がある場合）？私はこれについて少し混乱していますが、どんな考えでも感謝します。

21 clustering data-mining k-means gaussian-mixture

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

4

教師なしクラスタリングのための決定木のようなアルゴリズムはありますか？

A、B、C、D、Eの5つの機能で構成されるデータセットがあります。これらはすべて数値です。密度ベースのクラスタリングを実行する代わりに、意思決定ツリーのような方法でデータをクラスター化します。私が意味するアプローチは次のようなものです：アルゴリズムは、特徴Cに基づいてデータをX個の初期クラスターに分割します。つまり、Xクラスターは、小さいC、中程度のC、大きいC、非常に大きいCの値などを持ちます。フィーチャAに基づいてデータをYクラスターに格納します。アルゴリズムは、すべてのフィーチャが使用されるまで続行されます。上で説明したアルゴリズムは、決定木アルゴリズムのようなものです。ただし、教師あり分類ではなく、教師なしクラスタリングに必要です。私の質問は次のとおりです。そのようなアルゴリズムはすでに存在しますか？そのようなアルゴリズムの正しい名前は何ですかこの種のアルゴリズムを実装したR / pythonパッケージ/ライブラリはありますか？

20 r machine-learning clustering cart

タグ付けされた質問 「clustering」

タグ付けされた質問「clustering」