タグ付けされた質問 「mixed-type-data」

6
主成分分析は、連続変数とカテゴリー変数が混在するデータセットに適用できますか?
連続データとカテゴリデータの両方を含むデータセットがあります。PCAを使用して分析していますが、分析の一部としてカテゴリ変数を含めることは問題ないでしょうか。私の理解では、PCAは連続変数にのみ適用できるということです。あれは正しいですか?カテゴリデータに使用できない場合、分析にはどのような選択肢がありますか?

6
順序付けされていないカテゴリ変数との相関
多くの観測と多くの変数を含むデータフレームがあります。それらの一部はカテゴリカル(順不同)であり、その他は数値です。 これらの変数間の関連を探しています。私は数値変数の相関(スピアマンの相関)を計算できましたが、 順序付けされていないカテゴリ変数間の相関を測定する方法がわかりません。 順序付けられていないカテゴリ変数と数値変数の相関を測定する方法がわかりません。 誰もこれがどのように行われるか知っていますか?ある場合、これらのメソッドを実装するR関数はありますか?


2
クラスタリングでバイナリ変数と連続変数の両方を一緒に使用する方法は?
k-meansでバイナリ変数(値0および1)を使用する必要があります。ただし、k-meansは連続変数でのみ機能します。一部の人々は、k-meansが連続変数に対してのみ設計されているという事実を無視して、k-meansでこれらのバイナリ変数をまだ使用していることを知っています。これは私には受け入れられません。 質問: それでは、k-means /階層的クラスタリングでバイナリ変数を使用する統計的/数学的に正しい方法は何ですか? SAS / Rでソリューションを実装する方法は?

4
ユークリッドベースのクラスタリングアルゴリズムで混合データが問題になるのはなぜですか?
ほとんどの古典的なクラスタリングおよび次元削減アルゴリズム(階層的クラスタリング、主成分分析、k-means、自己組織化マップ...)は数値データ専用に設計されており、それらの入力データはユークリッド空間の点と見なされます。 これはもちろん問題です。多くの現実世界の質問には混合データが含まれているためです。たとえば、バスを勉強する場合、高さと長さ、モーターサイズは数字になりますが、色(カテゴリ変数:青/ red / green ...)および容量クラス(順序変数:小/中/大容量)。具体的には、これらのさまざまなタイプの変数を同時に調べたい場合があります。 たとえば、階層型クラスタリングまたは多次元スケーリングにプラグインするGowerの非類似性、または距離行列を入力として使用する他の方法を使用して、従来のクラスタリングアルゴリズムを混合データに拡張する方法がいくつかあります。または、たとえばこのメソッド、混合データへのSOMの拡張。 私の質問は、なぜ混合変数にユークリッド距離を使用できないのですか?またはなぜそうするのが悪いのですか?カテゴリ変数をダミーエンコードし、すべての変数を観測間の距離で同様の重みを持つように正規化し、これらの行列で通常のアルゴリズムを実行できないのはなぜですか? それは本当に簡単であり、一度も行われたことがないので、それは非常に間違っていると思いますが、誰がその理由を教えてもらえますか?および/またはいくつかのrefを教えてください?ありがとう

8
Rを使用した混合型データのクラスタリング
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 データ変数が混在するデータのクラスタリングをR内で実行できるかどうか疑問に思います。つまり、数値変数とカテゴリ変数の両方を含むデータセットがあり、それらをクラスター化する最適な方法を見つけています。SPSSでは、2ステップクラスターを使用します。Rで同様の手法を見つけることができるかどうか疑問に思います。poLCAパッケージについて言われましたが、よくわかりません...

1
SVM(サポートベクターマシン)のカテゴリデータと連続データを混在させることはできますか?
私のようなデータセットがあります +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | SHOP & HOUSE | …

1
Rでの混合データのための堅牢なクラスター法
私は小さなデータセット(4つの区間変数の64の観測値と1つの3因子のカテゴリ変数)をクラスター化しようとしています。現在、私はクラスター分析に非常に慣れていませんが、階層的クラスター化またはk-meansが唯一の利用可能なオプションであった時代からかなりの進歩があったことを認識しています。特に、chlで指摘されているように、「クラスターまたはクラスの数を決定するための適合度インデックス」の使用を可能にする、モデルベースのクラスタリングの新しい方法が利用できるようです。 ただし、モデルベースのクラスタリング用の標準Rパッケージはmclust、混合データ型のモデルには適合しないようです。fpcモデルがしますが、トラブルのモデルをフィッティングを持って、私はので、連続変数の非ガウス的性質の疑いがあります。モデルベースのアプローチを続行する必要がありますか?できればRを使い続けたいです。私が見るように、私にはいくつかのオプションがあります: 3レベルのカテゴリ変数を2つのダミー変数に変換し、を使用しますmclust。これが結果にバイアスをかけるかどうかはわかりませんが、そうでない場合はこれが私の推奨オプションです。 連続変数をどうにかして変換し、fpcパッケージを使用します。 まだ遭遇していない他のRパッケージを使用します。 Gowerの測度を使用して非類似度行列を作成し、従来の階層的または再配置クラスター技術を使用します。 stats.seハイブマインドにはここで何か提案がありますか?

2
ガワー距離はどのようにバイナリ変数間の差を計算しますか?
データセットには73個のサンプルがあり、17個の数値と5個のバイナリ(0-1)変数があります。クラスター分析を実行する必要があります。ガワー距離は、変数が混在するデータセットに適したメトリックであることを知っています。しかし、ガワー距離がバイナリ変数間の差をどのように計算するのか理解できませんでした。ユークリッド距離と変わらないようです。

1
連続変数とバイナリ変数が混在するt-SNE
現在、t-SNEを使用した高次元データの可視化について調査しています。バイナリ変数と連続変数が混在しているデータがあり、そのデータはバイナリデータを非常に簡単にクラスター化しているようです。もちろん、これはスケーリングされた(0と1の間の)データの場合に予想されます。ユークリッド距離は、バイナリ変数間で常に最大/最小になります。t-SNEを使用して混合バイナリ/連続データセットをどのように処理する必要がありますか?バイナリ列を削除する必要がありますか?metric使用できる別のものはありますか? 例として、次のpythonコードを考えます。 x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph だから私の生データは: ここで、色は3番目のフィーチャ(x3)の値です。3Dでは、データポイントは2つの平面(x3 = 0平面とx3 = 1平面)にあります。 次に、t-SNEを実行します。 tsne = TSNE() # sci-kit learn implementation X_transformed = StandardScaler().fit_transform(X) tsne = TSNE(n_components=2, …

1
離散データとPCAの代替
私は、昆虫の密接に関連するいくつかの種の形態学的翼の特徴を説明する離散(順序、メリット、および名目)変数のデータセットを持っています。私が期待しているのは、形態学的特徴に基づいて、さまざまな種の類似性を視覚的に示すような分析を行うことです。最初に頭に浮かんだのはPCA(これは私が作成しようとしている視覚化の種類です)ですが、それを調べた後(特に、次のような他の質問:主成分分析を連続の混合を含むデータセットに適用できますか?)とカテゴリ変数?)、PCAは離散データには不適切である可能性があります(PCAはこれらのタイプの研究で文献で使用されていますが、常に連続データを使用しています)。このデータが不適切である理由の統計的背景を無視すると、PCAは私の生物学的質問に関して比較的完璧な結果を私に与えます(興味のあるハイブリッドグループは父方のグループの真ん中にあります)。 私はまた、統計を緩和するために複数のコレスポンデンス分析を試しました(少なくとも私の理解の限りでは)が、PCAで得られるプロットに似ているプロットを取得できないようです。異なるグループ(生物学的に言えば、異なる種)を示すために、色で区切られています。この分析は、個々の観察ではなく、変数(ここでは、私の形態学的特性)が互いにどのように関連しているかを説明することを目的としているようです。また、グループごとに色分けした観測をプロットすると、個人のセット全体を表す単一の値(おそらく平均)しか得られません。私はRで分析を行ったので、プロットについてのアイデアを機能させるのに十分なほどRに精通していないかもしれません。 私のデータでこの種の分析を試すのは正しいですか、それとも私は順調ですか?わからない場合は、私の統計的な専門知識は限られているので、これらの分析の下で行われている方程式はすべて私の頭の中にあります。私はこの分析を完全に記述的に実行しようとしています(これ以上ダウンストリームの数値計算を行う必要はありません)。これが当てはまる場合は、PCAで十分ですが、確実に確認したいと思います。あまりにも多くの統計的仮定に違反しています。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.