統計とビッグデータ categorical-data

6

連続データとカテゴリデータの両方を含むデータセットがあります。PCAを使用して分析していますが、分析の一部としてカテゴリ変数を含めることは問題ないでしょうか。私の理解では、PCAは連続変数にのみ適用できるということです。あれは正しいですか？カテゴリデータに使用できない場合、分析にはどのような選択肢がありますか？

147 categorical-data pca correspondence-analysis mixed-type-data

6

順序付けされていないカテゴリ変数との相関

多くの観測と多くの変数を含むデータフレームがあります。それらの一部はカテゴリカル（順不同）であり、その他は数値です。これらの変数間の関連を探しています。私は数値変数の相関（スピアマンの相関）を計算できましたが、順序付けされていないカテゴリ変数間の相関を測定する方法がわかりません。順序付けられていないカテゴリ変数と数値変数の相関を測定する方法がわかりません。誰もこれがどのように行われるか知っていますか？ある場合、これらのメソッドを実装するR関数はありますか？

123 r correlation categorical-data continuous-data mixed-type-data

1

公称（IV）変数と連続（DV）変数の相関

名目上の変数（topic0 = 0などとしてコーディングされた会話のさまざまなトピック）と、会話の長さなどのスケール変数（DV）がいくつかあります。ノミナル変数とスケール変数の相関関係を導き出すにはどうすればよいですか？

77 correlation continuous-data categorical-data

3

例：バイナリ結果にglmnetを使用したLASSO回帰

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

6

カテゴリ変数を多くのレベルで折りたたむ原理的な方法は？

統計モデルの入力（予測子）として使用するために、多くのカテゴリを少数に折りたたむ（またはプールする）ために使用できるテクニックは何ですか？大学生（学部生が選択した専門分野）などの変数を考えてみましょう。順不同でカテゴリに分類されますが、潜在的に数十の異なるレベルを持つことができます。回帰モデルの予測子としてmajorを使用するとします。これらのレベルをそのままモデリングに使用すると、非常に多くのレベルがあるため、あらゆる種類の問題が発生します。それらを使用するために多くの統計的精度が捨てられ、結果を解釈するのは困難です。特定の専攻に興味を持つことはめったにありません。専攻の幅広いカテゴリ（サブグループ）に興味を持つ可能性がはるかに高くなります。しかし、レベルをそのような上位レベルのカテゴリに分割する方法や、使用する上位レベルのカテゴリの数さえも必ずしも明確ではありません。典型的なデータについては、因子分析、行列因子分解、または離散潜在モデリング手法を使用して満足です。しかし、メジャーは相互に排他的なカテゴリであるため、私はそれらの共分散をあらゆるものに活用することにheしています。さらに、私は主要なカテゴリー自体を気にしません。回帰結果に関して一貫性のある高レベルのカテゴリを作成することに関心があります。バイナリ結果の場合、線形判別分析（LDA）のようなものが示唆され、識別パフォーマンスを最大化するより高いレベルのカテゴリを生成します。しかし、LDAは限られた手法であり、ダーティデータがdrするように感じます。さらに、継続的なソリューションを解釈するのは困難です。一方、多重分散分析（MCA）のような共分散に基づくものは、相互排他的なダミー変数間の固有の依存性のため、この場合は疑わしいようです-それらは、複数のカテゴリ変数よりも複数のカテゴリ変数の研究に適しています同じ変数。編集：明確にするために、これはカテゴリを折りたたむ（それらを選択しない）ことであり、カテゴリは予測変数または独立変数です。後から考えると、この問題は「すべてを正規化し、神にそれらを整理させる」適切な時期のようです。この質問を見てうれしいことは、多くの人にとって興味深いことです！

58 regression categorical-data dimensionality-reduction feature-construction many-categories

8

カテゴリデータを連続として扱うのは理にかなっていますか？

離散データと連続データに関するこの質問に答える際、カテゴリデータを連続データとして扱うことはほとんど意味がないと断言しました。一見すると自明のように思えますが、直観はしばしば統計の貧弱なガイドであり、少なくとも私の場合はそうです。だから今私は疑問に思う：それは本当ですか？または、カテゴリデータから連続体への変換が実際に役立つ分析が確立されていますか？データが序数である場合、違いが生じますか？

57 categorical-data data-transformation ordinal-data continuous-data

1

Scikit-learnでのワンホットエンコーディングとダミーエンコーディング

カテゴリー変数をエンコードするには、2つの異なる方法があります。たとえば、1つのカテゴリ変数にn個の値があります。ワンホットエンコーディングに変換してN個の変数ながらダミーコードへと変換し、N-1の変数。カテゴリ変数がk個あり、それぞれにn個の値がある場合。1つのホットエンコーディングはkn変数で終わり、ダミーエンコーディングはkn-k変数で終わります。ワンホットエンコーディングの場合、インターセプトにより共線性の問題が発生し、モデルが正常に機能しないことがあります。誰かがそれを「ダミー変数トラップ」と呼びます。私の質問： Scikit-learnの線形回帰モデルにより、ユーザーはインターセプトを無効にできます。ワンホットエンコーディングの場合、常にfit_intercept = Falseを設定する必要がありますか？ダミーエンコーディングの場合、fit_interceptは常にTrueに設定する必要がありますか？ウェブサイトに「警告」は表示されません。ワンホットエンコーディングではより多くの変数が生成されるため、ダミーエンコーディングよりも自由度が高くなりますか？

50 regression categorical-data data-transformation scikit-learn data-preprocessing

7

2つの順序変数間の関係のグラフ

2つの順序変数間の関係を示す適切なグラフは何ですか？私が考えることができるいくつかのオプション：ランダムジッタを追加した散布図で、ポイントが互いに隠れないようにします。どうやら標準グラフィック-Minitabではこれを「個別値プロット」と呼んでいます。私の意見では、データがインターバルスケールからのものであるかのように、順序レベル間の一種の線形補間を視覚的に促進するため、誤解を招く可能性があります。散布図は、サンプリング単位ごとに1つのポイントを描画するのではなく、ポイントのサイズ（面積）がそのレベルの組み合わせの頻度を表すように適合されています。実際にそのようなプロットを見たことがあります。読みづらい場合もありますが、ポイントは規則的に間隔を空けた格子上にあり、データを視覚的に「間引く」というジッター散布図の批判をある程度克服します。特に、変数の1つが従属変数として扱われる場合、独立変数のレベルでグループ化されたボックスプロット。従属変数のレベルの数が十分に高くない場合はひどいように見える可能性があります（ウィスカが欠けているか、さらに中央値の視覚的な識別が不可能なさらに悪化した四分位で非常に「フラット」）が、少なくとも中央値と四分位数に注意を引きます順序変数の関連する記述統計。頻度を示すヒートマップを含むセルの値の表または空白のグリッド。視覚的には異なりますが、散布図と概念的には類似しており、ポイントエリアに周波数が表示されます。他のアイデア、またはどのプロットが望ましいかについての考えはありますか？特定の序数対序数プロットが標準とみなされる研究分野はありますか？（私は、周波数ヒートマップがゲノミクスで広まっていることを思い出すようですが、名目対名義の方が多いと思われます。）良い標準参照の提案も大歓迎です。Agrestiから何かを推測しています。プロットで説明したい場合は、偽のサンプルデータのRコードが続きます。「運動はあなたにとってどれほど重要ですか？」1 =まったく重要ではない、2 =やや重要でない、3 =重要でも重要でもない、4 =やや重要、5 =非常に重要。「10分以上のランニングをどのくらい定期的に受けますか？」1 =しない、2 = 2週間に1回未満、3 = 1週間または2週間に1回、4 =週に2回または3回、5 =週に4回以上。「頻繁に」を従属変数として扱い、「重要性」を独立変数として扱うことが自然な場合、プロットが2つを区別する場合。 importance <- rep(1:5, times = c(30, 42, 75, 93, 60)) often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1 rep(1:5, times = c(10, …

46 data-visualization categorical-data ordinal-data scatterplot

4

コントラストマトリックスとは

どのような正確に対比行列は（用語、カテゴリ予測と分析に関係する）で、どのように正確にコントラスト行列が指定されていますか？すなわち、列jとiは何ですか、行とは何ですか、そのマトリックスの制約は何ですか？列と行の数は何を意味しますか？私はドキュメントとウェブを調べようとしましたが、誰もがそれを使用しているようですが、どこにも定義はありません。利用可能な定義済みのコントラストをバックワードエンジニアリングできますが、定義はそれなしでも利用できるはずです。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …

46 regression categorical-data definition contrasts categorical-encoding

5

連続変数とカテゴリー変数（名義変数）の相関

連続（従属変数）変数とカテゴリ（名目：性別、独立変数）変数の間の相関関係を見つけたいと思います。連続データは通常は配布されません。以前は、スピアマンのを使用して計算していました。しかし、私はそれが正しくないと言われました。ρρ\rho インターネットで検索しているときに、箱ひげ図がそれらがどの程度関連付けられているかについてのアイデアを提供できることがわかりました。ただし、ピアソンの積率係数やスピアマンのなどの定量化された値を探していました。これを行う方法について私を助けてもらえますか？または、どの方法が適切かを教えてください。ρρ\rho Point Biserial Coefficientは正しいオプションでしょうか？

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

5

Rの警告-カイ2乗近似が正しくない可能性があります

消防士入学試験の結果を示すデータがあります。私は、試験結果と民族性が相互に独立していないという仮説を検証しています。これをテストするために、RでPearsonのカイ2乗検定を実行しました。結果は期待したことを示していますが、「」という警告が表示されましたIn chisq.test(a) : Chi-squared approximation may be incorrect。 > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 Warning message: In chisq.test(a) : …

40 r categorical-data chi-squared small-sample error-message

6

多くのカテゴリ変数を使用して分類を改善する

私は200,000以上のサンプルとサンプルあたり約50の特徴を持つデータセットに取り組んでいます：10の連続変数と他の〜40はカテゴリ変数（国、言語、科学分野など）です。これらのカテゴリ変数には、たとえば150か国、50の言語、50の科学分野などがあります。これまでの私のアプローチは次のとおりです。多くの可能な値を持つカテゴリ変数ごとに、この値を取得する10000個を超えるサンプルを持つ変数のみを取得します。これにより、150ではなく5〜10のカテゴリに減少します。カテゴリカル変数ごとにダミー変数を作成します（10か国の場合、サンプルごとにサイズ10のバイナリベクトルを追加します）。このデータをランダムフォレスト分類器（パラメーターのクロス検証など）にフィードします。現在、このアプローチでは、65％の精度しか得られず、さらに多くのことができるように感じています。特に、1）に満足していません。サンプルの数に応じて「最も関連性の低い値」を勝手に削除してはいけないように感じるからです。一方、RAMには、可能なすべての値を保持することで、データに500列* 200000行を追加する余裕がありません。この多くのカテゴリ変数に対処するための提案はありますか？

37 machine-learning classification categorical-data random-forest many-categories

2

多項ロジスティック回帰対1対残りのバイナリロジスティック回帰

いくつかのカテゴリと独立変数のセットを持つ従属変数とします。 YYY バイナリロジスティック回帰のセット（すなわち、1対レストスキーム）に対する多項ロジスティック回帰の利点は何ですか？バイナリロジスティック回帰のセットにより、各カテゴリに対して、場合はtarget = 1、それ以外の場合は0の個別のバイナリロジスティック回帰モデルを構築します。Y = Y Iy私∈ Yyi∈Yy_{i} \in YY= y私Y=yiY=y_{i}

36 logistic categorical-data multinomial

3

ロジスティック回帰の95％信頼区間を手動で計算することと、Rでconfint（）関数を使用することに違いがあるのはなぜですか？

皆さん、私は説明できない奇妙なことに気づきました、できますか？要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer＆LemeshowのApplied Logistic Regression（第2版）を行ってきました。第3章には、オッズ比と95％の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

1

バイナリデータの主成分分析または因子分析を行う

Yes / No応答が多数あるデータセットがあります。このタイプのデータに対して主成分分析（PCA）またはその他のデータ削減分析（因子分析など）を使用できますか？SPSSを使用してこれを行う方法についてアドバイスしてください。

30 spss categorical-data pca factor-analysis binary-data

タグ付けされた質問 「categorical-data」

タグ付けされた質問「categorical-data」