タグ付けされた質問 「categorical-data」

カテゴリー(名義とも呼ばれる)データは、カテゴリーと呼ばれる限られた数の可能な値を取ることができます。カテゴリー値は「ラベル」であり、「測定」ではありません。個別だが順序付けられたデータ型には[ordinal-data]タグを使用してください。

3
ワンホットエンコーディングとダミーエンコーディングの問題
私は、kレベルのカテゴリ変数がダミーのエンコードでk-1変数でエンコードされる必要があるという事実を認識しています(同様に、多値のカテゴリ変数の場合)。さまざまな回帰メソッド、主に線形回帰、ペナルティ付き線形回帰(Lasso、Ridge、ElasticNet)、ツリーベース(ランダムフォレスト)のダミーエンコーディングに対してワンホットエンコーディング(つまり、代わりにk変数を使用)がどのくらい問題になるのかと思っていました。 、勾配ブースティングマシン)。 線形回帰では、多重共線性の問題が発生することを知っています(実際には、OHEを使用して線形回帰を問題なくフィッティングしましたが)。 しかし、それらすべてでダミーエンコーディングを使用する必要がありますか?ワンホットエンコーディングを使用した場合、結果はどのように間違っていますか? 私の焦点は、複数の(カーディナリティが高い)カテゴリー変数を使用した回帰モデルでの予測にあります。そのため、信頼区間には興味がありません。


5
どうしてもビニングを避けなければならないのですか?
だから私はなぜビニングが常に避けられるべきかについてのいくつかの投稿を読んだ。その主張の人気のあるリファレンスはこのリンクです。 主な逃避は、ビニングポイント(またはカットポイント)がかなり恣意的であることと、その結果として生じる情報の損失であり、そのスプラインが優先されることです。 ただし、私は現在、Spotify APIを使用しています。SpotifyAPIには、いくつかの機能に対する継続的な信頼度の測定値が多数あります。 1つの機能「instrumentalness」を参照すると、参照は次のように述べています。 トラックにボーカルが含まれていないかどうかを予測します。「Ooh」と「aah」のサウンドは、この文脈ではインストゥルメンタルとして扱われます。ラップや話し言葉のトラックは明らかに「ボーカル」です。インストルメンタル値が1.0に近いほど、トラックにボーカルコンテンツが含まれていない可能性が高くなります。0.5を超える値は、インストゥルメンタルトラックを表すことを目的としていますが、値が1.0に近づくほど信頼性が高くなります。 データの非常に左に歪んだ分布を考えると(サンプルの約90%がかろうじて0を超えているため、この機能を2つのカテゴリ機能に変換するのが賢明であることがわかりました。 "(0.5未満の値を持つすべてのサンプル)。 これは間違っていますか?そして、私の(継続的な)データのほぼすべてが単一の値を中心に展開している場合、代替手段は何でしょうか?スプラインについて私が理解していることから、それらは分類の問題(私がやっていること)でも機能しません。

1
因子分析でバイナリ変数のピアソン相関(四重相関の代わりに)を計算する危険性は何ですか?
私は教育用ゲームの研究を行っています。現在のプロジェクトのいくつかは、BoardGameGeek(BGG)とVideoGameGeek(VGG)のデータを使用して、ゲームの設計要素間の関係を調べています(つまり、「第二次世界大戦の始まり」、「ローリングダイスを含む」)。 )およびそれらのゲームのプレイヤーの評価(つまり、10点満点)。これらの各設計要素は、BGGまたはVGGシステムのタグに対応しているため、各要素は本質的に二分変数です。ゲームには、データベースに存在するすべてのタグに1があり、存在しないすべてのタグに0があります。 これらのタグは数十あるので、探索的要因分析(EFA)を使用して、ゲームデザインのパターンをキャプチャする管理可能な数の「ジャンル」を考え出します。いくつかの情報源を調べて、私は二分変数を扱っているので、私の要因を思い付くとき、ピアソンの相関の代わりにポリコリック相関(特にここではテトラコリック)を使用する必要があることを理解しています(潜在特性分析などの他のオプションもあります—そこにありますが、これは私が今探っているものです)。 好奇心から、ピアソン相関を使用する因子とポリコリック相関を使用する因子(それぞれ同じ数の因子)の2組の因子を思いつきました。私の問題は、ピアソン相関を使用して計算された因子は、ポリコリック相関を使用して計算された因子よりもはるかに意味があり、解釈が容易であることです。つまり、最初の要素セットの「ジャンル」は直感的に理解でき、ゲームの一般的な設計方法に関する私の理解と一致しています。これは、2番目の要素セットには当てはまりません。 一方では、使用しているテストの前提を満たしていることを確認したいのですが、それによって結果が見栄えが悪くなります。一方で、因子分析と(より広範には)モデル構築の目標の一部は有用なものを生み出すことであると感じ、私が「ルールを破る」ときに、より有用な情報が浮かび上がってきます。このテストの仮定に違反することを上回るのに十分なモデルが必要ですか?ポリコリック相関の代わりにピアソン相関を使用すると、どのような結果になりますか?

3
なぜロジスティック回帰でカテゴリー予測子のWOE変換を行う必要があるのですか?
カテゴリー変数の証拠の重み(WOE)変換はいつ役立つのですか? この例は、WOE変換で見ることができます。 (したがって、応答のために、&とカテゴリ予測k個のカテゴリ、および Y j個のうち成功N j個の内の試験Jこの予測の範疇番目用WOE Jカテゴリ番目は次のように定義されますyyykkkyjyjy_jnjnjn_jjjjjjj logyj∑kjyj∑kj(nj−yj)nj−yjlog⁡yj∑jkyj∑jk(nj−yj)nj−yj\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} &変換は、カテゴリー予測子の各カテゴリーをそのWOEでコーディングして、新しい連続予測子を形成することで構成されます。) WOE変換がロジスティック回帰に役立つ理由を知りたいのですが。この背後にある理論は何ですか?


2
データのタイプ(名義/順序/間隔/比率)は、変数のタイプと本当に見なされるべきですか?
だから例えばここに私が標準的な教科書から得た定義があります 変数-母集団またはサンプルの特性。例:テストの銘柄または銘柄の価格 データ-実際の観測値 したがって、2列のレポートの場合[名前| 収入]列名は変数であり、実際の観測値{dave | 100K}、{jim | 200K}がデータになります それで、[名前]列が名目データであり、[収入]が比率データであると言えば、ほとんどの教科書のように、データのタイプではなく変数のタイプとしてそれをより正確に説明しませんか?これはセマンティクスかもしれないと私は理解しています。しかし、私はここで何かが足りないのではないかと恐れています。

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
濃度パラメーターに超優先分布がある多項式ディリクレモデル
手元にある問題をできるだけ一般的に説明するようにします。私は、観測値をパラメーター確率ベクトルシータを持つカテゴリカル分布としてモデル化しています。 その後、私はパラメータベクトルシータは、以下を前提とディリクレ事前パラメータを持つ分布。α1、α2、… 、αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k また、パラメータを超えるhyperprior分布を課すことがことが可能である?カテゴリー分布やディリクレ分布などの多変量分布でなければなりませんか?私にはアルファが常に正であるように見えるので、ガンマハイパープライアが機能するはずです。α1、α2、… 、αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 誰かがそのような(おそらく)過剰パラメータ化されたモデルをフィッティングしようとしたが、アルファは修正されるべきではなく、ガンマ分布からのものであると考えるのが合理的であるかどうかわからない。 このようなアプローチを実際にどのように試すことができるかについての参考情報と洞察を提供してください。

2
カテゴリー変数では多重共線性が暗黙的ですか?
小さいながらも顕著な多重共の効果があった、多変量回帰モデルいじりながら、分散拡大要因によって測定されるように私は、気づい内(もちろん、参照カテゴリを除いた)カテゴリ変数のカテゴリ。 たとえば、連続変数yと、kの相互に排他的な値を持つ1つの名目カテゴリ変数xのデータセットがあるとします。これらの可能な値を0/1ダミー変数としてコーディングします。次に、回帰モデルます。ダミー変数のVIFスコアはゼロ以外であることが判明しました。実際、カテゴリの数が増えると、VIFも増えます。ダミー変数を中央に配置しても、VIFは変更されないようです。x 1、x 2、… 、x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k − 1 x k − 1 k − 1kkkx1,x2,…,xkx1,x2,…,xkx_1, x_2,\dots ,x_ky=b0+b1x1+b2x2+⋯+bk−1xk−1y=b0+b1x1+b2x2+⋯+bk−1xk−1y = b_0 + b_1x_1 + b_2x_2 + \dots + b_{k-1}x_{k-1}k − 1k−1k-1 直感的な説明は、カテゴリー変数内のカテゴリーの相互に排他的な条件がこのわずかな多重共線性を引き起こすということのようです。これは些細な発見ですか、それともカテゴリー変数を使用して回帰モデルを構築するときに考慮すべき問題ですか?

2
二分変数と連続変数の間の相関
私は二分変数と連続変数の間の相関関係を見つけようとしています。 これに関する私の最初の作業から、私は独立したt検定を使用する必要があることを発見しました。その前提条件は、変数の分布が正規でなければならないことです。 正規性をテストするためにKolmogorov-Smirnov検定を実行したところ、連続変数が非正規であり、歪んでいることがわかりました(約4,000データポイント)。 変数の範囲全体に対してコルモゴロフ・スミルノフ検定を行いました。それらをグループに分割してテストを実行する必要がありますか?つまり、私がrisk level(0=危険ではない、1=危険)とコレステロール値を持っている場合、次のことを行う必要があります: それらを次のように2つのグループに分けます。 Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS それらを一緒に取り、テストを適用しますか?(データセット全体でのみ実行しました。) その後、それでも正常でない場合はどうすればよいですか? 編集: 上記のシナリオは、私が自分の問題に提供しようとした説明にすぎません。1000を超える変数と約4000のサンプルを含むデータセットがあります。それらは本質的に連続的またはカテゴリー的です。私の仕事は、これらの変数に基づいて二分変数を予測することです(たぶんロジスティック回帰モデルを考え出す)。そのため、最初の調査には、二分変数と連続変数の相関関係を見つけることが含まれると考えました。 私は変数の分布がどのようになっているかを確認しようとしていたため、t検定を試みました。ここで私は問題として正常性を見つけました。コルモゴロフ-スミルノフ検定では、これらの変数のほとんどで有意値0.00が得られました。 ここで正常性を仮定する必要がありますか?これらの変数の歪度と尖度は、ほとんどすべての場合にデータが歪んでいる(> 0)ことも示しています。 以下の注記に従って、ポイントとバイセリアルの相関をさらに調査します。しかし、変数の分布についてはまだわかりません。

3
ロジスティック回帰(SPSS)で非バイナリのカテゴリ変数を処理する方法
多くの独立変数を使用してバイナリロジスティック回帰を実行する必要があります。それらのほとんどはバイナリですが、一部のカテゴリ変数には3つ以上のレベルがあります。 そのような変数に対処する最良の方法は何ですか? たとえば、可能な値が3つある変数の場合、2つのダミー変数を作成する必要があるとします。次に、段階的な回帰手順では、両方のダミー変数を同時にテストするか、別々にテストする方が良いですか? SPSSを使用しますが、よく覚えていないので、SPSSはこの状況にどのように対処しますか? さらに、順序カテゴリカル変数の場合、順序スケールを再作成するダミー変数を使用するのは良いことですか?(例えば、プット4状態順序変数のための3つのダミー変数を用いた0-0-0レベルに対して、レベルについて2、レベルについて3及びレベルについて4、代わりに、、および4つのレベルのために)。1111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

1
コクランマンテルヘンツェル検定の解釈方法は?
Cで層化された2つの変数AとBの独立性をテストしています。AとBはバイナリ変数で、Cはカテゴリカル(5つの値)です。AとB(すべての階層を組み合わせたもの)に対するフィッシャーの正確検定を実行すると、次の結果が得られます。 ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * ここで、ORはオッズ比(推定および95%信頼区間)であり*、p <0.05であることを意味します。 各ストラタム(C)に対して同じテストを実行すると、次のようになります。 C=1, OR: 2.31 (0.78 -- 6.13), p = 0.0815 C=2, OR: 2.75 (1.21 -- 6.15), p = 0.0088 * C=3, OR: 0.94 (0.50 …

2
CSV列をカテゴリデータとして直接読み取ることはできますか?
Rを使用して、CSVで提供される医療調査(100以上のコード化された列を含む)のデータを分析する必要があります。最初の分析にはガラガラを使用しますが、舞台裏ではまだRです。 ファイルをread.csv()すると、数値コードの列が数値データとして扱われます。factor()を使用してそれらからカテゴリカル列を作成できることは知っていますが、100以上の列に対してそれを行うのは面倒です。 列を因子として直接インポートするようにRに指示するより良い方法があることを願っています。または、少なくとも後でそれらを適切な場所に変換すること。 ありがとうございました!

4
Pythonを使用して列にカテゴリカルデータがあるかどうかを統計的に証明する方法
すべてのカテゴリー変数を見つける必要があるpythonのデータフレームがあります。int型もカテゴリ型になる可能性があるため、列の型のチェックは常に機能するとは限りません。 したがって、列がカテゴリカルであるかどうかを識別するための正しい仮説検定方法を見つけるのに助けを求めます。 私はカイ二乗検定の下で試しましたが、これで十分かどうかはわかりません import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) お知らせ下さい。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.