タグ付けされた質問 「categorical-data」

カテゴリー(名義とも呼ばれる)データは、カテゴリーと呼ばれる限られた数の可能な値を取ることができます。カテゴリー値は「ラベル」であり、「測定」ではありません。個別だが順序付けられたデータ型には[ordinal-data]タグを使用してください。

2
2 x 2分割表のイエーツ連続性補正
2 x 2分割表のイェーツ連続性訂正について、現場の人々から意見を集めたいと思います。ウィキペディアの記事では、調整が長すぎる可能性があると記載されているため、限られた意味でのみ使用されています。ここの関連記事では、それ以上の洞察は得られません。 これらのテストを定期的に使用している人々に、あなたはどう思いますか?補正を使用する方が良いですか。 また、95%の信頼水準で異なる結果が得られる実際の例。これは宿題の問題でしたが、私たちのクラスはイェーツの連続性補正をまったく扱っていないので、あなたが私のために私の宿題をしていないことを知って簡単に眠ってください。 samp <- matrix(c(13, 12, 15, 3), byrow = TRUE, ncol = 2) colnames(samp) <- c("No", "Yes") rownames(samp) <- c("Female", "Male") chisq.test(samp, correct = TRUE) chisq.test(samp, correct = FALSE)


5
量的データ、質的データ、またはその両方の公称、序数、およびバイナリですか?
私はデータ型を取り巻いていて、いくつかの助けが必要です: 上記の画像(ここから取得)を見ると、次のようなデータ型があります。 定量的(離散、連続) 定性的(名詞(N)、序数(O)、二項(B))。 しかし、次の写真(ここから)を見ると、カテゴリは次のとおりです。 定量的(離散(NOB)) 定性 1つの画像は定性的にNOBがあり、もう1つの画像は定性的にNOBです。どちらが正しいか?


2
継続的およびカテゴリー変数データ分析
私には3つの変数があります。 距離(連続、可変範囲、負の無限大から正の無限大) isLand(離散カテゴリ/ブール、可変範囲1または0) 居住者(離散カテゴリカル、可変範囲0〜7) 次の統計的な質問に回答したいと思います。 カテゴリー変数と連続変数の両方がある分布を比較する方法。たとえば、距離と居住者のデータ分布がisLandの値に応じて変化するかどうかを確認します。 3つの変数のうち2つが与えられた場合、いくつかの方程式を使用して3番目の変数を予測できますか? 3つ以上の変数を使用して独立性を判断するにはどうすればよいですか?

6
カウントデータ(カテゴリデータ)をレートに変換した場合の処理​​方法
私は病気の感染データに取り組んでおり、そのデータを「カテゴリ」として処理するのか「継続」として処理するのか困惑しています。 「感染数」 特定の期間に見つかった感染症例の数、カウントはカテゴリデータから生成されます(つまり、「感染」としてタグ付けされた患者の数) 「患者のベッドデイズ」 その病棟内のすべての患者が病棟に滞在した合計日数の合計。ここでも、カウントはカテゴリカルデータから生成されます(つまり、「特定の病棟に滞在」としてタグ付けされた患者の数) 「患者の病床日あたりの感染」 「感染数」/「患者の病床日数」は、いずれも当初はカウントデータでしたが、現在は割合になっています 質問: ここでカイ二乗を使用して、「患者の1日あたりの感染数」の差が統計的に有意であるかどうかを評価できますか? アップデート 発生率を比較(または感染率と呼ぶ)できることを発見しましたが、「発生率の差」(IRD)や「発生率の比率」(IRR)などを実行しています。(ここから見つけました) IRDとt検定の違いは何ですか? IRRを補足する統計的検定はありますか?

2
マルコフ連鎖のカテゴリー値における自己相関の測度?
直接的な質問:(順序付けられていない)カテゴリカル変数の観測値のシーケンスの自己相関の測定値はありますか? 背景: カテゴリー変数からサンプリングするためにMCMCを使用していて、私が開発したサンプリング方法が事後分布全体でどの程度うまく混合しているかを測定したいと思います。私はacfプロットと連続変数の自己相関に精通していますが、このカテゴリー変数の遷移確率行列を見て止まっていました...何か考えはありますか?

1
消えているワシの統計分析
スコットランドでは、サテライトでタグ付けされたワシがなくなっており、上の表は、タグモデルごとのタグの運命を示しています。「停止-誤動作なし」のタグに特に興味があります。これらの鳥も殺され、体とタグが処分されている可能性があるためです。 この表とこの表のみが「最も離れた統計分析でも、「停止-誤動作なし」と使用されるタグのタイプの間に関係があることは明らかである」という証拠であることを述べたのを見たので、私の質問は、ステートメントはバックアップされますか? 42/135 (31%) tags stopped for all types 8/17 (47%) tags stopped for 80NS 29/77 (38%) tags stopped for 70GPS 3/22 (14%) tags stopped for 105GPS 2/13 (15%) tags stopped for 70GSM 0/6 (0%) tags stopped for 95BTOGSM したがって、80NSの故障率が47%であり、世界平均の31%よりも大幅に悪い場合、この説明は正しいと思います。また、135個のうち17個のタグのランダムなサンプルで8つの失敗が発生する確率が実際にはかなり高い場合は、正しくありません。より抽象的には、バッグに42個の黒いボールと93個の白いボールがあり、ランダムに17個を選んだ場合、8個の黒いボールと9個の白いボールを選ぶ確率はどのくらいですか? 最初の8が黒になる確率は(42/135)*(41/134)などとして計算できますが、17のうちの8が黒になる可能性を計算しようとして立ち往生しています 編集:サテライトタグは、2004年から2016年までの13年間で鳥に取り付けられました。この表は、135ではなく131のタグを示しています。4つのタグは、4つの初期タグの正確な配置場所を確認できなかったため除外されました。 これは、70GPS / 70GSMタグの寿命に関するいくつかのデータを示すレポートの別の表です。

1
グループエラスティックネット
なげなわとエラスティックネットは3つ以上のカテゴリを持つ変数を処理できないため、これらの方法を適用するには、カテゴリ変数をダミーに分割する必要があります。これにより、いくつかの問題が発生する可能性があるため、グループlassoまたはスパースグループlassoへのlassoの拡張が存在します。 ただし、このような拡張機能がエラスティックネットにも存在するかどうか疑問に思っています。残念ながら、このトピックに関する統計資料は見つかりませんでした。 質問:グループエラスティックネットは存在しますか?

1
カーディナリティが大きく異なる場合の高カーディナリティ(多カテゴリ)カテゴリカルフィーチャのエンコード
カテゴリ機能のエンコードに関する質問を調べてきましたが、私の問題を説明するものは見つかりませんでした。見逃した場合はお詫びします。 ほぼ同じ重要度のバイナリ変数とノミナル変数のデータセットがあるとします。 ほとんどの分類子はカテゴリ型を直接処理できないため、これらを変換する必要があります。たとえば、この回答で説明されているように、ワンホットエンコーディング(ダミー変数)を使用します。 1つのカテゴリ変数のカーディナリティが高い場合、この方法で他の(たとえばバイナリ)変数を "圧倒"してエンコードしませんか?「カーディナリティー」とは、名目変数内のカテゴリーの数を意味します。 分類子モデルが変数間の関係を認識している場合、同じ変数の導入されたバイナリダミー「コンポーネント」間の関係を不必要に見つけようとしないのではないでしょうか。 もしそうなら、これはどのように対処できますか? 私が考えることができる最良の解決策は、高カーディナリティのプロパティを論理的に「バケット」にグループ化することですが、問題となるのに十分な一意の値がある場合、手動でそれらをグループ化すると、労力もかかります。 編集:これは取るに足らないことであり、部分的にのみ問題に対処しますが、私がやったことの1つは、比較的まれなすべてのカテゴリ値を新しい「その他」のカテゴリに置き換えることです。値を「まれ」と見なす場合、しきい値を最適化するのに時間がかかる可能性がありますが、少なくともこのアプローチは自動化できます。

1
非排他的なカテゴリ変数を使用して独立性をテストするにはどうすればよいですか?
前書き 私は、多くの行とバイナリの結果を含むカテゴリー分割表を持っています。 name outcome1 outcome2 ---- -------- -------- A 14 5 B 17 2 C 6 5 D 11 8 E 18 14 両方のカテゴリ(名前と結果)は互いに独立しているため、これで問題ありません。つまり、人物Aが人物Bになることはできず、結果1は結果2 と同時に発生しません。 問題を追加する ただし、エージェントにクラスを割り当てることで、データセットを充実させたいと思います。クラスは排他的ではなく、一部は相互に依存することさえあります。上記の例では、4つのクラスC xがあります。 name C1 C2 C3 C4 ---- --- --- --- --- A 0 0 1 1 B 1 0 1 0 C 1 …

3
ロジスティック回帰におけるカテゴリー変数のランキング
私はロジスティック回帰を使用していくつかの研究をしています。10個の変数が従属変数に影響を与えます。前述の1つは、カテゴリー(例:速達、標準配達など)です。ここで、従属変数への影響の「強さ」に基づいてそれらのカテゴリーをランク付けしたいと思います。 それらはすべて有意(小さいp値)ですが、オッズの値をランキングの目的で使用することはできないと思います。各カテゴリが他のカテゴリとも大幅に異なる場合、どういうわけか理解する必要があります。これは正しいです? 変数を中央揃えにする可能性について読みました。これは本当にオプションですか?モデルの残りの部分に影響を与えたくありません。 @subraの投稿への私のコメントをサポートするためのStata出力: Average marginal effects Number of obs = 124773 Model VCE : OIM Expression : Pr(return), predict() dy/dx w.r.t. : ExpDel ------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- ExpDel | .1054605 .0147972 7.36 0.000 .0798584 .1378626 ------------------------------------------------------------------------------

1
カテゴリーデータを使用して、参加者ごとに複数の測定を処理するにはどうすればよいですか?
多くの参加者から測定値を収集する実験を行いました。関連する各データポイントには2つの変数があり、どちらもカテゴリ型です。実際、各変数には2つの可能な値があります(2つのはい/いいえの質問に対する答え)。統計的仮説検定で、これら2つの変数間に相関があるように見えるかどうかを確認してください。 参加者ごとに1つのデータポイントがある場合、結果として得られる分割表に対してフィッシャーの正確検定を使用できます。ただし、参加者ごとに複数のデータポイントがあります。したがって、単一の参加者からのデータポイントは独立していないため、フィッシャーの正確確率検定は適用可能ではないようです。たとえば、アリスから10個のデータポイントがある場合、それらはすべて同じ人物からのものであるため、おそらく独立していません。フィッシャーの正確確率検定では、すべてのデータポイントが独立してサンプリングされたと想定されているため、フィッシャーの正確確率検定の仮定は満たされておらず、この設定での使用は不適切です(統計的有意性の不当な報告が出る可能性があります)。2 × 22×22 \times 2 この状況を処理するテクニックはありますか? 私が検討したアプローチ: もっともらしい代替策の1つは、各参加者からのすべてのデータを1つの数値に集約してから、他の独立性テストを使用することです。たとえば、各参加者について、最初の質問に対するはいの回答の割合と2番目の質問に対するはいの回答の割合を数え、参加者ごとに2つの実数を与え、ピアソンの積率検定を使用して相関をテストできますこれら2つの数値の間。しかし、これが良いアプローチかどうかはわかりません。(たとえば、平均化/カウントがデータをスローし、集計のためにこれが能力を失う可能性があること、または集計後に依存の兆候が消えることがあることを心配しています。) 基礎となる変数が連続的である場合(実数など)と線形モデルが適切な場合に、この状況を処理することを目的としていると思われるマルチレベルモデルについて読みました。ただし、ここでは2つのカテゴリ変数(はい/いいえの質問に対する回答)があるため、ここでは適用されないようです。カテゴリカルデータに適用できる同等の手法はありますか? ウィキペディアで繰り返し測定のデザインについて少し読んだこともありますが、ウィキペディアの記事は縦断的研究に焦点を当てています。これはここでは当てはまらないように見えます。私がそれを正しく理解していれば、繰り返しの測定は時間の経過による影響に焦点を合わせているようです(時間の経過が変数に影響する場合)。しかし、私の場合、時間の経過が関連する影響を与えることはありません。私が誤解した場合は教えてください。 さらに振り返ってみると、私に起こる別のアプローチは、置換テストを使用することです。各参加者について、質問1への回答をランダムに並べ替え、質問2への回答を(独立して)ランダムに並べ替え、参加者ごとに異なる順列を使用できます。ただし、どの結果が観察された結果と「少なくとも極端」であるかを測定するために、ここではどのテスト統計が適切であるかは明確ではありません。 関連:各被験者ごとに複数のデータポイントを正しく処理する方法(ただし、カテゴリカルデータではなく、連続変数の線形モデルに焦点を当てています)、同じ患者で測定は独立していますか?(同じ)

3
仕事の説明から情報をどのように分類/抽出しますか?
ユーザーが入力した一連のジョブの説明があります。あらゆる種類のミススペルと悪いデータがあります。つまり: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction l.p. welder welder welder ... 仕事に関連する洞察でこの価値を「高める」ためにどのようなステップを踏みますか? 私が考えることができる最高のものは、それをwolfram alphaに与えることです。しかし、Pythonを使用して利用できる他のアクセシブルなテクニックはあるのでしょうか。 更新:標準の職業分類があることがわかりました。名前をSOCに、SOCを平均給与の範囲に一致させたいと思います。

2
連続変数の教師なし離散化の正当化は何ですか?
多くの出典は、統計分析の前に連続変数の離散化(分類)の多くの負の結果があることを示唆しています(以下の参考文献のサンプル[1]-[4])。 逆に[5]は、連続変数が離散化された場合に一部の機械学習手法がより良い結果を生成することが知られていることを示唆しています(教師付き離散化手法のパフォーマンスが高いことにも注意)。 統計的な観点から、この慣行に広く受け入れられているメリットや正当化があるかどうか知りたいのですが。 特に、GLM分析内の連続変数を離散化する正当な理由はありますか? [1] Royston P、Altman DG、Sauerbrei W.重回帰で連続予測子を二分する:悪い考え。Stat Med 2006; 25:127-41 [2] Brunner J、オースティンPC。独立変数がエラーで測定された場合の重回帰におけるタイプIエラー率のインフレ。カナダ統計ジャーナル2009; 37(1):33-46 [3]アーウィンJR、マクレランドGH。連続予測子変数を二分することの負の結果。ジャーナルオブマーケティングリサーチ2003; 40:366–371。 [4]ハレルJr FE。連続変数の分類によって引き起こされる問題。http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous、2004。2004年6.9。にアクセス [5] Kotsiantis、S。Kanellopoulos、D.「離散化手法:最近の調査」。GESTS International Transactions on Computer Science and Engineering 32(1):47–58。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.