タグ付けされた質問 「categorical-data」

カテゴリー(名義とも呼ばれる)データは、カテゴリーと呼ばれる限られた数の可能な値を取ることができます。カテゴリー値は「ラベル」であり、「測定」ではありません。個別だが順序付けられたデータ型には[ordinal-data]タグを使用してください。

2
ロジスティック回帰におけるカテゴリカル予測子の重要性
ロジスティック回帰のカテゴリ変数のz値の解釈に問題があります。以下の例では、3つのクラスを持つカテゴリ変数があり、z値に応じて、CLASS2が関連する場合とそうでない場合があります。 しかし、これはどういう意味ですか? 他のクラスを1つにマージできますか? 変数全体が良い予測子ではないかもしれないということですか? これは単なる例であり、ここでの実際のz値は実際の問題からのものではなく、それらの解釈に問題があるだけです。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *


5
SVMまたはニューラルネットワークを使用しているときにカテゴリ変数を数値変数に再コーディングする方法
SVMまたはニューラルネットワークを使用するには、カテゴリ変数を数値変数に変換(エンコード)する必要があります。この場合の通常の方法は、0-1番目のバイナリ値を使用し、k番目のカテゴリ値を(0,0、.. 。、1,0、... 0)(1はk番目の位置にあります)。これを行う他の方法はありますか?特に、0-1表現がニューラルネットワークに多数の追加の次元(入力単位)を導入するようなカテゴリ値(eg10000など)が多数ある場合、これはまったく望ましくない、または予期されないようです? 私は一般的な戦略について尋ねています。

4
カテゴリデータでは、変数が関連していないクラスターが存在する可能性がありますか?
クラスター分析を説明しようとするとき、プロセスが変数が相関しているかどうかに関連していると誤解するのは一般的です。混乱を乗り越える方法の1つは、次のようなプロットです。 これにより、クラスターがあるかどうかの問題と、変数が関連しているかどうかの問題の違いが明確に表示されます。ただし、これは連続データの区別のみを示しています。カテゴリデータを持つアナログを考えるのに問題があります。 ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no 2つの明確なクラスターがあることがわかります。プロパティAとBの両方を持つ人と、持たない人です。ただし、変数を見ると(たとえば、カイ2乗検定で)、それらは明らかに関連しています: tab # B # A yes no # yes 4 0 # no 0 4 chisq.test(tab) # X-squared = 4.5, …

4
相関の非推移性:性別と脳の大きさの間、および脳の大きさとIQの間の相関関係、性別とIQの間の相関関係はない
ブログで次の説明を見つけましたが、相関関係の非推移性に関する詳細情報を取得したいと思います。 次の議論の余地のない事実があります。 平均して、男性と女性の間で脳容積に違いがあります IQと脳の大きさの間には相関関係があります。相関は0.33であるため、IQの変動の10%に相当します これらの前提1と2から、論理的には次のように思われる:平均して女性は男性よりも低いIQを持っている。しかし、それは誤りです!統計では、相関関係は推移的ではありません。証拠は、IQテストの結果を見るだけでよく、男性と女性のIQが平均して変わらないことを示しています。 この相関関係の非推移性をもう少し深く理解したいと思います。 IQと脳の大きさの相関関係が0.9だった場合(これは(1)ではないことを知っています)、男性よりも平均して女性のIQが低いと推測することはまだ誤解でしょうか? どうか、IQ(およびテストの限界)、性差別、女性のステレオタイプ、慢などについて話をするためにここにいるのではありません(2)。誤justの背後にある論理的な理由を理解したいだけです。 (1)ネアンデルタール人の頭脳はホモサピエンスよりも大きかったが、賢くはなかった。 (2)私は女性であり、全体として、自分自身や他の女性の方が男性よりも賢くないと考えています。IQテストは気にしません。知的能力。 フランス語の元のソース: les faits indiscutables suivantsについて: il ya unedifférencede volumecérébralen moyenne entre hommes et femmes QIとボリューム・セレブラル全体の相関関係。相関係数0.33以下、10%の変動係数に対応 1回目と2回目はsembledécoulerlogiquement que:les femmes ont en moyenne un QIinférieuraux hommes。 Mais c'est une erreur de raisonnement!統計上、相関関係は一時的なものではありません。La preuve、c'est que pour en avoir lecœurnet、il suffit de relever les …

2
複数のカテゴリ変数がある場合のベータの解釈
私は、概念を理解β 0は、カテゴリ変数は、回帰係数は、2つのカテゴリーの平均値の差があることをエンド解釈を与え、0に等しい(または基準基である)ときの平均です。でも、私はそれぞれ引き受ける> 2つのカテゴリとβは、そのカテゴリの平均値と参照の違いを説明しています。β^0β^0\hat\beta_0β^β^\hat\beta しかし、多変数モデルにさらに多くの変数が取り込まれたらどうなりますか?ここで、2つのカテゴリ変数の参照の平均であることが意味をなさない場合、インターセプトは何を意味しますか?たとえば、性別(M(ref)/ F)と人種(white(ref)/ black)が両方ともモデルに含まれている場合です。ある唯一の白人男性の平均は?他の可能性をどのように解釈しますか?β^0β^0\hat\beta_0 別のメモとして:コントラストステートメントは、効果の変更を調査するための方法として機能しますか?または、さまざまなレベルで効果()を見るだけですか?β^β^\hat\beta

1
カテゴリ属性を持つSVMを扱う方法
35次元(属性)のスペースがあります。私の分析上の問題は単純な分類です。 35のディメンションのうち、25を超えるものがカテゴリカルであり、各属性は50を超えるタイプの値を取ります。 そのシナリオでは、ダミー変数の導入も機能しません。 カテゴリ属性が多数あるスペースでSVMを実行するにはどうすればよいですか?

5
カテゴリ変数または定性変数で使用するサマリー統計は何ですか?
私が要約統計を意味するとき、明確にするために、平均、四分位範囲中央値、分散、標準偏差を参照します。 名義と順序の両方のケースを考慮して、カテゴリまたは定性の単変量を要約するとき、その平均、中央値、四分位範囲、分散、および標準偏差を見つけることは理にかなっていますか? もしそうなら、それはあなたが連続変数を要約していた場合とは異なりますか?

2
ダミー機能(およびその他の離散/カテゴリ機能)による異常検出
tl; dr discrete異常検出を実行するときにデータを処理する推奨方法は何ですか? categorical異常検出を実行するときにデータを処理する推奨方法は何ですか? この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。 おそらく、カテゴリの値を観測の割合で置き換えますか? イントロ ここに初めて投稿するので、フォーマットや正しい定義の使用のいずれかが技術的に正しくないと思われる場合は、代わりに何を使用すべきかを知りたいと思います。 今後。 私は最近、Andrew NgによるMachine Learningクラスに参加しています 異常検出については、データセット内の特定の特徴/変数に対する正規/ガウス分布パラメーターが何であるかを判断し、それからトレーニング例/観測値の選択されたセットの確率を判断するように教えられました特定のガウス分布、および特徴の確率の積を取得します。xixi{x_i} 方法 問題のアクティビティを説明すると思われる機能/変数を選択します: \ {x_1、x_2、\ dots、x_i \}xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 各フィーチャのガウスのパラメーターを近似します。 \ mu_j = \ frac {1} {m} \ sum_ {i = 1} ^ m x_j ^ {(i)} μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} …

1
線形回帰でカテゴリ変数の統計的有意性をテストする方法は?
線形回帰でカテゴリ変数がある場合...カテゴリ変数の統計的有意性をどのようにして知ることができますか? 因子は10個のレベルがあり、1つの因子変数傘下で、10の異なる結果のt値があるとしましょう。X 1X1X1X_1X1X1X_1 因子変数の各レベルに対して統計的有意性がテストされているように思えますか?番号? @Macro:あなたの提案に従って、次の例を作成しました。 以下のモデル比較から、x3は有用であり、モデルに含める必要があるようです。 しかし、実際にはそれは間違っています... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) > anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 + x3 Model 2: y ~ x1 + x2 Res.Df RSS Df Sum of Sq F Pr(>F) …

3
マルチクラス分類器の構築は、いくつかのバイナリ分類器よりも優れていますか?
URLをカテゴリに分類する必要があります。すべてのURLをゼロにする15のカテゴリがあるとします。 15ウェイ分類器の方が良いですか?15個のラベルがあり、各データポイントの機能を生成します。 または、15種類のバイナリ分類子を作成します。たとえば、映画または非映画で、これらの分類から取得した数値を使用して、ランキングを作成し、最適なカテゴリを選択します。

1
LASSOでカテゴリカル予測子を処理する方法
いくつかのカテゴリ変数予測子といくつかの連続予測子を持つLASSOを実行しています。カテゴリ変数について質問があります。私が理解する最初のステップは、それぞれをダミーに分割し、公正な罰則のために標準化してから退行することです。ダミー変数の処理には、いくつかのオプションがあります。 各要因のダミーのうち1つを除くすべてを含め、その1つを参照レベルとして残します。ダミー係数の解釈は、除外された「参照」カテゴリに関連しています。インターセプトは、参照カテゴリの平均応答です。 各要因の変数をグループ化して、それらがすべて除外されるか、すべてが1つだけ含まれるようにします。私はそれが@Glen_bがここで提案していることだと信じています: 通常、はい、あなたはあなたの要因をすべて一緒に保ちます。glmnetなど、これを行うことができるいくつかのRパッケージがあります。 ここで @Andrew Mが示唆するように、すべてのレベルを含めます。 デフォルトのコントラスト関数を変更することもできます。デフォルトでは、各因子の1レベルが除外されます(治療のコーディング)。しかし、投げ縄のペナルティのため、これは識別可能性のためにもはや必要ではなく、実際、選択された変数の解釈をより複雑にします。これを行うには、設定します contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 現在、因子のどのレベルが選択されている場合でも、これらの特定のレベルが重要であり、省略されたすべてのレベルではないことを示唆していると考えることができます。機械学習では、ワンコーディングと呼ばれるこのコーディングを見てきました。 質問: これらの各アプローチでの切片と係数の解釈は何ですか? それらの1つを選択する際の考慮事項は何ですか? ダミー係数のスケールを解除してから、オフからオンへの変化として解釈しますか?

2
回帰における定性的変数コーディングは「特異点」につながります
「品質」という独立変数があります。この変数には、応答の3つのモダリティ(低品質、中品質、高品質)があります。この独立変数を多重線形回帰に導入したいと思います。バイナリ独立変数(ダミー変数、0/ をコーディングできます1)がある場合、それを多重線形回帰モデルに導入するのは簡単です。 しかし、応答の3つのモダリティを使用して、この変数を次のようにコーディングしようとしました。 Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 しかし、多重線形回帰を行おうとすると問題がありMedium qualityますNA:モダリティは私に与えます: Coefficients: (1 not defined because of singularities) この変数「品質」を3つのモダリティでどのようにコーディングできますか?因子(factorin R)として変数を作成する必要がありますが、この因子を多重線形回帰に導入できますか?

2
分割表のふるい/モザイクプロットの代替
インターネット上のカテゴリデータ(コンティンジェンシーテーブル)のタイプのプロットに出くわしましたが、それは本当に好きでしたが、それを二度と見つけたことがなく、それが何であるかさえ知りません。行の高さと列の幅が限界確率に対してスケーリングされているという点で、それは本質的にふるいプロットのようなものでした。したがって、各ボックスは、独立性の下で予想される相対頻度にスケーリングされました。ただし、各ボックス内にクロスハッチングをプロットするのではなく、各観測の二変量ユニフォームからランダムに選択された位置に点(散布図のように)をプロットするという点で、シーブプロットとは異なりました。このように、ポイントの密度は、観測されたカウントが期待されるカウントとどれだけ一致しているかを反映しています。つまり、すべてのボックスで密度が類似している場合、nullモデルは妥当です。)は、nullモデルではあまりありそうにないかもしれません。クロスハッチングの代わりにポイントがプロットされるため、プロットされる要素と観測カウントの間にはシンプルで直感的な対応がありますが、これは必ずしもシーブプロットには当てはまりません(以下を参照)。さらに、ポイントのランダムな配置は、プロットに「有機的な」感触を与えます。さらに、色を使用して、ヌルモデルから大きく分岐するボックス/セルを強調表示することができ、プロットマトリックスを使用して多くの異なる変数間のペアワイズ関係を調べることができるため、同様のプロットの利点を組み込むことができます。 i,ji,ji,j 誰もこのプロットが何と呼ばれているのか知っていますか? Rや他のソフトウェア(モンドリアンなど)でこれを簡単に行うパッケージ/関数はありますか?vcdにその ようなものが見つかりません。もちろん、ゼロからハードコーディングすることもできますが、それは苦痛です。 ふるいプロットの簡単な例を次に示します。さまざまなカテゴリの予想カウントがnullモデルの下でどのように再生されるかは簡単にわかりますが、クロスハッチングを実際の数値と一致させるのは難しく、非常に読みやすく、審美的に恐ろしい: B ~B A 38 4 ~A 3 19 価値があることに関しては、モザイクプロットには逆の問題があります:どのセルが(多すぎる)または(少なすぎる)カウント(nullモデルに対して)を持っているかを確認するのは簡単ですが、その関係を認識することはより困難です期待されたカウントはそうだったでしょう。具体的には、列の幅は限界確率に比例してスケーリングされますが、行の高さはスケーリングされないため、その情報を抽出することはほぼ不可能になります。 そして今、完全に異なるもののために... 「多すぎる」に青を、「少なすぎる」に赤を使用する規則がどこから来たのか誰もが知っていますか?これは常に私にとって直観に反するものでした。非常に高い密度(または観測値が多すぎる)は高温になり、低密度は低温になり、(少なくともステージ照明では)赤は暖かく、青は冷たくなるように思えます。 更新: 正しく覚えていれば、私が見たプロットは、マーケティングのティーザーとしてオンラインで自由に利用できるようになった本の章(紹介またはch1)のpdfにありました。ここにゼロからコーディングしたアイデアの大まかなバージョンがあります: この粗いバージョンでも、シーブプロットよりも読みやすく、モザイクプロットよりもいくつかの点で簡単だと思います(たとえば、関係の認識が簡単です)セル周波数の間は独立しています)。次の機能があると便利です。任意の分割表でこれを自動的に行います。プロットマトリックスの構成要素として使用でき、c。 上記のプロットに付属する優れた機能があります(モザイクプロットの標準化された残差凡例など)。

2
ダミー変数による機能の重要性
ダミー変数に分解されたカテゴリー変数の機能の重要性をどのように取得できるかを理解しようとしています。Rまたはh2oのようにカテゴリ変数を処理しないscikit-learnを使用しています。 カテゴリ変数をダミー変数に分解すると、その変数のクラスごとに個別の機能の重要性が得られます。 私の質問は、それらを単純に合計することによって、それらのダミー変数の重要度をカテゴリー変数の重要度値に再結合することは理にかなっていますか? 統計学習の要素の368ページから: 変数相対的な重要度の2乗は、それが分割変数として選択されたすべての内部ノードに対する改善の2乗の合計です。バツℓバツℓX_{ℓ} これにより、変数が選択された各ノードでメトリックを合計することで重要度値がすでに作成されているため、ダミー変数の変数重要度値を組み合わせてカテゴリ変数の重要度を「回復」できるはずです。もちろん、正確に正しいとは思いませんが、これらの値はランダムなプロセスで検出されるため、とにかく本当に正確な値です。 調査として、次のPythonコード(jupyterで)を作成しました。 import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import animation, rc from sklearn.datasets import load_diabetes from sklearn.ensemble import RandomForestClassifier import re #%matplotlib inline from IPython.display import HTML from IPython.display import set_matplotlib_formats plt.rcParams['figure.autolayout'] = False plt.rcParams['figure.figsize'] = 10, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.