統計とビッグデータ categorical-data

3

カテゴリ変数と連続変数の両方を含むデータセットがあります。カテゴリ変数を各レベルのバイナリ変数（A_level1：{0,1}、A_level2：{0,1}など）に変換することをお勧めしました-一部の人はこれを「ダミー変数」と呼んでいると思います。そうは言っても、新しい変数を使用してデータセット全体を中央に配置してスケーリングするのは誤解を招くでしょうか？変数の「オン/オフ」の意味を失うかのようです。誤解を招く場合、それは連続変数を個別に中央揃えおよびスケーリングし、それをデータセットに再度追加する必要があることを意味しますか？ TIA。

13 categorical-data data-transformation centering

6

ランダムフォレスト：テストセットで新しい因子レベルを処理する方法

Rのランダムフォレストモデルを使用して予測しようとしています。ただし、テストセットとトレーニングセットでは値が異なる要因があるため、エラーが発生します。たとえば、因子にCat_2は34, 68, 76、トレーニングセットに表示されないテストセットの値などがあります。残念ながら、テストセットを制御することはできません...そのまま使用する必要があります。私の唯一の回避策は、問題のある要素を数値に変換して戻すことas.numeric()でした。それは機能しますが、これらの値は数値的な意味を持たないコードであるため、私はあまり満足していません... テストセットから新しい値を削除する別の解決策があると思いますか？ただし1, 2, 14, 32、トレーニングとテストの両方にあり、予測に役立つ可能性のある情報を含む他のすべての因子値（たとえば、値など）を削除することはありません。

13 r categorical-data random-forest

2

アンケートの序数データを適切な間隔データに変換する方法は？

順序レベルのデータを間隔レベルに変換する簡単な方法はありますか（逆の方法で行うのと同じように）？また、ExcelまたはSPSSで実行可能ですか？データがある、たとえば：序数レベルで10の質問（0-5スケール、0 = "not at all"、5 = "all the time"など）、それらを適切に処理できるように変換したいパラメトリックテスト用の間隔レベルデータ（正規分布、問題外のノンパラメトリックテスト）。答えに非常に感謝します！

13 categorical-data ordinal-data scales psychometrics

4

カテゴリデータを要約する方法は？

私は次の問題に苦労してきましたが、できれば統計学者にとっては簡単なことです（私は統計にある程度触れているプログラマーです）。調査への回答を要約する必要があります（管理者向け）。調査には、さまざまなエリアにグループ化された100以上の質問があります（エリアごとに約5〜10の質問があります）。すべての回答はカテゴリーです（通常の尺度では、「まったくない」、「まれに」、「毎日またはより頻繁に」のようなものです）。経営陣は各分野の概要を入手したいと思っていますが、これが私の問題です。関連する質問内でカテゴリ別の回答を集計する方法は？。質問は多すぎて、グラフを作成したり、各エリアの格子プロットを作成したりすることはできません。たとえば、数字のあるテーブルと比較して、可能な場合は視覚的なアプローチを好みます（alas、それらは読みません）。私が思いつくことができる唯一のことは、各領域の答えの数を数えて、ヒストグラムをプロットすることです。カテゴリデータに利用できるものは他にありますか？私はRを使用していますが、それが関連するかどうかはわかりませんが、これはより一般的な統計の質問だと感じています。

13 categorical-data data-transformation descriptive-statistics

3

ロジスティック回帰のWoE（証拠の重み）による変数の置換

これは、同僚の何人かが従う練習や方法に関する質問です。ロジスティック回帰モデルの作成中に、カテゴリ変数（またはビニングされた連続変数）をそれぞれの証拠の重み（WoE）に置き換える人々を見てきました。これは、リグレッサーと従属変数の間に単調な関係を確立するために行われると思われます。私の知る限り、モデルが作成されると、方程式の変数はデータセットの変数ではありません。むしろ、方程式の変数は、従属変数を分離する際の変数の重要性や重みのようなものになりました！私の質問は、どのようにモデルまたはモデル係数を解釈するのですか？たとえば、次の方程式の場合：ログ（ p1 − p） =β0+ β1バツ1ログ⁡（p1−p）=β0+β1バツ1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 は、変数 1単位増加に対する比の相対的増加であると言えます。exp（β1）exp⁡（β1）\exp(\beta_1) バツ1バツ1x_1 しかし、変数がそのWoEに置き換えられた場合、解釈は次のように変更されます。私はインターネットでこの実践を見てきましたが、この質問の答えはどこにも見つかりませんでした。このコミュニティ自体からのこのリンクは、誰かが書いた似たようなクエリに関連しています： WoEは、ロジスティック回帰の従属変数であるオッズ比の自然対数との線形関係を表示します。したがって、変数の実際の値の代わりにWoEを使用する場合、ロジスティック回帰ではモデルの誤指定の問題は発生しません。しかし、まだ説明がわかりません。不足しているものを理解してください。

13 regression logistic categorical-data modeling

2

日次データの重回帰で季節性をキャプチャする

季節性の高い製品の毎日の販売データがあります。回帰モデルで季節性をキャプチャしたい。四半期または毎月のデータがある場合、それぞれ3と11のダミー変数を作成できますが、毎日のデータを処理できますか？ 3年間の毎日のデータがあります。独立変数は、価格、販促フラグ（yes / no）、および温度です。従属変数は、その製品の販売です。重回帰モデルを使用しているため、時系列モデルを探していません。

13 regression time-series multiple-regression categorical-data

2

GLMでのダミー（手動または自動）変数の作成について

因子変数（レベルMとFの性別など）がglm式で使用されている場合、ダミー変数が作成され、関連する係数（たとえば、genderM）とともにglmモデルの要約に表示されます。この方法で因子を分割するためにRに依存する代わりに、因子が一連の数値0/1変数（たとえば、genderM（1はM、0はF））、genderF（1はF、0はM）そして、これらの変数は、glm式で数値変数として使用されますが、係数の結果は異なりますか？基本的に問題は次のとおりです。Rは因子変数と数値変数を操作するときに異なる係数計算を使用しますか？フォローアップの質問（上記で回答されている可能性があります）：Rにダミー変数を作成させる効率だけでなく、一連の数値0,1変数として係数を再コーディングし、代わりにモデルでそれらを使用することで問題はありますか？

13 r generalized-linear-model categorical-data categorical-encoding

2

ディシジョンツリーのカテゴリ機能をコーディングするためのベストプラクティスは？

線形回帰のカテゴリカル特徴をコーディングする場合、ルールがあります。ダミーの数は、レベルの総数よりも1少なくする必要があります（共線性を回避するため）。ディシジョンツリーにも同様のルールがありますか（バグ、ブースト）？Pythonの標準的な方法はnレベルをnダミー（sklearns OneHotEncoderまたはPandas pd.get_dummies）に拡張するように思われるため、これを私は質問します。ディシジョンツリーのカテゴリ機能をコーディングするためのベストプラクティスとして何を提案しますか？

13 categorical-data random-forest cart boosting

1

Pythonでの順序ロジスティック回帰

Pythonで順序ロジスティック回帰を実行したいと思います-3つのレベルといくつかの説明要因を持つ応答変数に対して。このstatsmodelsパッケージは、バイナリロジットモデルと多項ロジット（MNLogit）モデルをサポートしていますが、順序付けられたロジットはサポートしていません。基礎となる数学はそれほど変わらないので、これらを使用して簡単に実装できるのだろうか？（または、動作する他のPythonパッケージを高く評価します。）

12 categorical-data python logit ordered-logit statsmodels

3

周辺カウントのみが与えられた同時分布の最尤推定量

ましょうpx,ypx,yp_{x,y} 2つのカテゴリ変数の同時分布であるX,YX,YX,Yと、x,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}。セイnnnのサンプルは、この分布から引き出されたが、我々は唯一の、すなわちのために、限界カウントを与えられているj=1,…,Kj=1,…,Kj=1,\ldots,K： Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, S j、T jが与えられた場合のの最尤推定量は何ですか？これは知られていますか？計算的に実行可能ですか？ML以外にこの問題に対する他の合理的なアプローチはありますか？px,ypx,yp_{x,y}Sj,TjSj,TjS_j,T_j

12 categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

ベリー反転

米国のワイン販売に関する大量の市場データがあり、特定の高品質ワインの需要を推定したいと思います。これらの市場シェアは、基本的形態のランダム効用モデルから導出された Xが観察含まを製品特性、pは製品価格、ξUijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + \epsilon_{jt}XXXpppξξ\xiは需要に影響を与え、価格と相関する観測されていない製品特性であり、は誤差項、iは個人、jは製品、tは市場（この場合は都市）にインデックスを付けます。ϵϵ\epsiloniiijjjttt 観測されていない品質項ために、通常の条件付きロジットモデルを使用することはできません。また、適切な機器がありません。しかし、Berry（1994）は、多項ロジットフレームワークで市場方程式の非線形システムを線形化する戦略を開発しましたが、彼がどのように反転ステップを行うのかわかりません。ξξ\xi 真のパラメータ値で彼は、推定市場シェアは、「真」の市場シェアに等しくなければならないことを言うの J T（X 、β 、α 、ξ ）= Sのjはトン彼はその後、市場シェアを反転させることを示唆しているためなどから S J T = S J T（δ 、α 、β ）に δ = S - 1（S 、α 、β ）sˆjt(X,β,α,ξ)=Sjts^jt(X,β,α,ξ)=Sjt\widehat{s}_{jt} (X, \beta , \alpha , \xi) = …

12 logistic estimation multiple-regression categorical-data

3

Mundlak固定効果手順は、ダミーを使用したロジスティック回帰に適用できますか？

8000個のクラスターと400万個の観測値を含むデータセットがあります。残念ながら、統計データであるStataは、ロジスティック回帰にパネルデータ関数を使用すると、実行速度がかなり遅くなりxtlogitます。ただし、非パネルlogit機能を使用すると、結果がより早く表示されます。そのためlogit、固定効果を説明する変更されたデータを使用することでメリットが得られる場合があります。この手順は「Mundlak固定効果手順」（Mundlak、Y. 1978. Pooling of Time-Series and Cross-Section Data。Econometrica、46（1）、69-85。） Antonakis、J.、Bendahan、S.、Jacquart、P。、およびLalive、R.（2010）の論文で、この手順の直感的な説明を見つけました。因果関係の主張について：レビューと推奨事項。リーダーシップクォータリー、21（6）。1086-1120。私は引用する：固定効果の省略の問題を回避し、レベル2変数を含める方法の1つは、推定モデルにすべてのレベル1共変量のクラスター平均を含めることです（Mundlak、1978）。クラスター平均は、回帰変数として含めるか、レベル1の共変量から差し引く（クラスター平均の中心化）ことができます。クラスター平均はクラスター内で不変で（クラスター間で異なる）、固定効果が含まれているかのようにレベル1パラメーターの一貫した推定を可能にします（Rabe-Hesketh＆Skrondal、2008を参照）。したがって、クラスター平均のセンタリングは、私の計算上の問題を解決するのに理想的かつ実用的と思われます。ただし、これらの論文は線形回帰（OLS）に向けられているようです。このクラスター平均センタリングの方法は、固定効果の「複製」バイナリロジスティック回帰にも適用できますか？同じ答えになるはずのより技術的な質問はxtlogit depvar indepvars, fe、データlogit depvar indepvarsセットBがデータセットAのクラスター平均中心バージョンであるときに、データセットA とデータセットBが等しいかどうかです。このクラスター平均のセンタリングで私が見つけた追加の難点は、ダミーに対処する方法です。ダミーは0または1であるため、ランダム回帰と固定効果回帰では同一ですか？それらは「中心」にすべきではありませんか？

12 logistic categorical-data stata fixed-effects-model

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

3

3レベルの分割表を処理する適切な方法

いくつかの種、それらが収集された宿主植物、およびその収集が雨の日に起こったかどうか（これは実際に重要です！）のカウントデータを含む3レベルの分割表があります。Rを使用すると、偽のデータは次のようになります。 count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), 2) rain <- c(rep(0,4), rep(1,4)) my.table <- xtabs(count ~ host + species + rain) , , rain = 0 species host a b c 12 15 d 10 13 , , rain = 1 species …

12 r categorical-data log-linear

タグ付けされた質問 「categorical-data」

タグ付けされた質問「categorical-data」