統計とビッグデータ standardization

1

バイナリロジスティック回帰モデルには2つの予測子があります。1つはバイナリ、もう1つは連続です。私の主な目標は、同じモデル内の2つの予測子の係数を比較することです。連続回帰入力変数を標準化するというAndrew Gelmanの提案に出くわしました。 I）最初の提案（2008）：連続予測子を2 SDで除算 Original manuscript: http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf II）更新された推奨事項（2009）：連続予測子を1 SDで除算し、バイナリ入力値を（0,1）から（-1、+ 1）に再コード化）。 Updated recommendation (1 SD, recode binary): http://andrewgelman.com/2009/06/09/standardization/ 結果として生じる係数の適切な解釈は、私にはまだとらえどころのないです：シナリオ1：両方の予測子が同じモデルで重要である結果：非変換バイナリY連続予測子：XCONT（1sdで除算）バイナリ予測子：XBIN（値-1または1をとるように再コーディング） > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, family=binomial(link="logit"))) > summary(orfit1c) Call: glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -0.9842 -0.6001 -0.5481 -0.5481 …

8 regression logistic regression-coefficients standardization scales

2

特徴の選択と分類において、3つのデータセット全体で2つのアルゴリズムを統計的に比較する方法は？

問題の背景：私の研究の一環として、データセット（がん患者の遺伝子発現データ）から特徴のセットを選択できる2つのアルゴリズムを作成しました。次に、これらの機能をテストして、見えないサンプルをどれだけ癌または非癌として分類できるかを確認します。アルゴリズムの実行ごとに、ソリューション（一連の機能）が生成され、Z個の非表示サンプルでテストされます。ソリューションのパーセンテージ精度は、次のように計算されます(correct classifications / Z) * 100。アルゴリズムは2つあります：アルゴリズムXとアルゴリズムY データセットA、データセットB、データセットCの3つの別々の（異なる癌）データセットがあります。これらのデータセットは互いに非常に異なります。サンプルごとに同じ数のサンプルや同じ数の測定（機能）はありません。各データセットで各アルゴリズムを10回実行しました。したがって、アルゴリズムXには、データセットAから10件、データセットBから10件、データセットCから10件の結果があります。全体として、アルゴリズムXには30件の結果があります。私の問題： 3つすべてのデータセットにわたるアルゴリズムXの合計パフォーマンスが、アルゴリズムYの合計パフォーマンスと統計的に有意に異なるかどうかを確認したいと思います。各データセットのアルゴリズムXの結果を単一の結果セットに結合することは可能ですか？このようにして、アルゴリズムXの30の標準化された結果とアルゴリズムYの30の標準化された結果を取得します。t検定を使用して、2つの方法の間に有意差があるかどうかを確認できます。編集-これらは進化的アルゴリズムであるため、実行するたびに少し異なるソリューションを返します。ただし、存在する場合にサンプルを癌または非癌のいずれかに強く分類できるサンプルの機能がある場合、アルゴリズムが実行されるたびにその機能が選択されます。私が得る少し以下の理由により10回ごとに異なる結果を：これらのアルゴリズムはランダムにシードされます。私は繰り返しランダムサブサンプリング検証を使用します（10回の繰り返し）。私が使用しているデータセット（DNAマイクロアレイとプロテオミクス）は、アルゴリズムが行き詰まる可能性のある多くの局所最適値があるという意味で操作するのが非常に困難です。検出したい機能間およびサブセット間の相互作用がたくさんあります。私は50の染色体を訓練し、それらは特定の長さに制限されていません。それらは自由に成長したり収縮したりします（ただし、選択圧によって長さが短くなります）。これはまた、最終結果にいくつかのバリエーションをもたらします。そうは言っても、アルゴリズムはほとんど常に機能の特定のサブセットを選択します！これが私の結果のサンプルです（ここでは、アルゴリズムごとに10のうち4つだけが示されています）。データセット/実行アルゴリズムXアルゴリズムY A 1 90.91 90.91 A 2 90.91 95.45 A 3 90.91 90.91 A 4 90.91 90.91 B 1 100 100 B 2 100 100 B 3 95.65 100 …

8 machine-learning statistical-significance computational-statistics standardization genetic-algorithms

3

標準偏差がゼロの場合、配列を標準化する方法は？

線形回帰のためにデータセット列を標準化しようとしています。列の1つに標準偏差= 0があります。 def standardize(X): return (X - mean(X)) / std(X) したがって、このコードは機能しません。この問題を解決するためのトリックはありますか？2つのことを試しましたそれは役に立たないパラメーターなので、標準偏差0の列を破棄します。関数が機能するように、ような非常に小さなノイズを列の要素の1つに追加します。10− 1010−1010^{-10}standardize ありがとうございました！

8 regression standardization

3

ロジスティック回帰で異なる分布の予測子変数をどのように処理しますか？

x1とx2を指定してyを予測するためにロジスティック回帰を使用しています。 z = B0 + B1 * x1 + B2 * x2 y = e^z / (e^z + 1) ロジスティック回帰は、変数のスケールが大きく異なる場合にどのように処理されるはずですか？変数の高次係数を使用してロジスティック回帰モデルを構築することはありますか？私はこのようなものを想像しています（2つの変数について）： z = B0 + B1 * x1 + B2 * x1^2 + B3 * x2 + B4 * x2^2 または、ロジスティック回帰を使用する前に、x1とx2の値を単純に正規化、標準化、または再スケーリングする正しい答えは何ですか？

8 machine-learning logistic normalization standardization

2

標準化（標準偏差で除算）の背後にある理由は何ですか？

データセットをシグマで除算すると、標本分散が1になるのはなぜですか？単純化のためにゼロ平均を仮定します。この背後にある直感は何ですか？範囲（最大-最小）で除算すると、直感的に理解できます。しかし、標準偏差はそうではありません。

8 standardization

3

標準化する前に変数間の相関関係をテストできますか？

私がやりたいことは、リソース選択を評価するためのGLMMを構築することであり、変数のセットがあります（距離を表すものと土地被覆の％を表すもの）があります。標準化する前に変数間の相関関係をテストできますか？最初に何をしたらいいのかよくわかりません。

7 correlation glmm standardization ecology

タグ付けされた質問 「standardization」

タグ付けされた質問「standardization」