タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。

1
モデルの近似を変換された応答と変換されていない応答と比較する
3つの異なるグループ間の比率のデータを比較したい: ID Group Prop.Nitrogen 1 A 0.89 2 A 0.85 3 B 0.92 4 B 0.97 ウォートンとホイ(doi:10.1890 / 10-0340.1 1)に続いて、ロジット変換を使用してこれらのデータをより適切に処理できるかどうかを確認しました。 変換されたデータと変換されていないデータの線形モデルの診断プロットを見ると、それらは非常によく似ており、明らかな問題はなく、推定パラメーターにわずかな違いしかありません。ただし、モデルがデータの変換されたバージョンと変換されていないバージョンにどの程度適合しているかについては、もう少しお話ししたいと思います。AIC値を直接比較することはできません。修正はありますか?これを調べるために作成できますか?それとも別のアプローチを取るべきですか?

3
Pを形質転換するためのこれらの式は、正確な又は膨張/控えめな見積もりとしてLSD、MSD、SEへHSD、CI、
バックグラウンド 以前に公開されたデータを含むメタ分析を行っています。多くの場合、処理間の差異は、P値、最小有意差(LSD)、およびその他の統計で報告されますが、分散の直接的な推定値は提供されません。 私が使用しているモデルのコンテキストでは、分散の過大評価は問題ありません。 問題 これはへの変換のリストです。ここでS E = √SESESE(Saville 2003)私が検討していること、フィードバックは高く評価されています。以下、私は仮定するα=0.05ので、1- α / 2=0.975 及び変数は通常、特に明記しない限り、分散されています。SE=MSE/n−−−−−−−√SE=MSE/nSE=\sqrt{MSE/n} α=0.05α=0.05\alpha=0.051−α/2=0.9751−α/2=0.9751-^{\alpha}/_2=0.975 質問: 所与の、N、および処理手段ˉ X 1及びˉ X 2 S E = ˉ X 1 - ˉ X 2PPPnnnX¯1X¯1\bar X_1X¯2X¯2\bar X_2 SE=X¯1−X¯2t(1−P2,2n−2)2/n−−−√SE=X¯1−X¯2t(1−P2,2n−2)2/nSE=\frac{\bar X_1-\bar X_2}{t_{(1-\frac{P}{2},2n-2)}\sqrt{2/n}} αα\alphannnbbbbbbn=bn=bn=bSE=LSDt(0.975,n)2bn−−−√SE=LSDt(0.975,n)2bnSE = \frac{LSD}{t_{(0.975,n)}\sqrt{2bn}} nnnαα\alpha2n−22n−22n-2 SE=MSDt(0.975,2n−2)2–√SE=MSDt(0.975,2n−2)2SE = \frac{MSD}{t_{(0.975, 2n-2)}\sqrt{2}} αα\alphannn SE=CIt(α/2,n)SE=CIt(α/2,n)SE = \frac{CI}{t_{(\alpha/2,n)}} nnnqqqSE=HSDq(0.975,n)SE=HSDq(0.975,n)SE = \frac{HSD}{q_{(0.975,n)}} …

3
尖度に影響を与えずにスキューを変更する変換?
尖度に影響を与えずに確率変数のスキューを変更する変換があるかどうか私は興味があります。これは、RVのアフィン変換が平均と分散にどのように影響するかと似ていますが、スキューと尖度には影響しません(スキューと尖度がスケールの変化に対して不変であると定義されているためです)。これは既知の問題ですか?

2
ログ差分時系列モデルは成長率よりも優れていますか?
多くの場合、著者が「対数差」モデルを推定しているのを見ます。たとえば、 ログ(yt)− ログ(yt − 1)= ログ(yt/ yt − 1) = α + βバツtログ⁡(yt)−ログ⁡(yt−1)=ログ⁡(yt/yt−1)=α+βバツt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t これは、log (y t)がI (1 )であるをy tの変化率に関連付けるのに適切であることに同意します。バツtバツtx_tytyty_tログ(yt)ログ⁡(yt)\log (y_t)私(1 )私(1)I(1) しかし、対数差は近似値であり、対数変換なしでモデルを推定することもできます。たとえば、 yt/ yt − 1− 1 = (yt− yt − 1)/ yt − 1= α + βバツtyt/yt−1−1=(yt−yt−1)/yt−1=α+βバツty_t/y_{t-1} -1 = (y_t - …

1
逆変換された信頼区間
この議論に出くわしたので、私は逆変換された信頼区間の規則に関する質問を提起しています。 この記事によると、対数正規確率変数の平均の名目カバレッジ逆変換CIは次のとおりです。 UCL(X)=exp(Y+var(Y)2+zvar(Y)n+var(Y)22(n−1)−−−−−−−−−−−−√) UCL(X)=exp⁡(Y+var(Y)2+zvar(Y)n+var(Y)22(n−1))\ UCL(X)= \exp\left(Y+\frac{\text{var}(Y)}{2}+z\sqrt{\frac{\text{var}(Y)}{n}+\frac{\text{var}(Y)^2}{2(n-1)}}\right) LCL(X)=exp(Y+var(Y)2−zvar(Y)n+var(Y)22(n−1)−−−−−−−−−−−−√) LCL(X)=exp⁡(Y+var(Y)2−zvar(Y)n+var(Y)22(n−1))\ LCL(X)= \exp\left(Y+\frac{\text{var}(Y)}{2}-z\sqrt{\frac{\text{var}(Y)}{n}+\frac{\text{var}(Y)^2}{2(n-1)}}\right) /素朴ではない /exp((Y)+zvar(Y)−−−−−−√)exp⁡((Y)+zvar(Y))\exp((Y)+z\sqrt{\text{var}(Y)}) さて、次の変換のためのそのようなCIは何ですか? x−−√x\sqrt{x}およびx1/3x1/3x^{1/3} arcsin(x−−√)arcsin(x)\text{arcsin}(\sqrt{x}) log(x1−x)log⁡(x1−x)\log(\frac{x}{1-x}) 1/x1/x1/x 確率変数自体の許容範囲はどうですか(つまり、母集団からランダムに抽出された単一のサンプル値を意味します)?逆変換された間隔で同じ問題はありますか、それとも名目カバレッジがありますか?

1
異常に制限された応答変数の回帰の処理
理論的には-225から+225の範囲にある応答変数をモデル化しようとしています。変数は、ゲームをプレイしたときに被験者が得た合計スコアです。理論的には、被験者が+225を獲得することは可能です。それにもかかわらず、スコアは被験者のアクションだけでなく別のアクションのアクションにも依存していたため、スコアの最大の誰もが125でした(これは、お互いにプレーしている2人のプレーヤーが両方ともスコアできる最高のスコアです)。これは非常に高い頻度で発生しました。最低スコアは+35でした。 この125の境界は、線形回帰で問題を引き起こしています。私が考えられる唯一のことは、応答を0と1の間になるように再スケーリングし、ベータ回帰を使用することです。+225をスコアリングできるので、これを行う場合、125がトップ境界(または変換後の1)であると本当に正当化できるかどうかはわかりません。さらに、これを行った場合、私の下部境界はどうなるでしょう35。 おかげで、 ジョナサン

2
ロジスティック回帰の連続変数を変換する
大規模な調査データ、バイナリ結果変数、およびバイナリと連続を含む多くの説明変数があります。私はモデルセット(GLMと混合GLMの両方で実験)を構築し、情報理論的アプローチを使用して最上位モデルを選択しています。説明(連続およびカテゴリの両方)について相関関係を注意深く調べ、ピアソンまたはフィコール係数が0.3未満の同じモデルの説明のみを使用しています。すべての連続変数に、最上位モデルと競合するための公正な機会を与えたいと思います。私の経験では、必要なものをスキューに基づいて変換すると、それらが参加するモデルが改善されます(AICが低下します)。 私の最初の質問は次のとおりです。変換はロジットの線形性を改善するため、この改善はありますか?または、スキューを修正することで、データをより対称にすることで、説明変数のバランスがどういうわけか改善されますか?私はこれの背後にある数学的理由を理解したいと思いますが、今のところ、誰かがこれを簡単な言葉で説明できればそれは素晴らしいでしょう。私が使用できる参照があれば、私はそれを本当に感謝します。 多くのインターネットサイトでは、正規性はバイナリロジスティック回帰の仮定ではないため、変数を変換しないでください。しかし、変数を変換しないことにより、他のものと比較して不利な点を残し、トップモデルが何であるかに影響を与え、推論を変更する可能性があると感じています(まあ、通常はそうではありませんが、一部のデータセットではそうです)。いくつかの変数は、対数変換された場合、2乗された場合(スキューの方向が異なる場合)、および一部が変換されない場合にパフォーマンスが向上します。 ロジスティック回帰の説明変数を変換するときに注意すべき点をガイドラインで教えてもらえますか。それができない場合は、なぜそうしないのですか?

2
Rで因子から数値変数に変換する際の問題[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 7年前休業。 因子変数を数値に変換したいのですが、as.numeric期待した効果がありません。 以下に、元の変数に基づく変数の数値バージョンの要約統計を取得します。手段は1ずつカウントアップし続けます...おそらく(彼は推測します)因子のレベルには名前と数値の両方があり、数値as.numericを使用するように設計されている場合、新しい変数の値は名前から来ると期待していますか? > describe.by(as.numeric(df$sch), df$sch) group: var n mean sd median trimmed mad min max range skew kurtosis se 1 1 5389 1 0 1 1 0 1 1 0 NaN NaN 0 --------------------------------------------------------- group: 001 var n mean sd median trimmed mad min max range …

4
統計でのデシベルの使用
RFIDタグを読み取り、アンテナ構成(アンテナの数、位置など)を変更したときにリーダーが見る信号強度を比較するプロジェクトに取り組んでいます。プロジェクトの一環として、セットアップを比較して、どちらが最も効果的かを確認する必要があります。 理想的には、2つのアンテナ位置間で対のないt検定またはANOVA(または複数の間のMANOVA)を実行できます。しかし、応答は対数であるデシベル単位であるため、それを進めるための最良の方法は何ですか? 結果を線形スケールに変換してから、先ほど述べた方法の1つを使用して比較するのが最善でしょうか、それともデシベルを別の統計的検定と同じように使用して比較するのですか?

2
非常に歪んだカウントデータのクラスタリング:実行するための提案(変換など)?
基本的な問題 これが私の基本的な問題です。非常にゆがんだ変数とカウントを含むデータセットをクラスター化しようとしています。変数には多くのゼロが含まれているため、私のクラスタリング手順(K平均アルゴリズムの可能性が高い)ではあまり情報がありません。 細かいことは、平方根、ボックスコックス、または対数を使用して変数を変換するだけです。しかし、私の変数はカテゴリー変数に基づいているので、(カテゴリー変数の1つの値に基づいて)変数を処理し、他の変数(カテゴリー変数の他の値に基づいて)をそのままにして、バイアスを導入するのではないかと心配しています。 。 もう少し詳しく見ていきましょう。 データセット 私のデータセットはアイテムの購入を表します。アイテムには、たとえば色:青、赤、緑など、さまざまなカテゴリがあります。購入は、たとえば顧客ごとにグループ化されます。これらの各顧客は、データセットの1行で表されるため、顧客に対する購入を何らかの方法で集計する必要があります。 私がこれを行う方法は、アイテムが特定の色である購入の数を数えることです。だからではなく、単一の変数のcolor、私は三つの変数で終わるcount_red、count_blueとcount_green。 以下に例を示します。 ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 | …

1
標準化されたVS中心変数
stats.stackexchange.comで、標準化された独立変数と中心化された独立変数に関する多くの役立つ投稿を見つけましたが、それでも少し混乱しています。私が理解したことの評価をお願いします。また、以下が正しくない場合は、訂正していただけませんか。 標準化する方法。標準化された変数は、変数の平均を減算し、その同じ変数の標準偏差で割ることによって取得されます。 センタリングする方法。中央に配置された独立変数は、変数の平均を引くだけで得られます。 標準化する理由。変数を標準化して、回帰の変数の測定単位が異なる場合に推定係数の解釈を容易にします。標準化する場合は、回帰のすべての変数を標準化する必要があります。これは、定数(つまり、B0または切片)の推定値を取得できないことを意味します。 センタリングの理由。推定された定数の意味のある解釈を得たい場合は、変数を中央揃えにします。この場合、必要な変数の量を中央揃えにすることができます。すべての独立変数をモデルの中央に配置する必要はありません。 独立変数Y.(単純な質問)Yを中央揃えまたは標準化したことはありますか? 自然対数の利用。1つ以上の変数が正規分布していない場合は、自然対数を使用して変数を変換できます。この変換の後でのみ、すべての変数を標準化するか、中央に配置する必要がある変数を中央に配置できます。一般に、標準化またはセンタリングの前に変数の変換を行う必要があります(ここでは自然対数について説明しますが、変数を2乗したり、別の変数で除算したりできます(たとえば、population / km2)。 解釈係数標準化変数。「X1の標準偏差が1増加すると、Yが-number-増加または減少します。」 解釈係数中心の変数。確率変数の係数:「X1の平均から-number-の増加は、Yを-number-だけ増加(または減少)させます。」定数:「非中心の変数がゼロで、中心の変数がそれらの平均にあるとき、それはYの期待値を表します。」 相互作用の用語。相互作用項の係数の解釈は、変数を標準化したか、またはそれらを中央に配置したか(相互作用の1つの変数のみ、または両方)のどちらでも問題になりません。基本的に、解釈は通常、相互作用項に与えるものです(たとえば、Yに対するX1の効果に興味があり、X1はX2と相互作用します。X1の全体の効果は、その係数+相互作用の係数によって与えられます。 X2が修正された場合の用語)、行った変換のタイプに応じて、ポイント7または8の後に続く解釈をコンテキスト化することを忘れないでください。

4
主な関心のないすべての変数を対数変換しないのはなぜですか?
本やディスカッションでは、予測子、ログ変換imgの問題(いくつかあります)に直面した場合、それが可能性があるとしばしば述べられています。現在、これは分布に依存し、予測変数の正規性は回帰の仮定ではないことを理解しています。しかし、ログ変換はデータをより均一にし、外れ値などの影響を少なくします。 私はメイン変数以外のすべての連続変数、つまり調整するだけの変数をログ変換することを考えました。 それは間違っていますか?良い?役に立たない?

2
逆独立変数による回帰
のは、私が持っているとしましょう -ベクトル従属変数のを、および -ベクトルの独立変数の。場合プロットされている、私は2つの間の直線関係(上昇傾向)があることがわかります。これは、と間に線形の下降傾向があることも意味します。Y N X Y 1NNNYYYNNNバツXXYYY YX1バツ1X\frac{1}{X}YYYXXX ここで、回帰を実行した場合: と近似値を得ますY = β XY=β∗X+ϵY=β∗X+ϵY = \beta * X + \epsilonY^=β^XY^=β^X\hat{Y} = \hat{\beta}X 次に、回帰を実行します:とフィッティングされた値 〜Y = α 1Y=α∗1X+ϵY=α∗1X+ϵY = \alpha * \frac{1}{X} + \epsilonY~=α^1XY~=α^1X\tilde{Y} = \hat{\alpha} \frac{1}{X} 2つの予測値、とはほぼ等しくなりますか? 〜YY^Y^\hat{Y}Y~Y~\tilde{Y}

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
従属変数をログ変換しました。LOGリンク機能でGLM正規分布を使用できますか?
一般化線形モデル(GLM)について質問があります。私の従属変数(DV)は連続的で、正常ではありません。だから私はそれをログに変換しました(まだ正常ではありませんが改善されました)。 DVを2つのカテゴリ変数と1つの連続共変数に関連付けます。このため、GLMを実施したい(私はSPSSを使用しています)が、選択する分布と機能をどのように決定するかわかりません。 Leveneのノンパラメトリック検定を実施し、分散の均一性があるため、正規分布を使用する傾向があります。線形回帰の場合、データは正常である必要はなく、残差はそうであると私は読みました。そのため、各GLMからの線形予測子の標準化されたピアソン残差と予測値を個別に出力しました(GLMの通常の同一性関数と通常の対数関数)。私は、正規性テスト(ヒストグラムとShapiro-Wilk)を実行し、予測値に対して残差をプロットしました(ランダム性と分散をチェックするため)。恒等関数の残差は正常ではありませんが、対数関数の残差は正常です。ピアソン残差は正規分布しているため、ログリンク関数で正規を選択する傾向があります。 だから私の質問は: すでにログ変換されているDVで、LOGリンク機能を備えたGLM正規分布を使用できますか? 正規分布を使用して正当化するには、分散均一性検定で十分ですか? 残差チェック手順は、リンク関数モデルの選択を正当化するために正しいですか? 左側はDV分布の画像、右側はログリンク関数を使用したGLM正規分布の残差。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.