タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。

2
直線性を達成するために最適な変換を選択するにはどうすればよいですか?
多重線形回帰を実行してから、ほとんど外挿せずに新しい値を予測します。-2から+7の範囲の応答変数と3つの予測子(約+10から+200の範囲)があります。分布はほぼ正常です。しかし、応答と予測子の関係は線形ではありません。プロット上に曲線が表示されます。たとえば、次のようになります:http : //cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg 線形性を実現するために変換を適用したいと思います。さまざまな関数をチェックし、結果のプロットを見て応答と予測子の線形関係を確認することで、応答変数を変換しようとしました。そして私は目に見える線形関係を与えることができる多くの関数があることを発見しました。たとえば、関数 t1= ログ(y+ 2.5 )t1=log⁡(y+2.5)t_1=\log(y+2.5) t2= 1ログ(y+ 5 )t2=1log⁡(y+5)t_2=\frac{1}{\log(y+5)} t3= 1y+ 5t3=1y+5t_3=\frac{1}{y+5} t4= 1(y+ 10 )3t4=1(y+10)3t_4=\frac{1}{(y+10)^3} などでも同様の結果が得られます。http: //cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpgt5= 1(y+ 3 )13t5=1(y+3)13t_5=\frac{1}{(y+3)^\frac{1}{3}} 予測値を逆変換します( asy′=1t = 1(y+ 10 )3t=1(y+10)3t=\frac{1}{(y+10)^3}など)。分布は通常とほぼ同じです。y』= 1t13− 10y′=1t13−10y’=\frac{1}{t^\frac{1}{3}}-10 データに最適な変換を選択するにはどうすればよいですか?直線性を評価する定量的(そしてそれほど複雑ではない)方法はありますか?選択した変換が最良であることを証明するため、または可能であれば自動的に変換を見つけるため。 または、唯一の方法は非線形重回帰を行うことですか?

3
線形モデルの異分散性
次の線形モデルがあります。 残差の異分散性に対処するために、従属変数にとして対数変換を適用しようとしましたが、残差に対する同じファンアウト効果がまだあります。DV値は比較的小さいため、ログを取得する前の+1定数の追加は、この場合はおそらく適切ではありません。log(Y+1)log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 Median : 0.0003060 Mean : 0.0004617 3rd Qu.: 0.0006333 Max. : 0.0105730 NA's :30.0000000 特に予測誤差と分散を改善するために変数をどのように変換できますか?

1
重回帰を行うときに予測変数を変換するのはいつですか?
私は現在、大学院レベルで最初に適用した線形回帰クラスを採用しており、多重線形回帰での予測子変数変換に苦労しています。私が使用しているテキスト、Kutner et al "Applied Linear Statistical Models"は、私が抱えている質問をカバーしていないようです。(複数の予測子を変換するためのBox-Coxメソッドがあることを示唆することは別として)。 応答変数といくつかの予測変数に直面した場合、各予測変数に対応するためにどのような条件が求められますか?私たちは最終的には誤差分散の恒常性と正規分布のエラーを探している理解して(私がこれまで教えてきた技術で、少なくとも。)私は解決策があった場所、多くの演習では、例として、戻ってきて持っていましたy ~ x1 + (1/x2) + log(x3)、 1つ以上の予測子が変換されました。 y〜x1と関連する診断(残差のqqプロット、残差vs. y、残差vs. xなど)を確認し、y〜log( x1)私たちの仮定にもっとよく適合します。 多くの予測変数が存在する場合に予測変数を変換するタイミングを理解するための良い場所はありますか? 前もって感謝します。マット

5
平方根、対数などの一般的な変換以外に、他にどのような正規化変換が一般的に使用されていますか?
テストスコアの分析(教育や心理学など)では、一般的な分析手法では、データが正規分布していると想定することがよくあります。ただし、スコアが通常よりも大幅に逸脱する傾向があります。 平方根、対数、正のスキューを減らすための相互変換、負のスキューを減らすための上記のバージョンの反映、レプトクール分布の二乗など、いくつかの基本的な正規化変換に精通しています。アークサイン変換とパワー変換について聞いたことがありますが、それらについてはあまり詳しくありません。 では、アナリストが一般的に使用している他の変換について知りたいのですが。

3
American Community Surveyの多様性データの再重み付けは、その誤差範囲にどのように影響しますか?
背景:私の組織は現在、労働力の多様性の統計(例:障害者%、女性%、退役軍人)を、American Community Survey(米国国勢調査局による調査プロジェクト)に基づいて、これらのグループの労働力の合計と比較しています。全体として労働力とは異なる人口統計を持つ非常に特定の一連の仕事があるため、これは不正確なベンチマークです。たとえば、私の組織のほとんどがエンジニアであるとします。私の州では、エンジニアリングは女性の約20%にすぎません。全体の労働力のベンチマークと比較すると、50%の女性のように、「20%の女性しかいない、これは災害です!」というパニックに陥ります。実際のところ、20%は私たちが期待するべきものです。なぜなら、それが労働力の状況がどのようなものかということです。 私の目標:私がやりたいのは、アメリカンコミュニティサーベイの職業データ(多様性カテゴリ別)を取得し、自分のビジネスの仕事の構成に基づいて再重み付けすることです。社会福祉サービスワーカーのサンプルデータセットを次に示します。これらのジョブコードをまとめて追加したいので(私たちの横断歩道は特定のジョブコードではなくジョブグループにあるため)、そのカテゴリにいる人の数に基づいてベンチマークに重みを付けたいと思います(例:3,000のソーシャルおよびコミュニティサービスワーカー)、次に、他のすべてのジョブグループにも同じことを行い、それらの数を合計して、ワーカーの総数で割ります。これにより、新しい重み付けされた多様性測定値が得られます(たとえば、6%の障害者から2%の障害者へ)。 私の質問:この最終的なロールアップベンチマークにエラーのマージンをどのように合わせるのですか?私は(明らかに)生の国勢調査データセットを持っていませんが、表の上部にある[Estimate]フィールドを[Margin of Error]に切り替えることで、提供したリンクで各数値のエラーマージンを表示できます。このデータを使用している他の同僚は、エラーのマージンを完全に無視するつもりですが、統計的に意味のないベンチマークを自分で作成しているのではないかと心配しています。このデータは、上記の操作の後でもまだ使用できますか?

4
線形回帰で対数変換された係数を解釈する方法は?
私の状況は: 単純な線形回帰のために残差を正規化するために対数変換した1つの連続従属変数と1つの連続予測子変数があります。 これらの変換された変数を元のコンテキストに関連付ける方法について、何か助けていただければ幸いです。 線形回帰を使用して、生徒が2010年に見逃した日数に基づいて、2011年に生徒が見逃した日数を予測したいと思います。ほとんどの生徒は0日またはほんの数日欠けており、データは積極的に左に歪んでいます。したがって、線形回帰を使用する変換が必要です。 両方の変数にlog10(var + 1)を使用しました(0日間学校を休んだ生徒には+1を使用しました)。性別/民族性などのカテゴリー要素を追加したいので、回帰を使用しています。 私の問題は: 私がフィードバックしたいオーディエンスは、log10(y)= log(constant)+ log(var2)xを理解していません(そして率直に言っても私は理解していません)。 私の質問は: a)回帰で変換された変数を解釈するより良い方法はありますか?つまり、2010年に1日間欠落すると、2011年には2日間欠落します。これに対して、2010年には1単位のログ単位が変更されたのに対し、2011年にはx単位の単位が変更されますか? b)具体的には、次のようにこの出典から引用された一節を考える: 「これは、他の変数がモデル内で一定に保たれている場合、数学標準化テストスコアが1ユニット増加したときの負の二項回帰推定です。学生が数学テストスコアを1ポイント増加させた場合、期待される数は、モデルの他の変数を一定に保ちながら、0.0016単位で減少すると予想されます。 私が知りたいのですが: この一節は、UNTRANSFORMED変数mathのスコアが1ユニット増えるごとに定数(a)から0.0016減少するため、UNTRANSFORMED数学スコアが2ポイント上がる場合、定数aから0.0016 * 2を引くと言っていますか? これは、exponential(a))とexponential(a + beta * 2)を使用して幾何平均を取得することを意味しますか?そして、これら2つの間のパーセンテージの差を計算して、予測変数がどのような効果を持つかを示す必要があります/従属変数を持っていますか? それとも私はそれを完全に間違っていますか? SPSS v20を使用しています。長い質問でこれをフレーミングして申し訳ありません。

2
CSV列をカテゴリデータとして直接読み取ることはできますか?
Rを使用して、CSVで提供される医療調査(100以上のコード化された列を含む)のデータを分析する必要があります。最初の分析にはガラガラを使用しますが、舞台裏ではまだRです。 ファイルをread.csv()すると、数値コードの列が数値データとして扱われます。factor()を使用してそれらからカテゴリカル列を作成できることは知っていますが、100以上の列に対してそれを行うのは面倒です。 列を因子として直接インポートするようにRに指示するより良い方法があることを願っています。または、少なくとも後でそれらを適切な場所に変換すること。 ありがとうございました!

1
従属変数の変換に
従属変数を持つ線形回帰モデルがあると想像してください。そのR 2 yを見つけます。ここで、別の回帰を行いますが、今回はlog (y )で、同様にR 2 log (y )を見つけます。R 2を比較してどちらのモデルが適しているかを確認することはできないと言われました。何故ですか?私に与えられた理由は、異なる量(異なる従属変数)の変動性を比較するためです。これが十分な理由であるかどうかはわかりません。yyyR2yRy2R^2_yログ(y)log⁡(y)\log(y)R2ログ(y)Rlog⁡(y)2R^2_{\log(y)}R2R2R^2 これを形式化する方法もありますか? 任意の助けいただければ幸いです。

2
ポアソン分布を正規分布に変換
私は主にコンピューターサイエンスのバックグラウンドを持っていますが、今は自分自身に基本的な統計を教えようとしています。ポアソン分布があると思うデータがあります 2つの質問があります。 これはポアソン分布ですか? 次に、これを正規分布に変換することは可能ですか? 任意の助けいただければ幸いです。どうもありがとう

1
時系列の二乗が定常である場合、元の時系列は定常ですか?
時系列の2乗が静止している場合、元の時系列も同様であり、逆もまた同様であると述べた解決策を見つけました。しかし、私はそれを証明することができないようです、これが本当であるかどうか、そしてそれがそれを導き出す方法であるかどうか誰もが考えていますか?

2
注文統計の変換
確率変数およびは独立しており、分散されていると仮定します。ことを示し有する\ text {Exp}(1)分布。X1,...,XnX1,...,XnX_1, ... , X_nY1,...,YnY1,...,YnY_1, ..., Y_nU(0,a)U(0,a)U(0,a)Zn=nlogmax(Y(n),X(n))min(Y(n),X(n))Zn=nlog⁡max(Y(n),X(n))min(Y(n),X(n))Z_n= n\log\frac{\max(Y_{(n)},X_{(n)})}{\min(Y_{(n)},X_{(n)})}Exp(1)Exp(1)\text{Exp}(1) 私は設定して、この問題を始めました{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}\{X_1,...,X_n,Y_1,...Y_n\} = \{Z_1,...,Z_n\}次にmax(Yn,Xn)=Z(2n)max(Yn,Xn)=Z(2n)\max(Y_n,X_n)= Z_{(2n)}は(\ frac {z} {a})^ {2n}として配布され(za)2n(za)2n(\frac{z}{a})^{2n}、min(Yn,Xn)=Z(1)min(Yn,Xn)=Z(1)\min(Y_n,X_n)= Z_{(1)}は1−(1−za)2n1−(1−za)2n1 - (1 - \frac{z}{a})^{2n} 密度は、f_ {Z_ {1}}(z)=(2n)(1- \ frac {z} {a})^ {2n-1} \ fracとして簡単に見つけることができます{1} {a}fZ1(z)=(2n)(1−za)2n−11afZ1(z)=(2n)(1−za)2n−11af_{Z_{1}}(z) = (2n)(1-\frac{z}{a})^{2n-1}\frac{1}{a}およびfZ(2n)(z)=(2n)(za)2n−11afZ(2n)(z)=(2n)(za)2n−11af_{Z_{(2n)}}(z) = (2n)(\frac{z}{a})^{2n-1} \frac{1}{a} これは、これらが計算されたため、次にどこに行くべきかを知るのに苦労しているところです。変革で何かをしなければならないと思っていますが、よくわかりません...

2
回帰結果には予期しない上限があります
バランススコアを予測し、いくつかの異なる回帰方法を試しました。気づいたことの1つは、予測値に何らかの上限があるように見えることです。つまり、実際のバランスはですが、私の予測は約達しています。次のプロットは、実際のバランスと予測されたバランス(線形回帰で予測)を示しています。0.8[ 0.0 、1.0 )[0.0,1.0)[0.0, 1.0)0.80.80.8 そして、同じデータの2つの分布プロットを次に示します。 私の予測変数は非常に歪んでいるため(べき法則分布のユーザーデータ)、結果を次のように変更するBox-Cox変換を適用しました。 これは予測の分布を変更しますが、その上限はまだあります。だから私の質問は: 予測結果のそのような上限の考えられる理由は何ですか? 実際の値の分布に対応するように予測を修正するにはどうすればよいですか? おまけ: Box-Cox変換後の分布は、変換された予測子の分布に従うように見えるので、これが直接リンクされている可能性はありますか?その場合、分布を実際の値に合わせるために適用できる変換はありますか? 編集: 5つの予測子を持つ単純な線形回帰を使用しました。

1
LDAを前処理ステップとして使用する場合の機能の標準化
次元削減(またはPCAによる次元削減後の変換)にマルチクラス線形判別分析(または、多重判別分析をときどき読む)を使用する場合、一般的に、完全に異なるスケールで測定されていても、機能は必要ありませんよね?LDAには、すでに正規化されたユークリッド距離を意味するマハラノビス距離に類似した用語が含まれているためですか? したがって、それは必要ではないだけでなく、標準化された機能と標準化されていない機能のLDA後の結果はまったく同じになるはずです!?

2
これまでのすべての努力を無視してきたこの非線形重回帰を当てはめる
編集:この投稿を作成して以来、私はここに追加の投稿を続けています。 以下のテキストの要約:私はモデルに取り組んでいて、線形回帰、ボックスコックス変換、およびGAMを試しましたが、あまり進歩していません を使用してR、現在、メジャーリーグ(MLB)レベルでマイナーリーグの野球選手の成功を予測するモデルに取り組んでいます。従属変数は、交換(oWAR)上記の攻撃のキャリアの勝利は、MLBレベルでの成功のためのプロキシで、プレイヤーは彼のキャリア(ここでは詳細にわたってに関与しているすべてのプレイに攻勢寄与の合計として測定される- のhttp ://www.fangraphs.com/library/misc/war/)。独立変数は、年齢を含むメジャーリーグレベルでの成功の重要な予測因子であると考えられる統計のzスコアのマイナーリーグ攻撃変数であり(年齢が若いプレーヤーほど成功率が高い傾向にあります)、取り消し率[SOPct ]、歩行率[BBrate]および調整された生産(攻撃的な生産のグローバルな尺度)。さらに、マイナーリーグには複数のレベルがあるため、マイナーリーグのプレーのレベル(ダブルA、ハイA、ローA、ルーキー、トリプルAのショートシーズン[メジャーリーグの前の最高レベル])のダミー変数を含めました。参照変数として])。注:WARを0から1に変化する変数に再スケーリングしました。 変数scatterplotは次のとおりです。 参考までに、従属変数oWARには次のプロットがあります。 線形回帰から始めてoWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason、次の診断プロットを取得しました。 残差の不偏性の欠如とランダムな変動の欠如には明らかな問題があります。さらに、残差は正常ではありません。回帰の結果を以下に示します。 前のスレッドのアドバイスに従って、Box-Cox変換を試みましたが、成功しませんでした。次に、ログリンクを使用してGAMを試し、これらのプロットを受け取りました。 元の 新しい診断プロット スプラインがデータの近似に役立ったように見えますが、診断プロットはまだ不十分な近似を示しています。編集:私は当初、残差対適合値を見ていると思いましたが、私は間違っていました。最初に表示されたプロットはオリジナル(上記)としてマークされ、後でアップロードしたプロットは新しい診断プロット(上記も)としてマークされます。 モデルのが増加しましたR2R2R^2 しかし、コマンドによって生成された結果gam.check(myregression, k.rep = 1000)はそれほど有望ではありません。 誰もがこのモデルの次のステップを提案できますか?これまでの進捗状況を理解するのに役立つと思われるその他の情報を提供させていただきます。あなたが提供できる助けをありがとう。

1
統計の分布を見つける
テストのために勉強しています。これには答えられませんでした。 LET IIDこと確率変数。定義するX1,i,X2,i,X3,i,i=1,…,nX1,i,X2,i,X3,i,i=1,…,nX_{1,i},X_{2,i},X_{3,i}, i=1,\ldots,nN(0,1)N(0,1)\mathcal{N}(0,1) Wi=(X1,i+X2,iX3,i)/1+X23,i−−−−−−−√,i=1,…,nWi=(X1,i+X2,iX3,i)/1+X3,i2,i=1,…,nW_i = (X_{1,i} + X_{2,i}X_{3,i})/\sqrt{1 + X_{3,i}^2}, i = 1, \ldots, n、 および、W¯¯¯¯¯n=n−1∑ni=1WiW¯n=n−1∑i=1nWi\overline{W}_n = n^{-1}\sum_{i=1}^nW_i S2n=(n−1)−1∑ni=1(Wi−W¯¯¯¯¯n)2,n≥2.Sn2=(n−1)−1∑i=1n(Wi−W¯n)2,n≥2.S_n^2 = (n-1)^{-1}\sum_{i=1}^n(W_i - \overline{W}_n)^2, n \ge 2. 、の分布はどうなっていますか?W¯¯¯¯¯nW¯n\overline{W}_nS2nSn2S_n^2 このような問題が発生したときに使用する最善の方法を知るにはどうすればよいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.