比率が独立変数である場合、比率を変換する最も適切な方法は何ですか?


12

私はこの問題を理解したと思っていましたが、今は確信が持てず、先に進む前に他の人に確認したいと思います。

私には2つの変数がXありYます。Yは比率であり、0と1に制限されず、通常正規分布します。Xは割合であり、0と1で区切られます(0.0から0.6まで実行されます)。の線形回帰を実行するY ~ Xと、それが判明しXY大幅に線形に関連しています。ここまでは順調ですね。

しかし、その後、さらに調査し、多分Xand Yの関係は線形より曲線的であると考え始めます。私には、それは関係のように見えるXYに近いかもしれないY ~ log(X)Y ~ sqrt(X)またはY ~ X + X^2、またはそのような何か。関係が曲線的であると仮定する経験的理由がありますが、ある非線形関係が他より優れていると仮定する理由はありません。

ここから関連する質問がいくつかあります。最初に、X変数は4つの値(0、0.2、0.4、および0.6)を取ります。これらのデータを対数変換または平方根変換すると、これらの値の間隔がゆがんで、0の値が他のすべての値からはるかに離れます。より良い質問方法がないため、これは私が望むものですか?そうではないと思います。なぜなら、私が受け入れる歪みのレベルに応じて非常に異なる結果が得られるからです。これが私が望むものではない場合、どうすればそれを避けるべきですか?

第二に、これらのデータを対数変換Xするには、0の対数を取ることができないため、各値にいくらかの量を追加する必要があります。より多く、たとえば1を追加しても、歪みはほとんどありません。X変数に追加する「正しい」量はありますか?または、代替の変換(キューブルートなど)またはモデル(ロジスティック回帰など)を選択する代わりに、変数に何かを追加することは不適切Xですか?

この問題に関して私が見つけられたことはほとんどないので、慎重に踏み込む必要があると感じています。仲間のRユーザーの場合、このコードは、私のものと同様の構造を持つデータを作成します。

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

Yはプロポーションであると言いますが、データでは6〜10ですか?

ええ、私はこれを上で修正しました。それは比率であり、比率ではありません。
バイチ

回答:


13

比率の変換に関する主な質問(記号としてを使用しますが、表記と同じではありませんが)いくつかの一般的なコメントを許可します。x

以下では、共変量(予測子、独立変数)である比率を変換する主な動機は、関係の線形性の近似を改善すること、または探索モードの場合、図形の形状または実際の存在をより明確に把握することです任意の関係。いつものように、共変量が(たとえば)ほぼ正規分布しているかどうかは、それほど重要ではありません。(割合は、値を有するインジケータ変数の遠くない相対的で0,1できない正規分布しないこと、および割合が過度必ずしも囲まれています。)

比率が正確なゼロまたは正確なものを達成できる場合、log 0は不確定であるため、を明確に除外する変換をこれらの制限に対して定義することが不可欠です。特定の形状は、理想的には、いくつかの実質的な(科学的、実用的な)正当な理由が必要ですが、いくつかの簡単な分析から、以下のことを欠けていることを超えて、ログX + cがの値に非常に敏感であるC君はヒントとして、。 logxlog0log(x+c)c

これは、を底とする対数を使用すると少し見やすくなります。したがって、一時的にc = 10 kを考えて、log 10x + 10 k)がx = 0からkにマッピングされるようにします10c=10klog10(x+10k)x=0k

したがって、x = 0から0およびx = 1から約0.301にマッピングしk = 3 c = 0.001x = 0から3およびx = 10より大きいsmidgenのみにマッピングしますk=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

同様に、ことどんな手段0にますます良好な近似に対して、これらの同じ制限にマッピングされ、X = 1にマッピングされる0k=6,9,0x=10

そのため、下限は、定数追加して小さくなり、上限はほぼ同じままになります。したがって、このような変換は、範囲の下部を非常に引き伸ばし、0またはその近くの非常に小さな値から外れ値を作成することさえできますc0

単純に、このおそらくその想像示唆人々(今、あなたが好きな任意の塩基には)することは非常に同様に振る舞うべきでログインXを小型のため、C大のために明確に真である、X小規模のためにすべての真実ではないが、X。そうでなければ入れて、急勾配の勾配が急ログXの関数としてのXとしてのx 0は非常に難しいここにかむことができます。log(x+c)logxcxxlogxxx0

付近で徐々に変化する変換に焦点を当てることが望ましいと思われます(他の、しかし関連する理由のため)x = 1付近でも。x=0x=1

平方根と立方根と他の大国は、完全によくのために定義されているのx = 0 1に近い値ストレッチする必要があるとき、しばしば助け0。しかし、これらの変換はよく知られているので、ここでは別の可能性に焦点を当てます。xpx=0,10

JW Tukey(Exploratory Data Analysis、Reading、MA:Addison-Wesley、1977)によって一般化されたフォールドパワーのファミリーは1つの可能性であり、 です。シンプルな刺激的な名前を許可する権限を選択する何の強制はありませんが、選択肢のp = 1 / 2(折り畳まルート)と、P = 1 / 3(折りたたみ立方根)は、このファミリーの最も有用なメンバーがいるようです。xp(1x)pp=1/2p=1/3

このファミリは、おなじみのロジット変換似ており、実際、p0になる傾向があるため、ロジットは制限的なケースです。主な違いは、折り畳まれたパワーが定義されていることであり、X = 0 1及びP 0logit x=logxlog(1x)p0x=0,1p0

現在のロジットを含むフォールドパワーは、1に近い極端なケースをスキュー対称に処理し、加法と乗法の挙動を混合し、頻繁な定性(物理的、生物学的、経済的でない場合)をエコーする逆シグモイドカーブ(以下のグラフ)としてプロットします根底にある現象の事実01

  • たとえば、から0.02までの差は「大したこと」になる可能性があります(x0.01だけ変化しますが、2倍になります)0.010.02x0.01

  • たとえばから0.99への差も「大したこと」になる可能性があります(確かに、x0.01だけ変化しますが、「分数なし」1 - xも半分になります)0.980.99x0.011x

  • から0.51までの差は、「より少ない取引」である可能性があります(確かに、x0.01ずつ変化しますが、比例的な変化ははるかに小さいです)0.500.51x0.01

潜在的なダイナミクスが想像されるとき、これはおそらく最も簡単に考えられます:読み書きのできる人の割合の増加は、前進するために大きなプッシュを必要とし、ユニバーサルリテラシーの漸近線に近づくにつれて、スピードを上げ、その後減速します。したがって、時間の曲線は、増加または減少するロジスティックに似ています。1の比率に徐々に近づくという事実は、当然のことながら、ロジットのいくつかの動機付けと比例応答の同様のモデルの1つです。ここでは比例共変量に焦点を当てていますが、シグモイドもここで役立ちます。01

そのような折り畳まれたルートまたは立方根として折り畳まれた電力は、として強くシグモイドロジットとしてではなく、ここで貴重なメリットは、それらを直接かつ容易にするためfudges、クラッジ又はnudgesなしで定義されx=0,1

偽物だが一見現実的なデータセット(私は自分のお気に入りのソフトウェアにインポートしましたが、分析はまともなもので簡単です)に目を向けると、これらの変換は実際にはまったく役に立ちません。しかし、データをグラフ化すると、でさえ強力な強力な変換であるという明確な警告が得られます。これは、直接プロットすることでも確認できます。log(x+0.001)

私が作りたい2つの主なポイントは

  1. log(x+c)x

  2. サンプルデータの場合、私が試した変換は役に立たないようです。

同時に、他の可能性は尽きることにはほど遠い。(特に、平方根や立方根を試したわけではありません。他の多くの問題では、これらは明らかで深刻な候補になる可能性があることを強調しました。)

01

enter image description here

R2=3.7=0.994

enter image description here

y610

編集:OPがデータを短時間投稿したが、後で削除したため、元のデータをここにプロットできます。

ここで折り畳まれた力を使用する他のスレッドには、

比率データの変換:アークサイン平方根では不十分な場合

回帰:低Rの2乗および高p値の散布図

非常に歪んだデータセットをプロットする


優れた答えと非常に徹底。私Yは割合ではなく比率であると言うべきだと思いますが、これはおそらくかなり実質的な違いなので、指摘するのは良かったです。
バイチュ

割合は、定義したとおりに制限されます。明確化に感謝します。これは私の分析に何の影響も与えません(だからこそ、私は小さな詳細にラベルを付けました)。
ニックコックス

2
さらにコメント:原則として、スプラインまたはスムーザーを使用して曲率などをチェックできますが、予測子の4つの異なるレベルだけで簡単ではありません。データの変位値回帰を検討します。
ニックコックス

x2x310x=0,1
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.