比率の変換に関する主な質問(記号としてを使用しますが、表記と同じではありませんが)いくつかの一般的なコメントを許可します。x
以下では、共変量(予測子、独立変数)である比率を変換する主な動機は、関係の線形性の近似を改善すること、または探索モードの場合、図形の形状または実際の存在をより明確に把握することです任意の関係。いつものように、共変量が(たとえば)ほぼ正規分布しているかどうかは、それほど重要ではありません。(割合は、値を有するインジケータ変数の遠くない相対的で0,1できない正規分布しないこと、および割合が過度必ずしも囲まれています。)
比率が正確なゼロまたは正確なものを達成できる場合、log 0は不確定であるため、を明確に除外する変換をこれらの制限に対して定義することが不可欠です。特定の形状は、理想的には、いくつかの実質的な(科学的、実用的な)正当な理由が必要ですが、いくつかの簡単な分析から、以下のことを欠けていることを超えて、ログ(X + cが)の値に非常に敏感であるC君はヒントとして、。 logxlog0log(x+c)c
これは、を底とする対数を使用すると少し見やすくなります。したがって、一時的にc = 10 kを考えて、log 10(x + 10 k)がx = 0からkにマッピングされるようにします。10c=10klog10(x+10k)x=0k
したがって、はx = 0から0およびx = 1から約0.301にマッピングし、k = − 3 、c = 0.001はx = 0から− 3およびx = 1を0より大きいsmidgenのみにマッピングしますk=0,c=1x=00x=10.301k=−3,c=0.001x=0−3x=10。
同様に、ことどんな手段0にますます良好な近似に対して、これらの同じ制限にマッピングされ、X = 1にマッピングされる0。k=−6,−9,0x=10
そのため、下限は、定数追加して小さくなり、上限はほぼ同じままになります。したがって、このような変換は、範囲の下部を非常に引き伸ばし、0またはその近くの非常に小さな値から外れ値を作成することさえできます。c0
単純に、このおそらくその想像示唆人々(今、あなたが好きな任意の塩基には)することは非常に同様に振る舞うべきでログインXを小型のため、C大のために明確に真である、X小規模のためにすべての真実ではないが、X。そうでなければ入れて、急勾配の勾配が急ログXの関数としてのXとしてのx ↓ 0は非常に難しいここにかむことができます。log(x+c)logxcxxlogxxx↓0
付近で徐々に変化する変換に焦点を当てることが望ましいと思われます(他の、しかし関連する理由のため)x = 1付近でも。x=0x=1
平方根と立方根と他の大国は、完全によくのために定義されているのx = 0 、1に近い値ストレッチする必要があるとき、しばしば助け0。しかし、これらの変換はよく知られているので、ここでは別の可能性に焦点を当てます。xpx=0,10
JW Tukey(Exploratory Data Analysis、Reading、MA:Addison-Wesley、1977)によって一般化されたフォールドパワーのファミリーは1つの可能性であり、
です。シンプルな刺激的な名前を許可する権限を選択する何の強制はありませんが、選択肢のp = 1 / 2(折り畳まルート)と、P = 1 / 3(折りたたみ立方根)は、このファミリーの最も有用なメンバーがいるようです。xp−(1−x)pp=1/2p=1/3
このファミリは、おなじみのロジット変換似ており、実際、pは0になる傾向があるため、ロジットは制限的なケースです。主な違いは、折り畳まれたパワーが定義されていることであり、X = 0 、1及びP ≠ 0。logit x=logx−log(1−x)p0x=0,1p≠0
現在のロジットを含むフォールドパワーは、と1に近い極端なケースをスキュー対称に処理し、加法と乗法の挙動を混合し、頻繁な定性(物理的、生物学的、経済的でない場合)をエコーする逆シグモイドカーブ(以下のグラフ)としてプロットします根底にある現象の事実01
たとえば、から0.02までの差は「大したこと」になる可能性があります(xは0.01だけ変化しますが、2倍になります)0.010.02x0.01
たとえばから0.99への差も「大したこと」になる可能性があります(確かに、xは0.01だけ変化しますが、「分数なし」1 - xも半分になります)0.980.99x0.011−x
から0.51までの差は、「より少ない取引」である可能性があります(確かに、xも0.01ずつ変化しますが、比例的な変化ははるかに小さいです)0.500.51x0.01
潜在的なダイナミクスが想像されるとき、これはおそらく最も簡単に考えられます:読み書きのできる人の割合の増加は、前進するために大きなプッシュを必要とし、ユニバーサルリテラシーの漸近線に近づくにつれて、スピードを上げ、その後減速します。したがって、時間の曲線は、増加または減少するロジスティックに似ています。と1の比率に徐々に近づくという事実は、当然のことながら、ロジットのいくつかの動機付けと比例応答の同様のモデルの1つです。ここでは比例共変量に焦点を当てていますが、シグモイドもここで役立ちます。01
そのような折り畳まれたルートまたは立方根として折り畳まれた電力は、として強くシグモイドロジットとしてではなく、ここで貴重なメリットは、それらを直接かつ容易にするためfudges、クラッジ又はnudgesなしで定義され。x=0,1
偽物だが一見現実的なデータセット(私は自分のお気に入りのソフトウェアにインポートしましたが、分析はまともなもので簡単です)に目を向けると、これらの変換は実際にはまったく役に立ちません。しかし、データをグラフ化すると、でさえ強力な強力な変換であるという明確な警告が得られます。これは、直接プロットすることでも確認できます。log(x+0.001)
私が作りたい2つの主なポイントは
log(x+c)x
サンプルデータの場合、私が試した変換は役に立たないようです。
同時に、他の可能性は尽きることにはほど遠い。(特に、平方根や立方根を試したわけではありません。他の多くの問題では、これらは明らかで深刻な候補になる可能性があることを強調しました。)
01
R2=3.7=0.994
y610
編集:OPがデータを短時間投稿したが、後で削除したため、元のデータをここにプロットできます。
ここで折り畳まれた力を使用する他のスレッドには、
比率データの変換:アークサイン平方根では不十分な場合
回帰:低Rの2乗および高p値の散布図
非常に歪んだデータセットをプロットする