比率データの変換:arcsin平方根では不十分な場合


20

パーセンテージ/プロポーションデータのアークサイン平方根変換の(より強力な)代替手段はありますか?私が現在取り組んでいるデータセットでは、この変換を適用した後、顕著な不均一分散性が残っています。つまり、残差対適合値のプロットは依然としてひし形です。

コメントに対応するために編集:データは、10%の倍数で寄付金の0-100%を投資する可能性のある実験参加者による投資決定です。また、順序ロジスティック回帰を使用してこれらのデータを調べましたが、有効なglmが生成するものを確認したいと思います。加えて、arcsin平方根は私の分野ですべてのサイズに対応するソリューションとして使用されているようで、採用されている代替手段に出会ったことがないため、答えは将来の作業に役立つことがわかりました。


2
近似値は何ですか?あなたのモデルは何ですか?arcsinは二項に対して安定化する(ほぼ)分散ですが、比率が0または1に近い場合は、「エッジ」効果があります-通常の部分が事実上切り捨てられるためです。
確率論的

1
@probabilityislogicが言ったことを倍にして、データがどこから来たのかについてもお聞きします。問題には、より適切で解釈可能な別の変換、または別のモデルを完全に示唆する何かがあるかもしれません。
JMS

1
@prob @JMS統計についてかなり知識があると思うOPに、最初に変換ルートを試してみませんか?その後、それがうまくいかない場合、問題がそれほど狭く提示されない新しいスレッドを開始することは有益です。あなたのコメントはその文脈で適切でしょう。
whuber

1
面白いこと題した論文でぶっきらぼうに説明アークサイン平方根変換を持つ巨大な問題がありますが、アークサインは愚かである:生態系における比率の分析
MKT -復活モニカ

1
@mkt参照いただきありがとうございます。これは、一般化線形モデルに関する次期の講義に直接入りました。
フレイアハリソン

回答:


28

確かに。ジョン・テューキーは、EDAの(増加する、1対1の)変換のファミリーについて説明します。これらのアイデアに基づいています。

  1. パラメーターによって制御されるように、テールを(0および1の方向に)拡張できるようにするため。

  2. それにもかかわらず、中央(近元の(未変換)の値と一致するように1/2形質転換を容易に解釈することができます)。

  3. 約再発現対称にするために1/2. 場合であり、pのように再発現されるf(p)は、1pのように再発現されるf(p)

もし増加単調関数で始まる場合g:(0,1)Rで微分1/2あなたは、第2および第3の基準を満たすためにそれを調整することができる:ちょうど定義します

f(p)=g(p)g(1p)2g(1/2).

分子は明示的に対称です(基準(3))。これは、p1pと交換すると減算が逆になり、それによって負になるためです。ことを確認するために(2)、満たされ分母が正確に行うために必要な要因であることに留意されたいf(1/2)=1. リコール誘導体近似する線形関数と関数の局所挙動を、傾き1=1:1、それによってその手段f(p)p(プラス定数1/2)場合p十分に近くにある1/2. これは、元の値がされている意味である「中央付近一致します。」

Tukeyはこれをg「折りたたみ」バージョンと呼びます。彼の家族は、電源で構成され、変換ログg(p)=pλとき、λ=0、我々が考えるg(p)=log(p)

いくつかの例を見てみましょう。ときλ=1/2、我々は折り畳まれたルート、またはget "frootを、" f(p)=1/2(p1p)λ=0場合、折りたたまれた対数、つまり「flog」がありますf(p)=(log(p)log(1p))/4. 明らかに、これはロジット変換の定数倍、log(p1p)

lambda = 1、1 / 2、0、およびarcsinのグラフ

このグラフの青い線が対応するλ=1、中間赤線λ=1/2、との極端な緑色線λ=0。金の破線はアークサイン変換、arcsin(2p1)/2=arcsin(p)arcsin(1/2)。斜面の「マッチング」(基準(2))の近くに一致するすべてのグラフを引き起こすp=1/2.

パラメーターλの最も有用な値は1から0間にあります。(あなたが負の値を持つ尾も重くすることができλが、この使用は稀である。) λ=1の値recenterは除いてすべてで何もしない(f(p)=p1/2)。λゼロに向かって収縮し、尾を向けてさらに引っ張られます±。これは基準#1を満たします。したがって、λ適切な値を選択することにより、テールでのこの再表現の「強度」を制御できます。


whuber、これを自動的に行うR関数を知っていますか?
ジョン

1
@Johnいいえ、そうではありませんが、実装するのに十分簡単です。
whuber

2
基本的に難しいとは思いませんでしたが、lambdaの最適な選択を自動的にプロットするboxcoxトランスフォームのようなものがあればいいと思います。はい、実装するのは恐ろしくありません...-
ジョン

2
ありがとうwhuber、これはまさに私が探していた種類のものであり、グラフは本当に役に立ちます。確かに、boxcoxのようなものが役立つとジョンに同意しますが、これは作業を進めるのに十分簡単なようです。
フレイアハリソン

7

含める方法の1つは、インデックス付き変換を含めることです。一般的な方法の1つは、対称(逆)累積分布関数を使用して、およびF x = 1 F x )にすることです。1つの例は、自由度がνの標準スチューデントのt分布です。パラメーターvは、変換された変数が無限にさまよう速度を制御します。v = 1に設定すると、arctan変換ができます。F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

これはアークサインよりもはるかに極端であり、ロジット変換よりも極端です。変換ロジットノートは略有するt分布で近似することができる。SOは何らかの方法で、ロジットとプロビット(ν = )変換間の近似リンクを提供し、それらをより極端な変換に拡張します。ν8ν=

これらの変換の問題は、観測された割合が1または0に等しいときにになることです。追加する最も簡単な方法-何とか何とかこれらを縮小する必要がありますので、+ 1「成功」と+ 1「の失敗を」。±10+1+1


2
さまざまな理由から、Tukeyはカウントに+1/6を追加することをお勧めします。この返信は、私が説明したTukeyの折りたたみアプローチの特殊なケースであることに注意してください。ポジティブPDFを含むCDFは単調です。対称CDFを折り畳むと、変更されません。
whuber

2
あなたのおおよその近似値はどこから来るのかと思っていました。どのように到着しない?これを再現できません。私は、近似がいることを受け入れなければならないの両極端でブレークダウンのp近い0または1、私はそれを見つけるν = 5のためのロジットのためのより良い試合であるP近い1 / 2。あなたは、おそらくのCDFの間の平均差のある程度最適化されたT νロジットをν8p01ν=5p1/2tνlogit
whuber

2
@whuber-あなたは私にあまりにも多くのクレジットを与えます。私の提案は、のpdfのグラフ、ロジスティックpdf f x = e x1 + e x2のグラフ、および標準正規pdfのグラフを見ることに基づいていました。 5自由度は、過剰な尖度と一致し、より良い場合があります。t8f(x)=ex(1+ex)25
確率

5
@whuberカウントに1/6を追加する理由の1つは、結果の「開始」カウントが、ジェフリーズ事前分布との二項分布を仮定した事後中央値に近似することです(これについてはここで少し説明します:sumsar.net/blog/2013/09/ベイジアン・ツイスト・オン・トゥキーズ・フロッグ)。しかし、これがTukeyが1/6を追加した理由であるかどうかはわかりません。彼の理由が何だったのか知っていますか?
ラスマスバース

4
@Rasmuth EDA、p。496、Tukeyは次のように書いています。「ここでお勧めする[使用法]には言い訳がありますが、この言い訳は(i)間接的で(ii)より洗練された考慮事項を伴うため、これ以上は言いません。 6からすべての分割カウントまで、つまり「開始」します。」(任意の値「分割カウント」は、データのバッチx ix i < xx i = xの数の半分を足した数です。)私が読んだ他のテューキーの論文や書籍では、それらが確率プロットポイントに関連している可能性があることを常に想像していました。xバツ<バツバツ=バツバツ
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.