log-oddsディストリビューションとは何ですか?


11

私は機械学習の教科書(Wittenらによるデータマイニング、2011年)を読んでいて、この箇所に出くわしました。

...さらに、さまざまなディストリビューションを使用できます。通常、正規分布は数値属性には適していますが、最小値が事前に決定されているが上限はない属性には適していません。この場合、「対数正規」分布がより適切です。上と下にバインドされている数値属性は、「log-odds」分布によってモデル化できます。

このディストリビューションについて聞いたことがありません。「log-odds distribution」を探しましたが、関連する完全一致は見つかりませんでした。誰かが私を助けてくれますか?この分布とは何ですか?なぜそれが上下の境界を持つ数値に役立つのですか?

PS私は統計学者ではなくソフトウェアエンジニアです。

回答:


14

なぜそれは上と下に囲まれた数値を助けるのですか?

上で定義された分布上のデータのためのモデルとして、それは好適にするものである。テキストが「データのモデルである」(またはより一般的にはモデルである)以外の意味を含んでいるとは思いません。(0,1)(0,1)(0,1)(a,b)

この分布は何ですか...?

「log-oddsディストリビューション」という用語は、残念ながら完全に標準的ではありません(当時としてもあまり一般的な用語ではありません)。

それが何を意味するのかについて、いくつかの可能性について説明します。単位間隔の値の分布を作成する方法を検討することから始めましょう。

連続確率変数 inをモデル化する一般的な方法は、ベータ分布であり、離散比率をモデル化する一般的な方法は、スケーリングされた二項式(、少なくともはカウントです)。P(0,1)[0,1]P=X/nX

ベータ分布を使用する代わりに、いくつかの連続逆CDF()を取得し、それを使用して値を実際のライン(またはまれに、実際のハーフライン)に変換します。次に、関連する分布()を使用して、変換された範囲の値をモデル化します。実線()の連続分布の任意のペアが変換とモデルに使用できるため、これにより多くの可能性が開かれます。F1(0,1)GF,G

したがって、たとえば、log-odds変換logitとも呼ばれます)は、そのような逆cdf変換の1つです(標準ロジスティックの逆CDFです)。 、そしてモデルとして考えられる多くの分布があります。Y=log(P1P)Y

次に(たとえば)にロジスティックモデルを使用します。これは、実線上の単純な2パラメーターファミリーです。逆log-odds変換(つまり)を介して変換すると、 2つのパラメーター分布が生成されます。単峰型、またはU字型、またはJ字型、対称、またはスキューで、多くの点でベータ分布に似ています(個人的には、このロジットはロジスティックなので、私はこれをロジットロジスティックと呼びます)。さまざまな値の例を以下に示します。(μ,τ)Y(0,1)P=exp(Y)1+exp(Y)Pμ,τ

ここに画像の説明を入力してください

ウィッテン他による本文の簡単な言及を見ると、これ「対数オッズ分布」で意図されているものかもしれませんが、別の意味になるかもしれません。

別の可能性は、ロジット法線が意図されていたということです。

ただし、この用語はvan Erp&van Gelder(2008)で使用されているようです。たとえば、ベータ分布の対数オッズ変換を指します(つまり、をロジスティックおよびベータプライム確率変数の対数の分布、または同等に2つのカイ二乗確率変数の対数の差の分布としての)。しかし、彼らはこれを使用して、離散的なモデルカウント比率を実行しています。もちろん、これはいくつかの問題を引き起こします(0と1で有限の確率の分布をモデル化しようとしたため[1]FG(0,1))、それから彼らは多くの努力を費やしているようです。(不適切なモデルを回避する方が簡単に見えるかもしれませんが、それはおそらく私だけです。)

他のいくつかの文書(少なくとも3つは見つかりました)は、対数オッズのサンプル分布(つまり、上記ののスケール)を「対数オッズ分布」と呼んでいます(が離散比率である場合と、それが連続的な比率である場合)-したがって、その場合はそれ自体は確率モデルではありませんが、実際のラインに分布モデルを適用する可能性があるものです。YP

*再び、これがあればという問題がある正確に0または1である、の値なりますまたは私たちは、この目的のためにそれを使用するために、0と1から離れて分布をバインドしなければなりません示唆してそれぞれを... 。PY

Yan Guo(2009)の論文は、対数ロジスティック分布、実際の半直線上の右スキュー分布を指す用語を使用しています[2]

ご覧のとおり、これは単一の意味を持つ用語ではありません。ウィッテンやその本の他の著者の1人からの明確な指摘がなければ、何が意図されているのかを推測する必要があります。

[1]:Noel van Erp&Pieter van Gelder、(2008)、
「故障した場合のベータ分布の解釈方法」
、第6回国際確率ワークショップの議事録、ダルムシュタット
pdfリンク

[2]:Yan Guo、(2009)、
NDE Systems Pod Capability Assessment and Robustness、
Dissertation on the New School of Wayne State University、Detroit、Michiganに提出された論文


1
(+1)本全体を検索すると、説明が明らかになっていないことがわかります。コンテキストは、「対数正規分布」が前の文ですべての非負の値(!)の普遍分布として提案されているのと同じように、「対数オッズ分布」が特定のモデルを指すことを示唆しています。
whuber

1
@whuber私は本の内容のあなたの特徴付けに同意します-サンプル分布を参照するために他のコンテキストでの用語の使用に関する私のコメントがそれが本の意図であったことを暗示することを意図していませんでしたが、いくつかの意味を持つ用語であることを示しています。問題の箇所では、この資料を(多くの点で)学習している人々への私のアドバイスは、複数の本を読むことです。
Glen_b-モニカを2014

2

私はソフトウェアエンジニア(統計学者ではありません)で、最近、統計学学習の紹介という本を読みました。Rのアプリケーションで。

あなたが読んでいるのは、ログオッドかロジットです。132ページ

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

素晴らしい本-私はそれを最初から最後まで読んだ。お役に立てれば


ポインターありがとうございます。log-odds分布が「ロジスティック分布」と同じであると想定して、ウィキペディアで後者を調べました。PDFには下限または上限がないようです。だから、私が引用した教科書が、この分布で「上と下にバインドされた数値属性はモデル化できる」と最初に言った理由をまだ疑問に思っています。
stackoverflowuser2010 2014年

おそらく、境界が0.0(不可能)から1.0(明確)である関数の出力について話していると思います。(私はここで完全に間違っている可能性があります)
JasonEdinburgh

モデルが任意の大きな正または負の結果を生成する可能性があります。これらは、確率などの限定された範囲に関しては解釈できない場合がありますが、logit関数とその逆のロジスティック関数を使用したlog-oddsとして解釈できます。
Henry
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.