困惑とは何ですか?


42

見えないデータの対数平均された逆確率を指す用語「perplexity」に出会いました。困惑に関するウィキペディアの記事は、そのための直感的な意味を与えません。

この困惑度の尺度は、pLSAの論文で使用されました。

誰もが困惑度の必要性と直感的な意味を説明できますか?


pLSAの困惑度を計算する方法 カウントを持つデータ行列バツがあり、TEMアルゴリズムによってpdおよびpw|dが計算されます。
学習者

3
Nisbett、Larose、Witten、Torgo、およびShemueli(および共著者)による5つのデータマイニング/機械学習/予測分析の本のインデックスを確認しましたが、この用語はいずれにもありません。私は困惑しています:)
zbicyclist

1
困惑は不確実性のための別の派手な名前です。これは、外部評価に対する固有の評価と見なすことができます。ヤンJurafskyは、言語に応じて、例がここでのモデリングとエレガントにそれを説明する youtube.com/watch?v=BAN3NB_SNHY
bicepjai

2
@zbicyclist、あなたが野生の例を探しているなら、それは特に言語モデルのようなものの評価のためにNLPで一般的です。
マットクラウス

一部の分野(経済学など)では、人々は同等の数について話します。たとえばで、Hは自然対数に基づくエントロピーです。したがって、それぞれ確率0.5の2つのカテゴリはln 2のエントロピーを生成し、べき乗は等しく一般的なカテゴリの数として2を返します。等しくない確率の場合、同等の数値は一般に整数ではありません。expHHln2
ニックコックス

回答:


21

あなたは困惑に関するウィキペディアの記事を見ました。離散分布の複雑さを次のように与えます

2バツpバツログ2pバツ

次のように書くこともできます

expバツpバツログe1pバツ

すなわち、確率の逆数の加重幾何平均として。連続分布の場合、合計は積分になります。

また、この記事では、個のテストデータを使用してモデルの困惑度を推定する方法も示しています。N

2=1N1Nログ2qバツ

書くこともできます

exp=1Nログe1qバツN または =1N1qバツN

または他のさまざまな方法で、これにより「対数平均逆確率」がどこから来るかをさらに明確にする必要があります。


eが指数ではなく2として使用される場合、特別な違いはありますか?
ヘンリーE

2
@HenryE:いいえ、を底とする常用対数も機能します-異なる底の対数は互いに比例し、明らかにa log a x = b log b x10aログaバツ=bログbバツ
Henry

私もそう思いました。以前に見た他のすべての定式化が2を使用していたときに、コードがなぜeを使用してperplexityを計算していたのかを理解しようとしたときに、この答えに出会いました。対数損失計算のベースとして使用
ヘンリーE

27

私はこれがかなり直感的だとわかりました:

あなたが評価しているデータの、あなたが評価しているものの難しさは、ある種の「このことはx面のダイがそうであるのと同じくらい頻繁に正しい」ことを告げます。

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/


これは興味深い記事です。多分それほど深くはないが、入門編としては良い。
モニカヘドネック16

1
また、この記事が役に立ちました。jamesmccaffrey.wordpress.com
2016/08/16 /

11

私もこれを疑問に思いました。最初の説明は悪くはありませんが、価値のあるものについての2つのnatがあります。


まず第一に、困惑は、あなたがどれだけ正しいことを推測するかを特徴付けることとは何の関係もありません。確率的シーケンスの複雑さを特徴付けることと関係があります。

量、

2バツpバツログ2pバツ

最初にログとべき乗をキャンセルしましょう。

2バツpバツログ2pバツ=1バツpバツpバツ

エントロピーを定義するために使用するベースでは、複雑さが不変であることを指摘する価値があると思います。そのため、この意味で、測定値としてのエントロピーよりも、パープレキシティは無限にユニーク/ arbitrary意的ではありません。

サイコロとの関係

これを少し試してみましょう。コインを見ているだけだとしましょう。コインが公正な場合、エントロピーは最大になり、困惑は最大

11212×1212=2

N面のサイコロを見るとどうなりますか?困惑は

11N1NN=N

したがって、パープレキシティは、フェアダイスの側面の数を表し、ロールされると、指定された確率分布と同じエントロピーを持つシーケンスを生成します。

州の数

NN+1NϵNN+1ϵNバツpバツN

pバツ=pバツ1ϵ

1ϵϵバツNpバツpバツ=1ϵϵバツNpバツ1ϵpバツ1ϵ=1ϵϵバツNpバツpバツ1ϵ1ϵpバツ1ϵ=1ϵϵ1ϵ1ϵバツNpバツpバツ1ϵ

ϵ0

1バツNpバツpバツ

したがって、サイコロの片側を転がす可能性がますます低くなると、混乱が最終的にはその側が存在しないように見えます。


3
確かに、それは〜1.39 natsだけの価値があるのでしょうか?
マットクラウス

バツNpバツpバツ=1ϵ1ϵバツNpバツpバツ1ϵ
バツNpバツpバツ=バツNpバツ1ϵpバツ1ϵ=バツN1ϵpバツ1ϵバツNpバツpバツ1ϵ

\ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left(1- \ epsilon \ right)} = {\ left(1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left(1- \ epsilon \ right)} = {\ left(1- \ epsilon \ right)} ^ {\ left(1- \ epsilon \ right)\ sum_x ^ N p_x} = {\ left(1- \ epsilon \ right)} ^ {\ left(1- \ epsilon \ right)}

5

バツバツ

Pバツ=バツ2Hバツ=12Hバツ=1困惑

説明すると、均一分布Xの複雑さは、要素数| X |にすぎません。Xからiidを推測するだけで、均一分布Xからiidサンプルがとる値を推測しようとすると、正しい1 / | X | = 1 /時間の複雑性になります。一様分布は値を推測するのが最も難しいため、1 / perplexityを、推測が正しい頻度の下限/ヒューリスティック近似として使用できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.