なぜ情報値を計算するのですか?


10

カテゴリー変数と連続変数を持つデータがありますが、説明的なデータ分析で情報値を見つける必要があります。

データ分析の最初に各変数の情報値を計算する理由と、分析を行うための情報値のカットオフポイントを教えてください


2
「情報価値」の計算について具体的に教えてください。すべての読者が同じように理解できるような、その用語の標準化された定量的な意味はないようです。質問を編集するときは、どのような分析について話し合っているのか、また「カットオフポイント」を何のために使用しているのかを理解するのに役立つコンテキストも提供してください。
whuber

回答:


11

一般的に言えば、情報値は、変数が、いくつかのターゲット変数Yのバイナリ応答(たとえば、「良い」と「悪い」)をどれだけ区別できるかを示します。アイデアは、変数Xの情報値が低い場合、ターゲット変数を分類するのに十分な仕事をしていない可能性があるため、説明変数として削除されます。バツYバツ

これがどのように機能するかを確認するには、n個のビンにグループ化します。それぞれのx X相当するY Y 2つの値のいずれかをとることができ、ビン、次いで0または1を言うX I1 iがNバツバツバツyYバツ1

V=Σ=1gblng/b

どこ

0 '内の X iは/ 0 'におけるS X =の割合 0ビン内のが私のすべてのビン対b=0バツ/0バツ=0

1 '内の X iは/ 1 '内の Xは=の割合 1ビン内のを私はすべてのビン対g=1バツ/1バツ=1

は、証拠の重み(ビン X iの場合)とも呼ばれます。カットオフ値は異なる場合があり、選択は主観的なものです。私はよく I V < 0.3を使用します(以下の[1]もそうです)。lng/bバツV<0.3

クレジットスコアリングのコンテキストでは、これら2つのリソースが役立ちます。

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf


1
ビンの1つがすべて良好またはすべて不良の場合に、情報値を計算するための何らかの修正を知っていますか?私の考えは、この状況を修正するために各ビンの各列に1を追加することです。これが一般的な方法なのか、それとも他の理論的な懸念があるのか​​と思います。私は主に実用主義からこのステップを検討しています。
Zelazny7 2014

一部の実務家がすべての善または悪をすべて含む用語を合計から削除するのを見てきましたが、完全な関連付けを本質的に無効にすることになるので、これはお勧めしません。定数(cなど)を追加することは興味深い解決策ですが、ビンの選択と定数およびサイズはIVに大きく影響します。cが0に近づくか、ビンサイズが無限大に近づくと、IVは無限大に近づきます。より代表的なIVを取得するには、すべての商品またはすべての不良品がある隣接するビンを結合することを検討してください。
dmanuge 2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.