どうしてもビニングを避けなければならないのですか?


10

だから私はなぜビニングが常に避けられるべきかについてのいくつかの投稿を読んだ。その主張の人気のあるリファレンスはこのリンクです。

主な逃避は、ビニングポイント(またはカットポイント)がかなり恣意的であることと、その結果として生じる情報の損失であり、そのスプラインが優先されることです。

ただし、私は現在、Spotify APIを使用しています。SpotifyAPIには、いくつかの機能に対する継続的な信頼度の測定値が多数あります。

1つの機能「instrumentalness」を参照すると、参照は次のように述べています。

トラックにボーカルが含まれていないかどうかを予測します。「Ooh」と「aah」のサウンドは、この文脈ではインストゥルメンタルとして扱われます。ラップや話し言葉のトラックは明らかに「ボーカル」です。インストルメンタル値が1.0に近いほど、トラックにボーカルコンテンツが含まれていない可能性が高くなります。0.5を超える値は、インストゥルメンタルトラックを表すことを目的としていますが、値が1.0に近づくほど信頼性が高くなります。

データの非常に左に歪んだ分布を考えると(サンプルの約90%がかろうじて0を超えているため、この機能を2つのカテゴリ機能に変換するのが賢明であることがわかりました。 "(0.5未満の値を持つすべてのサンプル)。

これは間違っていますか?そして、私の(継続的な)データのほぼすべてが単一の値を中心に展開している場合、代替手段は何でしょうか?スプラインについて私が理解していることから、それらは分類の問題(私がやっていること)でも機能しません。


10
あなたが説明する設定は、ビニングが良いアイデアであることを意味するようではないようです。あなたは、値が1.0どれだけ近いかについての情報があると自分で言いました。私見あなたが器用である確率に関連している継続的な特徴を持っているとうまくやると思います。おそらくあなたはあなたの質問を拡張することができます。
フランクハレル

私の質問は、基本的に、ビニングを使用してもよいかどうかです。私の場合は、トラックがインストゥルメンタルにどれだけ近いかということよりも、トラックがインストゥルメンタルであるか、インストゥルメンタルではないのかを示すよりも予測的であると考えるので、ドメイン(インストゥルメンタル/インストゥルメンタルではない)に基づいて使用しました。しかし、あなたは投稿のポイント8でこのロジックに反対しました。私は、初心者として、なぜそうあるべきかについて本当に理解するのに苦労しています。
読み取り装置

1
私は、予測モデリングの文脈の中でこのことについて長い記事を書いた:madrury.github.io/jekyll/update/statistics/2017/08/04/...
マシュードゥルーリー

非常に有益で完全なおかげで。しかし、私の質問との関係はわかりません(まだいくつかの新しい洞察を得たので、すべて順調です!)。あなたの記事は、回帰問題で予測変数をビニングすることと、なぜそれが悪い考えであるか(あなたの記事が説得力をもって論じている)、そしてスプラインの使用が回帰のモデリングに役立つ理由について話しています。分類問題(予測変数が本質的に「ビン」、つまりクラスである)の連続した特徴(入力)の値を離散化するのがなぜ悪いのかと尋ねていました。
リーダー:

2
ほぼすべての機能が1つの時点にある場合、何をしても、モデルにとって役に立たない可能性があります。
29:29

回答:


15

ビニングはすべてのコストで避けられるべきだと言うのは少し大げさですが、ビニングが分析に任意性を導入するビン選択を導入するのは確かに事実です。現代の統計手法では、一般にビニングに従事する必要はありません。これは、離散化された「ビニング」データに対して実行できることはすべて、基本となる連続値に対して実行できるためです。

統計における「ビニング」の最も一般的な用途は、ヒストグラムの構築です。ヒストグラムは、選択されたビンのステップ関数の集約を含む限り、カーネル密度推定器(KDE)の一般的なクラスに似ていますが、KDEはより滑らかなカーネルの集約を含みます。ヒストグラムで使用されるステップ関数は滑らかな関数ではありません。一般的に、KDEメソッドでは任意性が低い、より優れたカーネル関数を選択できるため、データの基になる密度の推定値も向上します。私は生徒に、ヒストグラムは単なる「貧乏人のKDE」であるとよく言います。個人的には、データをビニングせずにKDEを取得するのは非常に簡単であり、任意のビニングを選択しなくても優れた結果が得られるため、私はこれを使用しません。

「ビニング」のもう1つの一般的な使用法は、離散値を使用する分析手法を使用するために、分析者が連続データをビンに離散化したい場合に発生します。これは、ボーカルサウンドの予測に関して引用したセクションで提案されているもののようです。そのような場合、ビニングによって導入された恣意性があり、情報の損失もあります。可能であれば、離散化された「ビン化された」値でモデルを形成するのではなく、基礎となる連続値で直接モデルを形成することにより、これを回避するのが最善です。

原則として、統計学者は、特にこれらの仮定を簡単に回避するための代替手法が利用可能な場合に、任意の仮定を導入する分析手法を回避することが望ましい。したがって、ビニングは一般的に不要であるという意見に同意します。コストは重要であるため、絶対に回避するべきではありませんが、深刻な不便をかけずに回避できる単純な代替手法がある場合は、一般に回避する必要があります。


そうですか。ただし、フォローアップの質問:上記の例(ここでは皮肉なことにヒストグラム)の分布を見ると、ほぼすべてのサンプルが1つの値(ここでは0)を中心とする連続変数の有用性がわかりません。私が最初にこの機能をビニングするようになったのはこのためです。あなたは代替案について言及しました-親切に説明してください、または私がもっと学ぶことができる場所に関して正しい方向を教えてくれませんか?
読み取り装置

KDEについて読んでみて、一変量データをプロットするいくつかの代替方法も検討してください。
ベン-モニカを

私はそのヒストグラム私がいたるところに値を見ています(しかし、はい、ほとんどゼロに近い)。スプラインフィットの使用に不都合はないはずです。これにより、より多くの情報が得られます。フィットしたスプラインをプロットします!そして、もしあなたが何らかの理由であなたが慎重を期さなければならないなら、その陰謀はあなたをどのように助けることができるでしょう。特定の用途では、0.5以外のカットポイントの方が適している場合があります。
kjetil b halvorsen

2
ヒストグラムは、KDEとして正しく解釈できません。カーネルは何でしょうか?
whuber

1
3番目の段落に関して、いくつかの数値データを使用して情報ゲインを計算しようとしたときに、同様の問題が発生しました。この質問を見て、この状況で何をすべきか説明できますか?stats.stackexchange.com/questions/384684/...
アステル

4

私は通常、他の著名なフランク・ハレルによってよく表現された理由により、連続変数の分類に強く反対します。この場合、スコアを生成したプロセスについて自問自答することをお勧めします。スコアのほとんどは、おそらくノイズが追加されているため、実質的にゼロであるように見えます。それらのいくつかは、ノイズとの結束にかなり近いです。その間にあるのはごくわずかです。この場合、ノイズを法としてこれがバイナリ変数であると主張することができるので、分類するのにかなり正当化があるようです。連続変数としてそれを当てはめる場合、係数は予測変数の変化の点で意味がありますが、この場合、その範囲のほとんどにわたって、変数は非常にまばらに配置されているため、魅力的ではないようです。


4
ビニングを使用しても問題ない場合の簡単な答えは次のとおりです。データを見る前に不連続点がすでにわかっている場合(これらはビンのエンドポイントです)、各ビン内のxとyの関係がわかっている場合ゼロ以外の長さはフラットです。
フランクハレル

2

時間のみを表示する時計を想像してみてください。つまり、1時間に1度、1/12が別の時間にジャンプすると、スムーズに移動しないという時間の矢印しかありません。このような時計は、2時5分、2時半、または10時から3時のどれなのかわからないため、あまり役に立ちません。これがビニングされたデータの問題です。詳細が失われ、「急激な」変更が発生します。


1
(+1)はい、そして時計メーカーが1時間ごとの増分を選択しない可能性があるという追加の問題に加えて、時計が19分刻みであると恣意的に決定する可能性があり、情報の損失以外に追加の問題がある。
ベン-

2

一部のアプリケーションでは、明らかに考えているアプリケーションを含め、ビニングが厳密に必要になる場合があります。明らかに分類問題を実行するには、ある時点でモデルからカテゴリデータを撤回する必要があり、入力もすべてカテゴリでない限り、ビニングを実行する必要があります。例を考えてみましょう:

洗練されたAIがポーカーをプレーしています。ハンドが他のプレイヤーのハンドよりも優れている可能性を70%と評価しました。それは賭けの番ですが、それはすべてのコストでビニングを避けるべきであり、その結果決して賭けをしないように言われています。デフォルトでは折りたたまれます。

ただし、中間値を早期にビニングすると、保存されている可能性のある情報引き渡されるため、あなたが聞いたことは本当かもしれません。プロジェクトの最終的な目的が問題の曲を「好き」にするかどうかを決定することである場合、これは「器械性」と「揺れ」の2つの要因によって決定される可能性があります。カテゴリー変数として「好み」を引き出す必要があります。

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

または、最も適切と思われる係数、またはトレーニングセットに適切に適合する他のモデル。

代わりに、何かが「道具的」(trueまたはfalse)であるか「rocks」(trueまたはfalse)であるかを決定する場合は、4つのカテゴリを1日のうちに説明する前にレイアウトします。

  1. インストゥルメンタル、ロック
  2. 非楽器、岩
  3. インストルメンタル、ロックなし
  4. 非器械的、岩石なし

しかし、あなたが決めるのは、これら4つのカテゴリのどれが「好き」かだけです。あなたはあなたの最終決定に柔軟性を与えました。

ビンにするかしないかの決定は、完全にあなたの目標に依存します。幸運を。


2

R

R{b1bN}bi=[li,ui]liuii

l=l0wl0u0=l0+ww(wmin,wmax)

P(R)=w=wminwmaxl=l0l0+wP(R|l,w)P(l,w)P(l,w)2(u0l0)wmax+wmin×(wmaxwmin)

wmax,wmin,l0P(R)P(R|wmax,wmin,l0)P(R)P(R|wmax,wmin,l0)=P(R)

OPの質問のコンテキストでは、任意のしきい値0.5が信頼できる最小値と最大値の間のさまざまな値に設定されていれば満足し、彼の分析の基本的な結果は選択にほとんど依存しないことがわかります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.