だから私はなぜビニングが常に避けられるべきかについてのいくつかの投稿を読んだ。その主張の人気のあるリファレンスはこのリンクです。
主な逃避は、ビニングポイント(またはカットポイント)がかなり恣意的であることと、その結果として生じる情報の損失であり、そのスプラインが優先されることです。
ただし、私は現在、Spotify APIを使用しています。SpotifyAPIには、いくつかの機能に対する継続的な信頼度の測定値が多数あります。
1つの機能「instrumentalness」を参照すると、参照は次のように述べています。
トラックにボーカルが含まれていないかどうかを予測します。「Ooh」と「aah」のサウンドは、この文脈ではインストゥルメンタルとして扱われます。ラップや話し言葉のトラックは明らかに「ボーカル」です。インストルメンタル値が1.0に近いほど、トラックにボーカルコンテンツが含まれていない可能性が高くなります。0.5を超える値は、インストゥルメンタルトラックを表すことを目的としていますが、値が1.0に近づくほど信頼性が高くなります。
データの非常に左に歪んだ分布を考えると(サンプルの約90%がかろうじて0を超えているため、この機能を2つのカテゴリ機能に変換するのが賢明であることがわかりました。 "(0.5未満の値を持つすべてのサンプル)。
これは間違っていますか?そして、私の(継続的な)データのほぼすべてが単一の値を中心に展開している場合、代替手段は何でしょうか?スプラインについて私が理解していることから、それらは分類の問題(私がやっていること)でも機能しません。