タグ付けされた質問 「binning」

ビニングとは、連続変数を個別のカテゴリにグループ化することです。特にヒストグラムを参照して使用されますが、粗くするという意味でより一般的に使用することもできます。

4
ヒストグラムに基づくデータのおおよその分布の評価
ヒストグラムに基づいてデータが指数関数である(つまり、右に歪んでいる)かどうかを確認するとします。 データをグループ化またはビン化する方法に応じて、大幅に異なるヒストグラムを取得できます。 ヒストグラムのセットの1つは、データが指数関数的であるように思われます。別のセットでは、データは指数関数ではないように見えます。適切に定義されたヒストグラムから分布を決定するにはどうすればよいですか?

7
連続予測変数を分割することの利点は何ですか?
モデルで使用する前に、連続予測変数を取得してそれを分割(たとえば、五分位数に分割)することの価値は何かと思っています。 変数をビニングすると情報が失われるように思えます。 これは、非線形効果をモデル化できるからですか? 変数を連続的に保ち、それが実際に直線関係ではなかった場合、データに最適な何らかの曲線を考え出す必要がありますか?

3
ヒストグラムよりもQQプロットを使用する利点
ではこのコメント、ニック・コックスは書きました: クラスへのビニングは古代の方法です。ヒストグラムは便利ですが、最新の統計ソフトウェアを使用すると、生データに分布を適合させることが簡単になります。ビニングは、どの分布がもっともらしいかを判断するのに重要な詳細を単に捨てます。 このコメントの文脈は、フィットを評価するための代替手段としてQQプロットを使用することを示唆しています。声明は非常に妥当なように聞こえますが、この声明を裏付ける信頼できる参照について知りたいです。単純な「まあ、これは明白に聞こえます」を超えて、この事実をより徹底的に調査する論文はありますか?結果または同類の実際の体系的な比較はありますか? また、ヒストグラムに対するQQプロットの利点が、モデルフィッティング以外のアプリケーションにどの程度まで拡張されるかを確認したいと思います。上の回答この質問は「『何かが間違っている』 [...]ちょうどことを示していますQQプロット」ことに同意します。ヌルモデルと比較して観測データの構造を識別するツールとしてそれらを使用することを考えており、非ランダムを検出するだけでなく説明するためにQQプロット(またはその基礎となるデータ)を使用する確立された手順が存在するかどうか疑問に思います観測データの構造。したがって、この指示を含む参照は特に有用です。

2
いつ連続的な独立変数/機能を離散化/ビン化すべきか、そうすべきではないのか?
いつ独立変数/機能を離散化/ビン化する必要がありますか? 質問に答える私の試み: 一般に、ビニングは情報を失うため、ビン化するべきではありません。 ビニングは、実際にはモデルの自由度を高めているため、ビニング後に過剰適合を引き起こす可能性があります。「高バイアス」モデルがある場合、ビニングは悪くないかもしれませんが、「高分散」モデルがある場合、ビニングを避ける必要があります。 使用しているモデルによって異なります。それが線形モードであり、データに多くの「外れ値」がある場合、ビニング確率が優れています。ツリーモデルがある場合、外れ値とビニングはあまりにも大きな違いを生みます。 私は正しいですか?そして他に何? この質問は何度も聞かれるべきだと思ったが、これらの投稿だけでは履歴書で見つけることができない 連続変数をビン化する必要がありますか? 連続予測変数を分割することの利点は何ですか?

2
データベースのビン境界がカイ二乗適合度検定に及ぼす影響?
この種の状況でのカイ二乗の低電力の明らかな問題は別として、データをビニングすることにより、指定されていないパラメーターを使用して密度のカイ二乗検定を行うことを想像してください。 具体的には、平均が不明でサンプルサイズが100の指数分布であるとします。 ビンごとに合理的な数の予想観測値を取得するには、データのアカウントを取得する必要があります(たとえば、平均より下に6ビン、上に4ビンを配置することを選択した場合、データベースのビン境界を使用します) 。 しかし、データの表示に基づいたビンのこの使用は、おそらくヌル下の検定統計量の分布に影響を与えるでしょう。 パラメーターがビン化されたデータから最尤法で推定された場合、推定されたパラメーターごとに1 dfを失うという事実に関する多くの議論を見てきました(フィッシャー対カールピアソンにさかのぼる問題)-しかし、私は覚えていませんデータに基づいてビン境界自体を見つけることについては何でも読んでください。(ビン化されていないデータからそれらを推定する場合、ビンの場合、検定統計量の分布はと間のどこかにあります。)kkkχ2kχk2\chi^2_{k}χ2k − pχk−p2\chi^2_{k-p} データに基づいたビンの選択は、有意水準または電力に実質的に影響しますか?他よりも重要なアプローチがありますか?多くの効果がある場合、それは大きなサンプルで消滅するものですか? 実質的な影響がある場合、多くの場合、パラメータが不明な場合、カイ二乗検定を使用するように思われます(多くのテキストでまだ提唱されているにもかかわらず)。 -パラメータの事前推定。 問題または参照へのポインタの議論(できればそれらの結論に言及して)が役に立つでしょう。 編集、ほとんどの主要な質問は別として: 指数関数*の特定の場合(およびユニフォームが考えるようになった場合)には潜在的な解決策があると思いますが、ビン境界を選択する影響のより一般的な問題にまだ興味があります。 *たとえば、指数関数の場合、最小の観測値(たとえばと等しい)を使用して、ビンを配置する場所の非常に大まかな考えを取得できます(最小の観測値は平均指数関数であるため)次に、指数性について残りの差()をテストします。もちろん、それは非常に貧弱な推定値、したがって貧弱なビンの選択をもたらすかもしれませんが、合理的なビンを選択するための最低の2つまたは3つの観測値を取得し、次に指数性に関するこれらの最小次数統計の最大値を超える残りの観測値)μ / N N - 1 X I - M μmmmμ / nμ/n\mu/nn − 1n−1n-1バツ私− mバツ私−mx_i - mμμ\mu

3
2つのヒストグラムを同じスケールで配置する最良の方法は?
詳細に比較したい2つの分布があるとしましょう。つまり、形状、スケール、シフトを簡単に見えるようにします。これを行う1つの良い方法は、各分布のヒストグラムをプロットし、それらを同じXスケールに配置し、一方を他方の下に積み重ねることです。 これを行うとき、ビニングはどのように行われるべきですか?下の画像1のように、1つの分布が他の分布よりもはるかに分散している場合でも、両方のヒストグラムで同じビン境界を使用する必要がありますか?下の画像2のように、ズームする前にヒストグラムごとにビニングを個別に行う必要がありますか?これについての経験則もありますか?

2
与えられた応答変数に関する最適なビニング
与えられた応答(ターゲット)バイナリ変数に関して、パラメーターとして間隔の最大数を持つ連続変数の最適なビニング方法(離散化)を探しています。 例:「height」(数値連続)および「has_back_pains」(バイナリ)変数を持つ人々の一連の観察結果があります。高さを最大3つの間隔(グループ)に離散化して、背中の痛みを持つ人々の比率を変えて、アルゴリズムがグループ間の差を最大化するようにします(たとえば、各間隔には少なくともx個の観測値があるという制限があります)。 この問題の明らかな解決策は、決定木(単純な1変数モデル)を使用することですが、Rで「最大分岐数」をパラメーターとして持つ関数を見つけることができません。それらすべてが変数を分割します。 2 gropus(<= x and> x)に。SASマイナーには「最大ブランチ」パラメーターがありますが、私は非商用ソリューションを探しています。 一部の変数には一意の値がわずかしかありません(離散変数として扱うこともできます)が、それらを同様に少数の間隔に離散化したいと考えています。 私の問題に最も近い解決策は、Rのsmbinningパッケージ(パーティパッケージのctree関数に依存)に実装されていますが、2つの欠点があります。間隔の数を設定することはできません(ただし、変更することで回避策を見つけることができます) pパラメータ)。データベクトルの一意の値が10未満の場合は機能しません。とにかく、ここで出力例を見ることができます(カットポイントとオッズ列は重要です): Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 …

5
マンモグラフィーの陽性結果に適用されたベイズの定理の解釈
私は、古典的なマンモグラムの例に適用されたベイズの定理の結果に頭を回そうとしています。マンモグラムのねじれは完璧です。 あれは、 がんの発生率:.01.01.01 患者にがんがある場合のマンモグラム陽性の確率:111 患者にがんがない場合のマンモグラム陽性の確率:.01.01.01 ベイズ: P(がん|マンモグラム+)=1 ⋅ 0.01(1 ⋅ 0.01 )+ (0.091 ⋅ 0.99 )1⋅.01(1⋅.01)+(.091⋅.99)\dfrac {1 \cdot .01}{(1 \cdot .01) + (.091 \cdot .99)} = .5025=.5025 = .5025 それで、母集団から無作為に抽出した人がマンモグラムを撮り、肯定的な結果が得られた場合、50%の確率で癌に罹患しているのでしょうか。人口の1%で誤検知が発生する可能性が非常に低い1%の確率が50%の結果を引き起こす方法を直感的に理解できていません。論理的には、小さな偽陽性率の完全に真陽性のマンモグラムの方がはるかに正確だと思います。

2
ソートされたデータのコレクションを「インテリジェントに」ビンに入れる方法は?
ソートされたコレクションをインテリジェントにビンに入れようとしています。個のデータのコレクションがあります。しかし、私はこのデータが不等サイズのビンに収まることを知っています。データを適切に合わせるためにエンドポイントをインテリジェントに選択する方法がわかりません。例えば:mんnnメートルmm コレクションに12個のアイテムがあり、データが3つのビンに収まることがわかっているとします。 Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 1 3 3 3 3 3 3 5 5 6 i = \ {1-3 \}、\ {4-9 \}、\ {10-12 \}のビンのブレークポイントをインテリジェントに選択するにはどうすればよいi = { 1 − 3 } 、{ 4 − 9 } 、{ 10 …

5
どうしてもビニングを避けなければならないのですか?
だから私はなぜビニングが常に避けられるべきかについてのいくつかの投稿を読んだ。その主張の人気のあるリファレンスはこのリンクです。 主な逃避は、ビニングポイント(またはカットポイント)がかなり恣意的であることと、その結果として生じる情報の損失であり、そのスプラインが優先されることです。 ただし、私は現在、Spotify APIを使用しています。SpotifyAPIには、いくつかの機能に対する継続的な信頼度の測定値が多数あります。 1つの機能「instrumentalness」を参照すると、参照は次のように述べています。 トラックにボーカルが含まれていないかどうかを予測します。「Ooh」と「aah」のサウンドは、この文脈ではインストゥルメンタルとして扱われます。ラップや話し言葉のトラックは明らかに「ボーカル」です。インストルメンタル値が1.0に近いほど、トラックにボーカルコンテンツが含まれていない可能性が高くなります。0.5を超える値は、インストゥルメンタルトラックを表すことを目的としていますが、値が1.0に近づくほど信頼性が高くなります。 データの非常に左に歪んだ分布を考えると(サンプルの約90%がかろうじて0を超えているため、この機能を2つのカテゴリ機能に変換するのが賢明であることがわかりました。 "(0.5未満の値を持つすべてのサンプル)。 これは間違っていますか?そして、私の(継続的な)データのほぼすべてが単一の値を中心に展開している場合、代替手段は何でしょうか?スプラインについて私が理解していることから、それらは分類の問題(私がやっていること)でも機能しません。

2
相互情報量を計算するときのビンの数
相互の情報を使用して、2つの変数AとBの関係を定量化したいと思います。それを計算する方法は、観測値をビニングすることです(以下のPythonコードの例を参照)。ただし、どのビンの数が妥当かを決定する要因は何ですか?計算を高速にする必要があるので、単純に多くのビンを使用して安全側にすることはできません。 from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = np.histogram2d(x, y, bins)[0] mi = mutual_info_score(None, None, contingency=c_xy) return mi

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
ヒストグラムビニングに関するDoaneの式
ヒストグラムに使用するビンの最適な数を推定するために、さまざまなアルゴリズムを実装しています。私が実装しているもののほとんどは、Wikipediaの「ヒストグラム」ページの「ビンの数と幅」*で説明されています。 Doaneの式の問題に悩まされています。 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) どこnのデータサイズがあります。 問題は、尖度が負の場合、およびn >> 1の引数logが負になるためです。 *(このページは投稿されてから変更されています。リンクは、投稿時のページを指すように編集されています)


2
連続変数の教師なし離散化の正当化は何ですか?
多くの出典は、統計分析の前に連続変数の離散化(分類)の多くの負の結果があることを示唆しています(以下の参考文献のサンプル[1]-[4])。 逆に[5]は、連続変数が離散化された場合に一部の機械学習手法がより良い結果を生成することが知られていることを示唆しています(教師付き離散化手法のパフォーマンスが高いことにも注意)。 統計的な観点から、この慣行に広く受け入れられているメリットや正当化があるかどうか知りたいのですが。 特に、GLM分析内の連続変数を離散化する正当な理由はありますか? [1] Royston P、Altman DG、Sauerbrei W.重回帰で連続予測子を二分する:悪い考え。Stat Med 2006; 25:127-41 [2] Brunner J、オースティンPC。独立変数がエラーで測定された場合の重回帰におけるタイプIエラー率のインフレ。カナダ統計ジャーナル2009; 37(1):33-46 [3]アーウィンJR、マクレランドGH。連続予測子変数を二分することの負の結果。ジャーナルオブマーケティングリサーチ2003; 40:366–371。 [4]ハレルJr FE。連続変数の分類によって引き起こされる問題。http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous、2004。2004年6.9。にアクセス [5] Kotsiantis、S。Kanellopoulos、D.「離散化手法:最近の調査」。GESTS International Transactions on Computer Science and Engineering 32(1):47–58。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.