タグ付けされた質問 「rare-events」

10
タレブと黒い白鳥
Talebの本「The Black Swan」は、数年前に発売されたNew York Timesのベストセラーでした。この本は現在第2版になっています。JSM(年次統計会議)で統計学者と会った後、タレブは統計に対する彼の批判をいくらか抑えました。しかし、本の趣旨は、統計が非常に有用ではないということです。統計は正規分布と非常にまれなイベントに依存しているためです。「Black Swans」には正規分布がありません。 これは正当な批判だと思いますか?タレブは統計的モデリングの重要な側面を逃していますか?少なくとも、発生の確率を推定できるという意味で、まれなイベントを予測できますか?

5
まれなイベントのロジスティック回帰に対処する戦略
限られた人口の中でまれな出来事を研究したいと思います。どの戦略が最適かわからないので、この問題に関連するヒントと参考文献をいただければ幸いです。どこから始めればいいか分からない。 私の問題は政治学の問題であり、515,843のレコードからなる有限の人口を持っています。これらは、513,334個の「0」と2,509個の「1」を持つバイナリ従属変数に関連付けられています。人口の0.49%しか占めていないため、「1」をまれなイベントとして作成できます。 「1」の存在を説明するためにモデルを構築したい約10個の独立変数のセットがあります。私たちの多くと同様に、私はKing&Zengの2001年のまれなイベントの修正に関する記事を読みました。彼らのアプローチは、ケースコントロール設計を使用して「0」の数を減らし、インターセプトに修正を適用することでした。 ただし、この投稿では、King&Zengの議論は、母集団全体で既にデータを収集している場合は必要ないと述べています。これは私の場合です。したがって、古典的なロジットモデルを使用する必要があります。私にとって残念なことに、有意な係数は得られますが、私のモデルは予測の観点からはまったく役に立ちません(私の「1」の99.48%を予測できません)。 King&Zengの記事を読んだ後、ケースコントロールデザインを試したいと思い、すべての「1」で「0」の10%だけを選択しました。ほぼ同じ係数で、モデルは全母集団に適用された場合、「1」のほぼ3分の1を予測することができました。もちろん、多くの偽陽性があります。 したがって、3つの質問があります。 1)人口に関する十分な知識があるときにKing&Zengのアプローチが不利な場合、記事で人口を知っている状況を使用して、そのポイントを証明するのはなぜですか? 2)ロジット回帰の係数が十分であり、予測力が非常に低い場合、これらの変数によって説明される変動は無意味であることを意味しますか? 3)まれなイベントに対処するための最良のアプローチは何ですか?キングのリロジットモデル、ファースのアプローチ、正確なロジットなどについて読んだ。

3
まれなイベントロジスティック回帰バイアス:最小限の例で過小評価されたpをシミュレートする方法は?
CrossValidatedには、King and Zeng(2001)によるまれなイベントバイアス修正をいつ、どのように適用するかに関するいくつかの質問があります。私は別の何かを探しています。バイアスが存在するという最小限のシミュレーションベースのデモンストレーションです。 特に、王とZenの状態 「...まれなイベントデータでは、確率のバイアスはサンプルサイズが数千単位で実質的に意味があり、予測可能な方向にあります。推定イベント確率は小さすぎます。」 Rのこのようなバイアスをシミュレートする私の試みは次のとおりです。 # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not …

1
勾配ブースティングは、1%のような低いイベント率のデータに適していますか?
Enterprise Minerを使用して、イベント率が約1%のデータセットで勾配ブーストを試行していますが、出力を生成できません。私の質問は、ディシジョンツリーベースのアプローチなので、このような低いイベントで勾配ブースティングを使用することは適切ですか?

2
相対リスクと絶対リスクの違いをどのように説明しますか?
先日、疫学者と相談しました。彼女は疫学の公衆衛生学の学位を持つMDであり、統計に精通しています。彼女は研究フェローと居住者を指導し、統計上の問題について支援します。彼女は仮説検定をよく理解しています。彼女は、うっ血性心不全(CHF)の発症に関連するリスクに違いがあるかどうかを確認するために、2つのグループを比較するという典型的な問題を抱えていました。彼女は、CHFを獲得した被験者の割合の平均差をテストしました。p値は0.08でした。その後、彼女は相対リスクを調べることにし、p値0.027を得ました。そこで彼女は、なぜ一方が重要で、もう一方が重要でないのかと尋ねました。差と比率の95%の両側信頼区間を見ると、平均差間隔には0が含まれていたが、比率の信頼限界の上限は1未満であることがわかりました。技術的には正しいが、私の答えはあまり満足のいくものではなかった。「これらは異なる統計であり、異なる結果をもたらす可能性があります。p値はどちらもわずかに有意な領域にあります。これは簡単に起こります。」相対リスクと絶対リスクのテストの違いを理解するのを助けるために、医師に素人の言葉でこれに答えるより良い方法がなければならないと思います。エピスタディでは、両方のグループの発生率が非常に小さく、サンプルサイズがそれほど大きくないまれなイベントをよく見ているため、この問題が頻繁に発生します。私はこれについて少し考えてきましたが、いくつかのアイデアを共有します。しかし、最初に私はあなたの何人かがこれをどのように扱うか聞きたいです。皆さんの多くが医療分野で働いたり相談したりしており、おそらくこの問題に直面していることを知っています。あなたならどうしますか?

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
シーケンスイベント予測内でのLSTMの最適な使用
次の1次元シーケンスを想定します。 A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... A, B, C, ..ここの文字は「通常の」イベントを表しています。 #, $, %, ...ここの記号は「特別な」イベントを表しています すべてのイベント間の時間間隔は均一ではありませんが(数秒から数日まで)、過去のイベントほど、将来のイベントに影響を与える可能性は低くなります。理想的には、これらの時間遅延を明示的に考慮することができます。 通常のイベントタイプは約10000、特別なイベントタイプは約100です。特別なイベントに先行する通常のイベントの量はさまざまですが、100〜300を超えることはほとんどありません。 基本的に、特別なイベントを予測できるようになる、通常のイベントシーケンスのパターンを探すことに興味があります。 これで、さまざまな方法でこれに取り組むことができます:特徴ベクトル+標準分類、相関ルール学習、HMMなどを作成します。 この場合、LSTMベースのネットワークがどのように最適になるかについて興味があります。簡単なのは、Karparthyのchar-rnnのようなことを行い、履歴が与えられたら次のイベントを予測することです。次に、新しいシーケンス C, Z, Q, V, V, ... , V, W モデル全体を実行して、次に来る可能性が最も高い特別なイベントを確認できます。しかし、それは適切なフィット感をまったく感じていません。 これは一時的な分類の問題なので、Alex Gravesが説明しているように、Connectionistの一時的な分類を使用するのが適切です。 ただし、現時点で多額の投資をする前に、LSTMがどれだけ適切にここに収まるかを感じるために、より簡単で迅速に実験できる何かを探しています。Tensorflowは、ある時点でCTCの例を見ますが、まだ見ていません。 だから私の(サブ)質問は: 上記の問題があり、LSTMを試してみたいのであれば、char-rnnタイプのアプローチを試してみる価値はありますか。 イベント間タイミング情報をどのように明示的に組み込みますか。no-opイベントで固定クロックを使用することは明らかに機能しますが、見苦しいようです。 LSTMをトレーニングできたとしたら、モデルを調べて、どのような種類のイベント「モチーフ」を取得したかを確認する方法はありますか?(つまり、convnetsのフィルターに類似) 常に役立つサンプルコード(Pythonを推奨)。 編集:シーケンスにノイズがあることを追加するだけです。一部のイベントは安全に無視できますが、正確にどのイベントを前もって言うことが常に可能であるとは限りません。したがって、理想的には、モデル(およびモデルから派生したモチーフ)はこれに対して堅牢です。

1
ロジスティック回帰のまれなイベントの結果は何ですか?
サンプルサイズは、あらゆる統計的手法で検出力に影響することを知っています。各予測子に対して回帰が必要とするサンプル数の目安があります。 また、ロジスティック回帰の従属変数の各カテゴリのサンプル数が重要であるとよく耳にします。どうしてこれなの? カテゴリの1つのサンプル数が少ない(まれなイベント)場合、ロジスティック回帰モデルに実際にどのような影響がありますか? 従属変数の各レベルの予測子の数とサンプル数の両方を組み込んだ経験則はありますか?


2
King and Zeng(2001)に記載されているまれなイベントの修正方法
バイナリ(生存)応答変数と3つの説明変数(A= 3レベル、B= 3レベル、C= 6レベル)のデータセットがあります。このデータセットでは、データはバランスが取れており、ABCカテゴリごとに100人の個人がいます。これらの、、および変数の影響についてAはB、Cこのデータセットですでに調査しました。それらの効果は重要です。 サブセットがあります。各ABCカテゴリでは、100人のうち25人のうち、およそ半分が生存しており、半分が死亡しています(12人未満が生存または死亡している場合、その数は他のカテゴリで完了していますD)。第4変数についてさらに調査されました()。ここに3つの問題があります。 KingとZeng(2001)で説明されているまれなイベントの修正を考慮して、およそ50%から50%が大きなサンプルの0/1比率に等しくないことを考慮して、データに重みを付ける必要があります。 この0と1のランダムでないサンプリングは、個人が各ABCカテゴリーでサンプリングされる確率が異なるため、大きなサンプルではグローバルな比率0/1ではなく、各カテゴリーの真の比率を使用する必要があると思います。 この4番目の変数には4つのレベルがあり、データは実際にはこれらの4つのレベルでバランスが取れていません(データの90%はこれらのレベルの1つ、たとえばlevel内にありますD2)。 King and Zeng(2001)の論文と、King and Zeng(2001)の論文に導いたこのCVの質問と、後でパッケージを試すように導いたこの別の質問logistf(私はRを使用)を注意深く読みました。King and Zheng(2001)から理解したことを適用しようとしましたが、私がしたことが正しいかどうかはわかりません。私は2つの方法があることを理解しました: 以前の修正方法については、切片のみを修正することを理解しました。私の場合、切片はA1B1C1カテゴリであり、このカテゴリの生存率は100%であるため、大きなデータセットとサブセットの生存率は同じであり、したがって、修正による変化はありません。とにかく、この方法は私には当てはまらないのではないかと思います。私は全体として真の比率ではなく、各カテゴリの比率を持っているからです。この方法はそれを無視します。 重み付け方法:w iを計算し、論文で理解したことから:「研究者が行う必要があるのは、式(8)でw iを計算し、それをコンピュータープログラムで重みとして選択して実行することです。ロジットモデル」。だから私は最初に自分glmを走らせました: glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial) 私は含めるべきであることを確認していないA、BとC私は通常、このサブサンプルの生存に影響を与えないためにそれらを期待しているので(各カテゴリには50%の生死については含まれています)、説明変数として。とにかく、重要でない場合は、出力を大きく変更しないでください。この修正により、私はレベルD2(ほとんどの個人のレベル)によく適合しますが、他のレベルD(D2優勢)にはまったく適合しません。右上のグラフを参照してください。 重み付けされていないglmモデルとw iでglm重み付けされたモデルの近似。各ドットは1つのカテゴリを表します。は、大きなデータセットのカテゴリの1の真の比率であり、サブデータセットのカテゴリの1の真の比率であり、サブデータセットに適合したモデルの予測です。各記号は、所定のレベルのを表します。三角形は水平です。Proportion in the big datasetABCProportion in the sub datasetABCModel predictionsglmpchDD2 後にが表示されたときにのみlogistf、これはおそらくそれほど単純ではありませんが。今はよくわかりません。を実行するlogistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)と、推定値が得られますが、予測関数が機能せず、デフォルトのモデルテストは無限のカイ二乗値(1を除く)とすべてのp値= 0(1を除く)を返します。 質問: KingとZeng(2001)を正しく理解しましたか?(私はそれを理解するのにどれくらい遠いですか?) 私にglmフィット、A、B、とC有意な効果を持っています。これはすべて、サブセットで0と1の半分/半分の比率からさまざまな方法でさまざまに解析するABCということです。そうではありませんか? タウの値と値を持っているという事実にもかかわらず、キングとゼンの(2001)の重み付け補正を適用できますか? y¯y¯\bar yABCグローバル値の代わりに各カテゴリについて? D変数のバランスが非常に悪いのは問題ですか?バランスが取れていない場合、どうすればそれを処理できますか?(考慮に入れると、まれなイベントの修正のためにすでに重み付けする必要があります...「二重重み付け」、つまり重み付けを可能にすることは可能ですか?)ありがとうございます! 編集:モデルからA、B、Cを削除するとどうなるかを確認します。なぜそんな違いがあるのか​​わかりません。 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.