タグ付けされた質問 「threshold」

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
分類確率のしきい値
一般的な分類に関する質問があります。fを分類器とし、データDが与えられた場合に確率のセットを出力します。通常、P(c | D)> 0.5の場合、クラス1を割り当てます。分類)。 私の質問は、もし私が見つけたら、確率を1として分類する場合、つまり0.2よりも大きい場合、分類器のパフォーマンスは向上するということです。分類を行うときにこの新しいしきい値を使用するのは正当ですか? 私は、より小さな信号を発するデータのコンテキストで、より低い分類の必要性を解釈します。まだ分​​類問題にとって重要です。 私はこれがそれを行う1つの方法であると認識していますが、これが正しい思考ではない場合、個々の機能を同様に強調し、しきい値を0.5に保つことができるデータ変換は何ですか?

5
ロジスティック回帰に関する哲学的質問:最適なしきい値がトレーニングされないのはなぜですか?
通常、ロジスティック回帰では、モデルを近似し、トレーニングセットでいくつかの予測を取得します。次に、これらのトレーニング予測(こちらのようなもの)を相互検証し、ROC曲線のようなものに基づいて最適なしきい値を決定します。 しきい値の交差検証を実際のモデルに組み込んで、全体をエンドツーエンドでトレーニングしてみませんか?

1
F1最適しきい値とは何ですか?計算方法は?
Rでh2o.glm()関数を使用しました。これは、他の統計とともに結果の分割表を提供します。分割表の見出しは「F1最適しきい値に基づくクロスタブ」です ウィキペディアでは、F1スコアまたはFスコアを、精度と再現率の調和平均として定義しています。しかし、PrecisionとRecallは、ロジスティック回帰の予測値の結果(たとえば)がカットオフを使用してバイナリに変換された場合にのみ見つかりません。 カットオフで、F1スコアと最適なしきい値との関係は何ですか。最適なしきい値はどのように計算されますか?F1最適しきい値はどのように計算されますか? 何か見逃してしまった場合は申し訳ありませんが、ここの統計は初めてです。
13 threshold 

3
特徴ベクトルの余分な次元ではなく、SVMのバイアス項が個別に推定されるのはなぜですか?
SVMの最適な超平面は次のように定義されます。 w⋅x+b=0,w⋅x+b=0,\mathbf w \cdot \mathbf x+b=0, ここで、はしきい値を表します。我々はいくつかのマッピングがある場合はφいくつかのスペースに入力スペースをマップZを、私たちは宇宙にSVMを定義することができZ最適hiperplaneはなります:bbbϕϕ\mathbf \phiZZZZZZ w⋅ϕ(x)+b=0.w⋅ϕ(x)+b=0.\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0. しかし、我々は常にマッピング定義することができるように、φ 0(X)= 1、∀ X、その後最適hiperplaneのように定義される W ⋅ φ(X)= 0。ϕϕ\phiϕ0(x)=1ϕ0(x)=1\phi_0(\mathbf x)=1∀x∀x\forall \mathbf xw⋅ϕ(x)=0.w⋅ϕ(x)=0.\mathbf w \cdot \mathbf \phi(\mathbf x)=0. 質問: なぜ、多くの論文を使用、彼らはすでにマッピングしていたときにφと推定パラメータワットとtheshold B separatellyを?w⋅ϕ(x)+b=0w⋅ϕ(x)+b=0\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0ϕϕ\phiww\mathbf wbbb SVMを定義するためのいくつかの問題がある 秒。t 。Y N W ⋅ φ(X N)≥ 1 、∀ …
11 svm  threshold 

2
R randomForestsの分類のしきい値を変更するにはどうすればよいですか?
すべての種分布モデリングの文献では、確率を出力するモデル(RandomForestsなど)を使用して種の存在/不在を予測するときに、実際に種を存在または不在として分類するためのしきい値確率の選択が重要であり、常にデフォルトの0.5に依存するわけではありません。これについて少し助けが必要です!これが私のコードです: library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted RFpred <- predict(RFfit, …

5
異常検出の自動しきい値決定
私は時系列の異常スコアを操作しています(背景はコンピューターネットワークでの異常検出です)。毎分、異常なスコアが表示されます。これは、ネットワークの現在の状態が「予期しない」または異常な状態であることを示しています。スコアが高いほど、現在の状態が異常になります。5に近いスコアは理論的には可能ですが、ほとんど発生しません。バツt∈ [ 0 、5 ]バツt∈[0、5]x_t \in [0, 5] 次に、この異常時系列のしきい値を自動的に決定するアルゴリズムまたは式を考え出します。異常スコアがこのしきい値を超えるとすぐに、アラームがトリガーされます。 以下の頻度分布は、1日にわたる異常時系列の例です。ただし、すべての異常時系列がそのようになると想定するのは安全ではありません。この特別な例では、非常に右側の少数のスコアを異常と見なすことができるため、.99-分位数などの異常しきい値は理にかなっています。 そして、時系列と同じ頻度分布(時系列に高い異常スコアがないため、範囲は0から1のみです): 残念ながら、頻度分布は形状を持っている可能性があり、.99-分位数は役に立ちません。以下に例を示します。右尾は非常に低いため、.99-分位数をしきい値として使用すると、多くの誤検出が発生する可能性があります。この頻度分布には異常が含まれていないようなので、しきい値は分布の約0.25の外側にある必要があります。 要約すると、これらの2つの例の違いは、最初の例では異常が見られるように見え、2番目の例では異常が見られないことです。 私の素朴な観点から、アルゴリズムはこれらの2つのケースを考慮する必要があります: 頻度分布の右端が大きい場合(つまり、いくつかの異常スコア)、. 99-分位数は適切なしきい値になります。 頻度分布の右裾が非常に短い(つまり、異常スコアがない)場合、しきい値は分布の外側にあるはずです。 /編集:グラウンドトゥルースもありません。つまり、ラベル付きデータセットが利用可能です。したがって、アルゴリズムは異常スコアの性質に対して「ブラインド」です。 現在、これらの観察がアルゴリズムまたは式の観点からどのように表現されるかはわかりません。この問題を解決する方法を誰かが提案していますか?私の統計的背景は非常に限られているので、私の説明が十分であることを願っています。 ご協力いただきありがとうございます!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.