タグ付けされた質問 「loss-functions」

モデルに従って観測データと予測値の差を定量化するために使用される関数。損失関数の最小化は、モデルのパラメーターを推定する方法です。

1
Deep Q-Learning損失関数を正確に計算するにはどうすればよいですか?
Deep Q-Learning Networkの損失関数がどの程度正確にトレーニングされているのか疑問です。私は、線形出力層とRelu非表示層のある2層フィードフォワードネットワークを使用しています。 4つのアクションがあるとします。したがって、現在の状態に対する私のネットワークの出力はです。より具体的にするために、と仮定しましょうststs_tQ(st)∈R4Q(st)∈R4Q(s_t) \in \mathbb{R}^4Q(st)=[1.3,0.4,4.3,1.5]Q(st)=[1.3,0.4,4.3,1.5]Q(s_t) = [1.3, 0.4, 4.3, 1.5] 次に、値対応するアクション、つまり3番目のアクションを実行し、新しい状態到達します。at=2at=2a_t = 24.34.34.3st + 1st+1s_{t+1} 次に、状態フォワードパスを計算し、出力レイヤー次の値を取得するとします。また、報酬ととしましょう。st + 1st+1s_{t+1}Q (st + 1)= [ 9.1 、2.4 、0.1 、0.3 ]Q(st+1)=[9.1,2.4,0.1,0.3]Q(s_{t+1}) = [9.1, 2.4, 0.1, 0.3]rt= 2rt=2r_t = 2γ= 1.0γ=1.0\gamma = 1.0 損失は​​以下によって与えられます: L =(11.1−4.3)2L=(11.1−4.3)2\mathcal{L} = (11.1- 4.3)^2 または L = 14Σ3i = …

1
ソフトラベルでクロスエントロピー損失関数を使用しても問題ありませんか?
ピクセルにハード0,1ラベルではなくソフトラベル(確率を示す)でラベル付けされる分類の問題があります。以前、ハード0,1ピクセルのクロスエントロピー損失関数(CaffeのsigmoidCross entropyLossLayer)にラベルを付けると、まともな結果が得られました。このソフト分類問題にシグモイドクロスエントロピー損失層(Caffeから)を使用しても大丈夫ですか?

4
ニューラルネットワークを回帰用にトレーニングすると、常に平均が予測されます
私は回帰のための単純な畳み込みニューラルネットワークをトレーニングしています。ここでのタスクは、画像内のボックスの(x、y)位置を予測することです。例: ネットワークの出力には、x用とy用の2つのノードがあります。ネットワークの残りの部分は、標準の畳み込みニューラルネットワークです。損失は​​、ボックスの予測位置とグラウンドトゥルースの位置との間の標準的な平均二乗誤差です。私はこれらの画像の10000でトレーニングをしており、2000で検証しています。 私が抱えている問題は、重要なトレーニングを行った後でも、損失が実際には減少しないことです。ネットワークの出力を観察すると、両方の出力ノードで、ネットワークがゼロに近い値を出力する傾向があることに気付きました。そのため、ボックスの位置の予測は常に画像の中心になります。予測には多少のずれがありますが、常にほぼゼロです。以下は損失を示しています: このグラフに示されているよりも多くのエポックでこれを実行しましたが、損失はまだ減少していません。ここで興味深いことに、実際にはある時点で損失が増加しています。 したがって、ネットワークは、適切な適合を学習するのではなく、トレーニングデータの平均を予測しているだけのようです。なぜこれがそうなのかについてのアイデアはありますか?Adamをオプティマイザとして使用しています。初期学習率は0.01で、relusをアクティベーションとして使用しています。 私のコード(Keras)の一部に興味がある場合は、以下に示します。 # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, image_height))) model.add(Convolution2D(64, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Convolution2D(128, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Flatten()) model.add(Dense(100, activation='relu')) model.add(Dense(2, activation='linear')) # Compile the model adam = Adam(lr=0.01, beta_1=0.9, …


1
ログロスの直感的な説明
いくつかのkaggleコンテストでは、採点は「ログロス」に基づいていました。これは分類エラーに関連しています。 ここに技術的な答えがありますが、私は直感的な答えを探しています。私はマハラノビス距離に関するこの質問への回答が本当に好きでしたが、PCAは対数損失ではありません。 私の分類ソフトウェアが提供する値を使用することはできますが、私はそれを本当に理解していません。真/偽陽性/陰性率の代わりになぜそれを使用するのですか?これを私の祖母や現場の初心者に説明できるように手伝ってくれませんか。 私も引用を気に入って同意します: 祖母に説明できない限り、あなたは本当に何かを理解していません -アルバート・アインシュタイン ここに投稿する前に、自分でこれに答えてみました。 私が直感的または本当に役に立たなかったリンクは次のとおりです。 http://www.r-bloggers.com/making-sense-of-logarithmic-loss/ https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/ https://www.kaggle.com/wiki/LogarithmicLoss これらは有益で正確です。これらは技術的な読者を対象としています。彼らは簡単な絵を描いたり、簡単でアクセス可能な例を与えたりしません。彼らは私の祖母のために書かれていません。

2
ベイズ推定量の比較
二次損失以前に与えられたで、です。ましょう 尤度。ベイズ推定器を見つけます。L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi 加重二次損失 ここで、 前に ます。ましょう可能性です。ベイズ推定器を見つけます。Lw(θ,δ)=w(θ)(θ−δ)2Lw(θ,δ)=w(θ)(θ−δ)2L_w(\theta,\delta)=w(\theta)(\theta-\delta)^2w(θ)=I(−∞,1/2)w(θ)=I(−∞,1/2)w(\theta)=\mathbb{I}_{(-\infty,1/2)}π1(θ)=I[0,1](θ)π1(θ)=I[0,1](θ)\pi_1(\theta)=\mathbb{I}_{[0,1]}(\theta)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπ1δ1π\delta^\pi_1 と比較するδπδπ\delta^\piδπ1δ1π\delta^\pi_1 最初に、に気づき、それが可能性であると想定しました。そうでない場合、事後は得られず、 したがって、2次損失に関するベイズ推定量は f(x|θ)∼Beta(θ,1)f(x|θ)∼Beta(θ,1)f(x|\theta)\sim Beta(\theta,1)π(θ|x)∝f(x|θ)π(θ)=θxθ−1I[0,1]∗2I(0,1/2)(θ)∼Beta(θ,1)π(θ|x)∝f(x|θ)π(θ)=θxθ−1I[0,1]∗2I(0,1/2)(θ)∼Beta(θ,1)\pi(\theta|x)\propto f(x|\theta)\pi(\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}*2\mathbb{I}_{(0,1/2)}(\theta)\sim Beta(\theta,1)E[π(θ|x)]=θθ+1E[π(θ|x)]=θθ+1\mathbb{E}[\pi(\theta|x)]=\frac{\theta}{\theta+1} 私は本「ベイジアンチョイス」を探しています。加重2次損失に関連するベイズ推定量に関する定理があり、それは δπ(x)=Eπ[w(θ)θ|x]Eπ[w(θ)|x]δπ(x)=Eπ[w(θ)θ|x]Eπ[w(θ)|x]\delta^\pi(x)=\frac{\mathbb{E}^\pi[w(\theta)\theta|x]}{\mathbb{E}^\pi[w(\theta)|x]} 誰かが私にそれを計算する方法を説明できますか? 私が試したのは: δπ(x)=∫θw(θ)f(x|θ)π(θ)dθ∫w(θ)f(x|θ)π(θ)dθ∫f(x|θ)π(θ)dθ∫w(θ)f(xθ)π(θ)dθδπ(x)=∫θw(θ)f(x|θ)π(θ)dθ∫w(θ)f(x|θ)π(θ)dθ∫f(x|θ)π(θ)dθ∫w(θ)f(xθ)π(θ)dθ\delta^\pi(x)=\frac{\frac{\int \theta w(\theta)f(x|\theta)\pi(\theta)d\theta}{\int w(\theta)f(x|\theta)\pi(\theta)d\theta}}{\frac{\int f(x|\theta)\pi(\theta)d\theta}{\int w(\theta)f(x\theta)\pi(\theta)d\theta}} サポートがであることは知っていますが、分子に統合しようとしたとき[0,12][0,12][0,\frac{1}{2}] ∫θw(θ)f(x|θ)π(θ)dθ=∫120θθxθ−1dθ=1x∫120θ2xθdθ∫θw(θ)f(x|θ)π(θ)dθ=∫012θθxθ−1dθ=1x∫012θ2xθdθ\int \theta w(\theta)f(x|\theta)\pi(\theta)d\theta=\int_0^\frac{1}{2}\theta\theta x^{\theta-1}d\theta=\frac{1}{x}\int_0^\frac{1}{2}\theta^2 x^\theta d\theta 良い結果は得られません。

1
L2が事後損失を計算するための優れた損失関数である場合の例は何ですか?
L2損失は、L0およびL1損失とともに、事後を最小事後予測損失で要約するときに使用される非常に一般的な「デフォルト」損失関数の3つです。この理由の1つは、それらが比較的簡単に計算できることです(少なくとも1d分布の場合)。L0は最頻値、L1は中央値、L2は平均値になります。教えるとき、L0とL1が合理的な損失関数である(そして単に「デフォルト」ではない)シナリオを思い付くことができますが、L2が合理的な損失関数であるシナリオに苦労しています。だから私の質問: 教育目的で、L2が最小事後損失を計算するための優れた損失関数である場合の例は何でしょうか? L0の場合、賭けのシナリオを思いつくのは簡単です。今度のサッカーゲームのゴールの合計数に対して事後を計算し、ゴールの数を正しく推測し、それ以外の場合は負けた場合、$$$に勝つ賭けをするとします。その場合、L0は妥当な損失関数です。 私のL1の例は少し不自然です。あなたは多くの空港の1つに到着し、それから車であなたのところへ行く友人に会っています。問題はあなたがどの空港か分からないことです(そして彼女は空中にいるのであなたの友人に電話をかけることができません)。彼女が着陸する可能性のある空港の後方を考えると、彼女が到着したときに彼女とあなたの間の距離が短くなるように自分を配置するのに適した場所はどこですか?ここで、予想されるL1損失を最小化するポイントは、彼女の車が一定の速度であなたの場所に直接移動するという単純な仮定をすると、合理的に思えます。つまり、1時間の待機時間は、30分の待機時間の2倍です。

1
OLSと非OLS回帰の間の残差の比較
線形モデルを推定したいとします:(応答の観測値と予測子) P + 1つのE(Y I)= β 0 + P Σ J = 1 β J X I Jnnnp+1p+1p+1E(yi)=β0+∑j=1pβjxijE(yi)=β0+∑j=1pβjxij\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij} これを行う1つの方法は、OLSソリューションを使用することです。つまり、二乗誤差の合計が最小になるように係数を選択します。 (β0,β1,⋯,βp)T=argminβ0,β1,⋯,βp∑i=1n(yi−β0−∑j=1pβjxij)2(β0,β1,⋯,βp)T=arg⁡minβ0,β1,⋯,βp∑i=1n(yi−β0−∑j=1pβjxij)2(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2 または、絶対偏差の合計など、別の損失関数を使用して、次のようにすることもできます。 (β0、β1、⋯ 、βp)T= arg分β0、β1、⋯ 、βpΣi = 1ん||||y私- β0− ∑j = 1pβjバツ私はj||||(β0,β1,⋯,βp)T=arg⁡minβ0,β1,⋯,βp∑i=1n|yi−β0−∑j=1pβjxij|(\beta_0,\beta_1,\cdots,\beta_p)^T …

2
one-vs-all分類器によるヒンジ損失
私は現在、1対すべての分類器の制約のない主形式を調べています ∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) どこ はインスタンスの数、 N Kはクラスの数、 N Fは特徴の数、 Xは N K × N Fのデータ行列、 yはクラスラベルのベクトル、 Wは N K × N 1つのクラスを残りのクラスから分割する超平面の重みにそれぞれが対応する行列 I、 Lは任意の損失関数です。NININ_I NKNKN_K NFNFN_F XXXNK×NFNK×NFN_K \times N_F yyy WWWNK×NINK×NIN_K \times N_I LLL 私の理解では、上記の汎関数は、関連するクラス内のサンプルと他のすべてのサンプルとの間の距離を最大化する各クラスの超平面を見つけようとします。超平面が正しく、その後に配置されている場合は常に、負でなければなりませんwがyの私 ⋅ X 私は常に正でなければなりませんし、私たちの損失関数がかなり低く戻ってくるはずです。wk⋅xiwk⋅xi\mathbf{w_k}\cdot\mathbf{x_i}wyi⋅xiwyi⋅xi\mathbf{w_{y_i}}\cdot\mathbf{x_i} 私はこの場合、結局はヒンジ損失を使用してこれを実装しようとしています max(0,1+wk⋅xi−wyi⋅ximax(0,1+wk⋅xi−wyi⋅xi\max(0,1+\mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i} ただし、上記では、超平面がすべてのサンプルをすべてのクラスに属するものとして分類する状況に陥ることはありませんでした。たとえば、1という条件で、クラス1を他のすべてのクラスから分離する超平面を見ている場合その場合、が誤ったクラスとして分類されていても、発生した損失は0になります。1+wk⋅xi&lt;wyi⋅xi1+wk⋅xi&lt;wyi⋅xi1+\mathbf{w_k}\cdot\mathbf{x_i}<\mathbf{w_{y_i}}\cdot\mathbf{x_i}xixi\mathbf{x_i} どこが間違っているのですか?または、がより高いスコアで終わるという条件で、が負であるか正であるかは関係ありませんか?ここで説明したヒンジ機能の使用は正しくないと感じていますが、今日のGoogleの使用は混乱を招いているだけです。wk⋅xiwk⋅xi\mathbf{w_k}\cdot\mathbf{x_i}wyi⋅xiwyi⋅xi\mathbf{w_{y_i}}\cdot\mathbf{x_i} 関連するメモで、上記の機能に1があるのはなぜですか?影響は少ないと思います。

1
SVMコスト関数:新旧の定義
ソフトマージンSVMコスト/損失関数のさまざまな定義を主形式で調整しようとしています。理解できない「max()」演算子があります。 SVMについては、Tan、Steinbach、およびKumarによる2006年の学部レベルの教科書「Introduction to Data Mining」で2006年に学びました。第5章のp。267-268。max()演算子については言及されていないことに注意してください。 これは、最適化問題の制約に正の値のスラック変数()を導入することで実行できます。...修正された目的関数は次の方程式で与えられます。ξξ\xi f(w)=∥w∥22+C(∑Ni=1ξ)kf(w)=‖w‖22+C(∑i=1Nξ)k f(\mathbf{w}) = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k ここで、CCCとkkkはユーザー指定のパラメーターであり、トレーニングインスタンスの誤分類のペナルティを表します。このセクションの残りの部分では、問題を簡単にするためにkkk = 1 と仮定します。パラメータCCCは、検証セットでのモデルのパフォーマンスに基づいて選択できます。 したがって、この制約付き最適化問題のラグランジアンは次のように書くことができます。 Lp=∥w∥22+C(∑Ni=1ξ)k−∑Ni=1λi(yi(w⋅xi+b)−1+ξi)−∑Ni=1μiξiLp=‖w‖22+C(∑i=1Nξ)k−∑i=1Nλi(yi(w⋅xi+b)−1+ξi)−∑i=1Nμiξi L_{p} = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k - \sum_{i=1}^{N} \lambda_i (y_i (\mathbf{w} \cdot \mathbf{x_i} + b) - 1 + \xi_i) - \sum_{i=1}^{N} \mu_i \xi_i …

1
回帰問題におけるピアソンの相関の代理としてのMSE
TL; DR(長すぎて読まなかった): 私は時系列予測問題に取り組んでいます。これは、ディープラーニング(ケラ)を使用して回帰問題として定式化します。私の予測と真のラベル間のピアソン相関を最適化したいと思います。MSEをプロキシとして使用すると、実際にはピアソンを損失関数として直接使用するよりも(相関の観点から)より良い結果が得られるという事実に戸惑っています。ディープラーニングの損失関数として相関メトリックを使用することは悪い習慣と考えられていますか?もしそうなら、なぜですか? 長いバージョン: 私には時系列予測タスクがあります連続するタイムステップの値を観察し、タイムステップ値を予測する必要があります。通常、値はであるため、これを回帰問題として扱い、ディープラーニング(keras)を使用して解決しています。T + 1 [ - 200 、200 ]TTTT+ 1T+1T+1[ - 200 、200 ][−200,200][-200,200] 私の質問は、損失と測定基準の選択に関するものです。 私のデータの真のラベルは、主に前後にあり、いくつかの極端な値があります。極端な値の多くは誤りであり、それらを正しくすることに集中するように学習をシフトしたくありません。言い換えれば、一般的な傾向を把握できるようになり(正の値と負の値の期間を正しく分類)、たとえば、200ではなく100を予測して「共存」できます。[ - 10 、10 ][−10,10][-10,10] このため、私の評価指標は、予測値と真の値の間のピアソン相関であるべきだと思います。 さて、損失関数について:理想的には、高いピアソン相関を最適化したい場合、それを損失関数として使用することは理にかなっているでしょう?私は「ベースラインモデル」であるシンプルなアーキテクチャを2回テストしました。1回はピアソン(ミニバッチで計算)を直接損失関数として使用し、もう1回は一般的なMSEをプロキシとして使用しました。どちらの場合も、MSEとピアソンの両方を異なるエポックについて追跡し、検証セットに基づいて「早期停止」を行います。 私の結果: 損失としてのMSE:MSE 160、ピアソン0.7 損失としてのピアソン:MSE 250、ピアソン0.6 ピアソン損失のより高いMSEは、相関の最適化にはスケールがないという事実の結果であると理解しています。そのため、すべての予測は、MSEを増加させる方法で要因によって「オフ」になる可能性があります。しかし、MSEをプロキシとして使用すると、ピアソン相関自体の点で実際にどのように改善されるのでしょうか。ピアソン相関を損失関数として使用してはならない理由について、最適化に関連する理由はありますか?実際、ほとんど使われていないようですが、その理由を知りたいと思います。

1
問題固有の損失関数の作成
問題の説明 単純なMSE回帰よりもはるかに洞察に富んだ損失関数が存在する可能性があると感じている問題について、ネットワーク構築を開始しています。 私の問題は、マルチカテゴリ分類を扱います(これについて私が何を意味するかについては、SOに関する私の質問を参照してください)。ここで、考慮すべきカテゴリ間の距離または関係が定義されています。 もう1つのポイントは、存在する発砲カテゴリーの数によってエラーが影響を受けることはないということです。つまり、0.1ずつずれた5つの発砲カテゴリのエラーは、0.1ずつずれた1つの発砲カテゴリと同じになります。(発砲とは、それらがゼロ以外、またはあるしきい値を超えていることを意味します) キーポイント マルチカテゴリー分類(一度に複数発火) カテゴリー間の関係 発砲カテゴリーの数は損失に影響しないはずです: 私の試み 平均二乗誤差は、開始するのに適しているようです: これは、カテゴリーごとに考慮しているだけです。これは、私の問題では依然として価値がありますが、全体像の大部分を見逃しています。 これが、カテゴリー間の距離の考えを修正するための私の試みです。次に、発火するカテゴリの数を考慮します(これを v と呼びます)。 私の質問 私は統計学の背景が非常に弱いです。その結果、このような問題を解決するためのツールはベルトにあまりありません。私が求めていることの包括的なトピックは、「コスト関数を形成するとき、どのようにしてコストの複数の測定値を組み合わせるのですか?それとも、どのような手法を適用できるのですか?」。また、私の思考プロセスに欠陥があった場合は、それを公開して改善していただければ幸いです。 説明せずに誰かが単独で修正するのではなく、なぜ私の間違いが間違いなのかを教えられることを大切にしています。 この質問の一部が明確でないか、改善できる場合は、お知らせください。

1
適切なスコアリングルールを使用して、ロジスティック回帰からクラスメンバーシップを決定する
ロジスティック回帰を使用して、イベントが発生する可能性を予測しています。最終的に、これらの確率は実稼働環境に入れられ、「はい」の予測に到達することにできるだけ焦点を当てます。したがって、この決定を通知するために使用する他の方法に加えて、どの「決定的」ヒットまたは「非ヒット」がアプリオリ(本番稼働前)であるかを知ることは有用です。 私の質問は、予測された確率に基づいて決定的なクラス(1,0)を予測する適切な方法は何ですか?具体的にglmnetは、モデリングにRのパッケージを使用しています。このパッケージは、はいまたはいいえのしきい値として0.5確率を任意に選択します。決定的なクラスに外挿するには、予測確率に基づいて適切なスコアリングルールの結果を取得する必要があると思います。私のモデリングプロセスの例を以下に示します。 mods &lt;- c('glmnet', 'scoring') lapply(mods, require, character.only = T) # run cross-validated LASSO regression fit &lt;- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', type.measure = 'auc') # generate predicted probabilities across new data df2$prob &lt;- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min') …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
密度予測は、損失関数が指定されている場合に、ポイント予測を超える価値を追加しますか?
密度予測は、ポイント予測よりも普遍的です。それらは、確率変数の具体的な関数(予測平均、中央値、変位値など)ではなく、確率変数の予測分布全体に関する情報を提供します。密度予測を利用できるため、さまざまなユーザーが関心のある関連要素(ポイント予測)を選択できます。一部のユーザーは、予測の評価に使用される損失関数(およびユーザーごとに異なる可能性があります)に応じて、予測平均に焦点を当てたり、予測中央値に焦点を合わせたりします。密度予測には確率関数に関するすべての確率的情報が含まれているため、密度予測があれば、損失関数に関係なくすべてのユーザーのニーズが満たされます。 ただし、具体的なユーザーを念頭に置いて、その損失関数を知っている場合、 密度予測は、損失関数に合わせたポイント予測に対して付加価値を提供しますか? 答えが一般的にいいえである場合、それをはいにするための条件は何ですか? PS @hejsebは、損失関数に合わせたポイント予測と十分な統計との間に興味深い類似点を描きます。おそらくこれは答えを刺激することができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.