タグ付けされた質問 「uncertainty」

知識の欠如、特に関心のあるプロセスまたは母集団に関する定量的情報の欠如または不正確さに関する広範な概念。

4
不確実性のブートストラップ推定に関する仮定
不確かさの推定値を取得する際のブートストラップの有用性は高く評価されますが、それについて常に悩まされることの1つは、それらの推定値に対応する分布がサンプルで定義された分布であることです。一般に、サンプル周波数が基礎となる分布とまったく同じであると信じるのは悪い考えのように思えますが、サンプル周波数が基礎となる分布を定義する分布に基づいて不確実性の推定値を導き出すのはなぜ聞こえる/受け入れられるのでしょうか? 一方で、これは私たちが通常行う他の分布の仮定よりも悪いことはないかもしれませんが、正当性をもう少しよく理解したいと思います。

4
ディープラーニングモデルの場合、softmax出力が不確実性の指標として適切ではないのはなぜですか?
私は現在、主にセマンティックセグメンテーション/インスタンスセグメンテーションの画像データで、畳み込みニューラルネットワーク(CNN)を使用しています。ネットワーク出力のソフトマックスを「ヒートマップ」として頻繁に視覚化して、特定のクラスのピクセルごとのアクティベーションの高さを確認しました。低活性化は「不確実」/「自信がない」と解釈し、高活​​性化は「特定」/「自信がある」予測と解釈しました。基本的に、これは、softmax出力(内の値)をモデルの確率または(不)確実性尺度として解釈することを意味します。(0,1)(0,1)(0,1) (たとえば、ピクセル全体で平均された低いソフトマックスアクティベーションを持つオブジェクト/エリアは、CNNが検出するのが難しいと解釈したため、CNNはこの種のオブジェクトの予測について「不確か」です。) 私の認識では、これはよく機能し、トレーニング結果に「不確実な」領域のサンプルを追加すると、これらの結果が改善されました。しかし、ソフトマックスの出力を(不)確実性の尺度として使用/解釈するのは良い考えではなく、一般的にはお勧めできないと、さまざまな側面からよく耳にします。どうして? 編集:ここで私が尋ねていることを明確にするために、この質問に答える際のこれまでの洞察について詳しく説明します。しかし、同僚、監督者から繰り返し言われたように、なぜそれが一般的に悪い考えであるのか、以下の議論のどれも私に明らかにしませんでした。 分類モデルでは、パイプラインの最後に取得された確率ベクトル(softmax出力)は、モデルの信頼度として誤って解釈されることがよくあります。 またはここの「背景」セクションで: たたみ込みニューラルネットワークの最終ソフトマックスレイヤーによって与えられた値を信頼スコアとして解釈するのは魅力的かもしれませんが、これを読みすぎないように注意する必要があります。 上記の原因は、ソフトマックス出力を不確実性の尺度として使用するのが悪い理由です。 実画像に対する知覚できない摂動は、深いネットワークのソフトマックス出力を任意の値に変更する可能性があります これは、softmax出力が「知覚できない摂動」に対してロバストではないことを意味します。したがって、その出力は確率として使用できません。 別の論文では、「softmax output = Confidence」という考え方が取り上げられており、この直観ではネットワークは簡単にだまされる可能性があり、「認識できない画像に対する信頼性の高い出力」が得られると主張しています。 (...)特定のクラスに対応する(入力ドメイン内の)領域は、そのクラスのトレーニングサンプルが占めるその領域のスペースよりもはるかに大きい場合があります。この結果、画像はクラスに割り当てられた領域内にあるため、softmax出力の大きなピークで分類されますが、トレーニングセットのそのクラスで自然に発生する画像からは遠くなります。 これは、トレーニングデータから遠く離れたデータは、モデルが(それを見たことがないので)確信できないため、高い信頼を得ることはないことを意味します。 ただし、これは一般的に、NN全体の一般化特性を単純に疑問視しているのではありませんか?すなわち、ソフトマックス損失を伴うNNは、(1)「知覚できない摂動」または(2)認識できない画像などのトレーニングデータから遠く離れた入力データサンプルにうまく一般化しないということです。 この推論に続いて、私はまだ理解していません、なぜ実際にトレーニングデータ(すなわち、ほとんどの「実際の」アプリケーション)に対して抽象的および人為的に変更されていないデータで、ソフトマックス出力を「疑似確率」として解釈するのが悪いのか考え。結局のところ、彼らは私のモデルが正しいとは限らない場合でも、そのモデルが確信していることをよく表しているようです(この場合、モデルを修正する必要があります)。そして、モデルの不確実性は常に「単なる」近似ではありませんか?

1
共分散行列を変数の不確実性に変換できますか?
共分散行列介してノイズ測定値を出力するGPSユニットがありますΣΣ\Sigma。 Σ=⎡⎣⎢σxxσyxσxzσxyσyyσyzσxzσyzσzz⎤⎦⎥Σ=[σxxσxyσxzσyxσyyσyzσxzσyzσzz]\Sigma = \left[\begin{matrix} \sigma_{xx} & \sigma_{xy} & \sigma_{xz} \\ \sigma_{yx} & \sigma_{yy} & \sigma_{yz} \\ \sigma_{xz} & \sigma_{yz} & \sigma_{zz} \end{matrix}\right] (そこもだ関与が、聞かせてのは、第二のためにそれを無視します。)ttt 各方向()の精度が数値であることを誰かに伝えたいとします。μ X、μ Y、μ Z。言うことです。つまり、私のGPSは私の読書を与える可能性があり、X = ˉ X ± μ X、など私の理解では、つまりμこのケースでは、すべての測定量が互いに独立であることを意味し(すなわち、共分散行列が対角です)。さらに、ベクトル誤差を見つけることは、直交誤差(平方和の平方根)に誤差を追加するのと同じくらい簡単です。x,y,zx,y,zx,y,zμx,μy,μzμx,μy,μz\mu_x, \mu_y, \mu_zx=x¯±μxx=x¯±μxx=\bar{x}\pm\mu_xμμ\mu 共分散行列が対角でない場合はどうなりますか?yおよびz方向の効果を含む単純な数はありますか?与えられた共分散行列をどうやって見つけることができますか?μ∗xμx∗\mu_x^*yyyzzz

4
不確実性を組み込んだカーネル密度推定
1次元データを視覚化する場合、カーネル密度推定手法を使用して、不適切に選択されたビン幅を考慮するのが一般的です。 1次元データセットに測定の不確実性がある場合、この情報を組み込む標準的な方法はありますか? たとえば、KDEは観測のデルタ関数を使用してガウスプロファイルを畳み込みます。このガウスカーネルは各場所で共有されますが、ガウスパラメーターは測定の不確実性に合わせて変更できます。これを実行する標準的な方法はありますか?広いカーネルで不確実な値を反映したいと思っています。σσ\sigma 私はこれを単にPythonで実装しましたが、これを実行するための標準的なメソッドや関数を知りません。この手法に問題はありますか?奇妙な見た目のグラフが得られることに注意してください!例えば この場合、KDEは低い値(および不確実な値)に過剰な重みを付けますが、低い値はより大きな不確実性を持つため、広く平坦なカーネルを提供する傾向があります。

3
不確実性を伝えるのに最適な方法は?
統計計算の結果をメディアや一般に伝える上での大きな問題は、不確実性をどのように伝えるかです。確かに、ほとんどのマスメディアは、比較的少数の場合を除いて、数字には常にある程度の不確実性がありますが、ハードで速い数字を好むようです。 それでは、統計学者(または統計作業を説明する科学者)として、不確実性をタクトに保ち、聴衆にとって意味のあるものにしながら、結果を最もよく伝えるにはどうすればよいでしょうか? これは実際には統計問題ではなく、統計に関する心理学的問題ではないが、ほとんどの統計学者や科学者が懸念していることは確かだ。良い答えは、統計の教科書よりも心理学の研究に言及するかもしれないと想像しています... 編集:ユーザー568458の提案によると、ここでケーススタディが役に立つかもしれません。可能であれば、他の分野に一般的な回答を保管してください。 私が興味を持っている特定のケースは、良い例として役立ちます。マスメディアを介した気候学の政治家や一般市民へのコミュニケーションです。言い換えれば、科学者として、彼らが正確に国民にその情報を伝えるにはほとんど困難を有するようにジャーナリストに情報を伝えるためにあなたの仕事である- 、真実であること、必ずしも必要ではないが、全体の真実、その通常、一口に収まりません。 いくつかの特に一般的な例は、世紀の残りの期間の温暖化の程度の推定値の不確実性の通信、または特定の極端な気象イベントの可能性の増加です。 」と入力します。

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

3
データの不確実性に基づいて線形回帰勾配の不確実性を計算する
データの不確実性に基づいて線形回帰勾配の不確実性を計算する方法(おそらくExcel / Mathematicaで)? 例: データポイント(0,0)、(1,2)、(2,4)、(3,6)、(4,8)、...(8、16)がありますが、各y値には不確実性は4です。点が関数y = 2xと完全に一致するため、私が見つけたほとんどの関数は不確実性を0として計算します。ただし、図に示すように、y = x / 2は点にも一致します。これは誇張された例ですが、私が必要としているものを示していることを願っています。 編集:もう少し説明しようとすると、例のすべての点に特定の値のyがありますが、それが本当かどうかはわかりません。たとえば、最初のポイント(0,0)は、実際には(0,6)または(0、-6)またはその間の任意の値になります。これを考慮に入れる一般的な問題のいずれかにアルゴリズムがあるかどうかを尋ねています。この例では、点(0,6)、(1,6.5)、(2,7)、(3,7.5)、(4,8)、...(8、10)は依然として不確かさの範囲にあります。したがって、これらは正しい点である可能性があり、それらの点を結ぶ線は方程式y = x / 2 + 6を持ちますが、不確実性を考慮しないことから得られる方程式は方程式y = 2x + 0を持ちます。したがって、kの不確実性は1.5で、nは6です。 TL; DR:図には、最小二乗法を使用して計算されたy = 2xの線があり、データに完全に適合しています。私はy = kx + nのkとnがどれだけ変化するかを見つけようとしていますが、y値の不確実性がわかっている場合でもデータに適合します。私の例では、kの不確実性は1.5で、nは6です。画像には、「最適な」フィット線と、ポイントにほとんどフィットしない線があります。

3
フィットした曲線の信頼性は?
当てはめられた曲線の不確実性または信頼性を推定したいと思います。それが何であるかわからないので、私は探している正確な数学的量を意図的に挙げていません。 ここで、(エネルギー)は従属変数(応答)であり、(ボリューム)は独立変数です。ある物質のエネルギー-体積曲線を見つけたいのですが。そこで、量子化学のコンピュータープログラムを使用していくつかの計算を行い、いくつかのサンプルボリューム(プロットの緑の円)のエネルギーを取得しました。V E (V )EEEVVVE(V)E(V)E(V) 次に、これらのデータサンプルをBirch–Murnaghan関数で近似しました: これは4つのパラメータ:。また、これは正しいフィッティング関数であると想定しているため、すべてのエラーはサンプルのノイズに起因するだけです。以下では、フィットされた関数が関数として記述されます。E 0、V 0、B 0、B ' 0(E)VE(E| V)= E0+ 9 V0B016⎧⎩⎨[ (V0V)23− 1 ]3B』0+ [ (V0V)23− 1 ]2[ 6 − 4 (V0V)23] ⎫⎭⎬、E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, E0、V0,B0,B′0E0,V0,B0,B0′E_0, V_0, B_0, B_0'(E^)(E^)(\hat{E})VVV ここでは、結果を確認できます(最小二乗アルゴリズムに適合)。y軸の変数はで、x軸の変数はです。青い線はフィットで、緑の円はサンプルポイントです。VEEEVVV この近似曲線の信頼性の測定(ボリュームに応じて)が必要になりました。これは、遷移圧力やエンタルピーなどの追加の量を計算する必要があるためです。E^(V)E^(V)\hat{E}(V) 私の直感は、近似曲線が中央で最も信頼できることを教えてくれます。したがって、このスケッチのように、サンプルデータの終わり近くで不確実性(たとえば、不確実性の範囲)が増加するはずです。 しかし、私が探しているこのような測定値は何ですか?どのように計算できますか? 正確には、実際には1つのエラーソースしかありません。計算されたサンプルは、計算上の制限によりノイズが多くなります。したがって、データサンプルの密なセットを計算すると、それらはでこぼこの曲線を形成します。 望ましい不確実性の推定値を見つけるための私の考えは、学校で学習するときにパラメーターに基づいて次の「誤差」を計算することです(不確実性の伝播): ΔE0、ΔV0、ΔB0ΔB'0ΔE(V)=(∂E(V)∂E0ΔE0)2+(∂E(V)∂V0ΔV0)2+(∂E(V)∂B0ΔB0)2+(∂E(V)∂B′0ΔB′0)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ΔE(V)=(∂E(V)∂E0ΔE0)2+(∂E(V)∂V0ΔV0)2+(∂E(V)∂B0ΔB0)2+(∂E(V)∂B0′ΔB0′)2 \Delta …

1
各有権者の精度と関連する不確実性を使用する投票システム
たとえば、答えを知りたい単純な「はい/いいえ」の質問があるとします。そして、正解に「投票」するN人がいます。すべての有権者には履歴があります。1と0のリストで、過去にこの種の質問が正しかったか間違っていたかを示します。履歴を2項分布と仮定すると、そのような質問に対する有権者の平均パフォーマンス、その変動、CI、およびその他の種類の信頼性指標を見つけることができます。 基本的に、私の質問は、信頼情報を投票システムに組み込む方法ですか? たとえば、各有権者の平均パフォーマンスのみを考慮する場合、単純な重み付け投票システムを構築できます。 result=sign(∑v∈votersμv×(−1)1−vote)result=sign(∑v∈votersμv×(−1)1−vote)result = sign(\sum_{v \in voters}\mu_v \times (-1)^{1-vote}) つまり、投票者の重みに(「はい」の場合)または(「いいえ」の場合)を掛けた値を合計するだけです。それは理にかなっています:有権者1がに等しい正解の平均を持ち、有権者2がしか持っていない場合、おそらく、一人称投票がより重要であると考えられるべきです。一方、1人がこの種の質問に10個しか回答せず、2人が1000個の質問に回答した場合、2人目のスキルレベルは1人目よりもはるかに自信があります。1人目が幸運だった可能性があります。 、そして10の比較的成功した答えの後、彼はずっと悪い結果を続けます。+1+1+1−1−1-1.9.9.9.8.8.8 したがって、より正確な質問は次のように聞こえるかもしれません:いくつかのパラメーターについての強度と信頼性の両方を組み込んだ統計的メトリックはありますか?

4
不確実なクラスラベルの分類子
クラスラベルが関連付けられた一連のインスタンスがあるとします。これらのインスタンスがどのようにラベル付けされたかは関係ありませんが、それらのクラスメンバーシップがどの程度確実であるかは関係ありません。各インスタンスは正確に1つのクラスに属します。各クラスメンバーシップの確実性を、1から3(それぞれ非常に確実から不確実)の公称属性で定量化できるとしましょう。 そのような確実性の尺度を考慮に入れるある種の分類子はあり、もしそうなら、それはWEKAツールキットで利用可能ですか? この状況はかなり頻繁に発生すると思います。たとえば、インスタンスが常に完全に確実ではない人間によって分類されている場合です。私の場合、画像を分類する必要があり、画像が複数のクラスに属する場合があります。これが発生した場合、私はクラスに高い不確実性を与えますが、それでも1つのクラスのみでクラスを分類します。 または、特別な分類子なしで、この問題に対する他のアプローチはありますか?例えば、トレーニングのために「特定の」分類のみをとるのですか?この場合、「国境」のケースがカバーされないため、誤分類が増えるのではないかと心配です。

1
不確実性がどのように集計されるかを視覚化するのに役立つグラフィカルな方法は何ですか?
私は、不確実性がその中に蓄積する一連のシステムを持っています。これらは常に純粋に加算的であるとは限りません-時々それらは、時々彼らはそうではありません。私は、ファンチャート、信頼区間のある棒グラフ、および単一のアイテムを伝達するための箱ひげ図の使用にある程度成功しています。 しかし、不確実性がどのように蓄積および結合するかを示しながら、不確実性が存在するデータポイントも示すことができますか?

2
サンプリングなしの高次元推論問題における不確実性推定?
勾配ベースの最適化と遺伝的アルゴリズムの組み合わせを使用して対数事後のグローバル最大値を見つけることにより、MAP推定を確実に実行できる高次元推論問題(約2000モデルのパラメーター)に取り組んでいます。 MAP推定値を見つけることに加えて、モデルパラメーターの不確実性をある程度推定できるようになりたいです。 パラメータに関して対数事後の勾配を効率的に計算できるため、長期的にはハミルトニアンMCMCを使用してサンプリングを行うことを目指していますが、今のところ、非サンプリングベースの推定に興味があります。 私だけが知っているアプローチ我々は計算してもいるので、多変量正規として後方に近似するモードで、ヘッセ行列の逆行列を計算し、それでもこれは、このような大規模なシステムのために実現不可能と思われることです〜4 × 106∼4×106\sim 4\times10^{6}の要素をHessianその逆を見つけることができなかったと確信しています。 このような場合に一般的にどのようなアプローチが使用されているかを誰かが提案できますか? ありがとう! 編集 -問題に関する追加情報 背景 これは、大規模な物理学実験に関連する逆問題です。いくつかの物理フィールドを記述する2D三角形メッシュがあり、モデルパラメーターは、メッシュの各頂点におけるそれらのフィールドの物理値です。メッシュには約650個の頂点があり、3つのフィールドをモデル化するため、2000個のモデルパラメーターがそこから取得されます。 私たちの実験データは、これらのフィールドを直接測定しない機器からのものですが、フィールドの複雑な非線形関数である量です。さまざまな機器のそれぞれについて、モデルパラメータを実験データの予測にマップするフォワードモデルがあり、予測と測定の比較により対数尤度が得られます。 次に、これらすべての異なる計測器からの対数尤度を合計し、フィールドにいくつかの物理的制約を適用するいくつかの対数優先値を追加します。 したがって、この「モデル」がカテゴリにきちんと分類されるかどうかは疑問です。モデルを選択することはできません。実験データを収集する実際の機器がどのように機能するかによって決まります。 データセット データセットは500x500の画像で構成され、カメラごとに1つの画像があるため、合計データポイントは500x500x4 = 10610610^6です。 エラーモデル 問題のすべてのエラーを現時点でガウス分布と見なします。ある時点で、柔軟性を高めるためにスチューデントtエラーモデルに移行しようとするかもしれませんが、ガウシアンだけでも問題なく機能するようです。 可能性の例 これはプラズマ物理実験であり、私たちのデータの大部分は、レンズの前に特定のフィルターを備えたプラズマに向けられたカメラから得られ、光スペクトルの特定の部分のみを見ています。 データを再現するには、2つのステップがあります。最初に、メッシュ上のプラズマからの光をモデル化する必要があります。次に、その光をモデル化してカメラ画像に戻す必要があります。 残念ながら、プラズマからの光のモデル化は、実効レート係数とは何かに依存します。これは、フィールドが与えられたさまざまなプロセスによって放出される光の量を示します。これらのレートはいくつかの高価な数値モデルによって予測されるため、それらの出力をグリッドに保存し、値を検索するために補間する必要があります。レート関数データは一度だけ計算されます-データを保存してから、コードの起動時にそこからスプラインを作成し、そのスプラインをすべての関数評価に使用します。 仮定するR1R1R_1及びR2R2R_2(我々は補間によって評価する)速度関数、で次に排出されている私ii「番目頂点メッシュのE私Ei\mathcal{E}_iによって与えられ、 E私= R1(x私、y私)+ z私R2(x私、y私)Ei=R1(xi,yi)+ziR2(xi,yi) \mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i) ここで(x 、y、z)(x,y,z)(x,y,z)メッシュ上でモデル化する3つのフィールドです。放出のベクトルをカメラ画像に取得するのは簡単です。これは、各カメラピクセルがメッシュのどの部分を透視するかをエンコードする行列GG\mathbf{G}を乗算するだけです。 エラーはガウスであるため、この特定のカメラの対数尤度は L=−12(GE⃗ −d⃗ )⊤Σ−1(GE⃗ −d⃗ )L=−12(GE→−d→)⊤Σ−1(GE→−d→) \mathcal{L} = -\frac{1}{2} (\mathbf{G}\vec{\mathcal{E}} …

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ハイパーラインからの距離に応じたSVM信頼度
確率的マルチクラス分類器の場合、各クラスへの新しい点メンバーシップの確率を取得できます。3つのクラスの場合、得られると仮定します。したがって、の最も可能性の高いクラスはです。今、私たちはの会員のスコアを取得することができ、マルチクラスSVMがあるとし(hyperlinesからの距離に応じて)各クラスにします。3クラスの場合には、我々が入手したとする、どのようにこの場合の最も可能性の高い2番目、3番目、最初のクラスである(これらを変換せずに確率から得点)?通常私は例えばのように正と負の値を取得しますy i P (y a | x )> P (y b | x )> P (y c | x )y a x S c o r e (y a | x )、S c o r e (y b | x )、S c o r e (y cバツxxy私yiy_iP(ya| x)>P(yb| x)>P(yc| x)P(ya|x)>P(yb|x)>P(yc|x)P(y_a|x) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.