タグ付けされた質問 「mode」

モードは、データ内で最も頻繁に発生する値であり、カテゴリカルデータの中心傾向の尺度として使用できます。


4
mean = modeは対称分布を意味しますか?
mean = medianの場合にこの質問が行われたことは知っていますが、mean = modeに関連するものは見つかりませんでした。 モードが平均に等しい場合、これは常に対称分布であると結論付けることができますか?この方法の中央値も知る必要がありますか?

4
期待値と最も可能性の高い値(モード)
分布の期待値はf(x)f(x)f(x)平均、つまり加重平均値 E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx 最も可能性の高い値はモードであり、最も可能性の高い値です。 しかし、何回かを何度も見ると予想しますか?ここから引用:E[x]E[x]E[x] 結果確率が等しくない場合、単純平均を加重平均に置き換える必要があります。これは、一部の結果が他の結果よりも高い可能性があるという事実を考慮に入れています。ただし、直観は同じままですの期待値は、平均して発生すると予想される値です。xixix_ixxx。 「平均して」とはどういう意味か理解できませんが、これは、重要な意味で、他のの値よりもを見るのに多くの時間を費やすことを意味しますE[x]E[x]E[x]xxxますか?しかし、これはモードの定義ではありませんか? それでは、ステートメントをどのように解釈するのでしょうか?そして、確率的意味は何ですか?E[x]E[x]E[x] また、私が混乱する例を示したいと思います。研究χ2χ2\chi^2分布私はそれを学んだモードが あるχ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2、つつ、E[χ2]=νE[χ2]=νE[\chi^2]=\nu、νν\nuデータの自由度です。 私がやったときに、ことを大学で聞いたχ2χ2\chi^2のデータセットにフィットするように最小二乗法を使用した後にテストを、私は得ることを期待すべきであるχ2≈νχ2≈ν\chi^2 \approx \nu「それは一般的に何が起こるかだ」ので。 私はこのすべてを誤解しましたか、それとも期待値はどういうわけか非常にありそうですか?(最も可能性の高い値がもちろんモードであっても)


3
多変量モードの計算効率の高い推定
ショートバージョン:連続分布からサンプリングされた多次元データセットのモードを推定する最も計算効率の良い方法は何ですか? 長いバージョン:モードを推定する必要があるデータセットがあります。モードは平均値または中央値と一致しません。サンプルを以下に示します。これは2Dの例ですが、NDソリューションの方が適しています。 現在、私の方法は モードの望ましい解像度に等しいグリッドでカーネル密度推定を計算します 計算された最大の点を探す 明らかに、これは多くの妥当ではないポイントでKDEを計算します。これは、高次元のデータポイントが多数ある場合、またはモードで良好な解像度が期待できる場合は特に悪いことです。 別の方法として、シミュレーテッドアニーリング、遺伝的アルゴリズムなどを使用して、KDEのグローバルピークを見つけることができます。 問題は、この計算を実行するよりスマートな方法があるかどうかです。

4
すべての既知の分布が単一モードであるのはなぜですか?
マルチモーダル分布は知りません。 すべての既知の分布が単一モードであるのはなぜですか?複数のモードを持つ「有名な」ディストリビューションはありますか? もちろん、分布の混合はしばしばマルチモーダルですが、複数のモードを持つ「非混合」分布が存在するかどうかを知りたいです。

2
MCMCサンプルからのモードの信頼性
彼の著書Doing Bayesian Data Analysisで、John KruschkeはRのJAGSを使用する際に次のように述べています。 ... MCMCサンプルからのモードの推定は、MCMCサンプルのランダムなバンプとリップルに敏感な平滑化アルゴリズムに基づいているため、かなり不安定になる可能性があります。(ベイジアンデータ分析の実行、ページ205、セクション8.2.5.1) メトロポリスアルゴリズムとギブスサンプリングのような正確な形式を把握していますが、スムージングアルゴリズムについてもよく知らないので、MCMCサンプルからのモードの推定が不安定になることを意味します。誰もが平滑化アルゴリズムが何をしていて、なぜモードの推定が不安定になるのかについて直感的な洞察を与えることができますか?
12 bayesian  mcmc  mode 

3
連続分布からサンプリングされたデータのモードの計算
連続分布からサンプリングされたデータの「モード」を適合させる最良の方法は何ですか? モードは技術的には未定義(右?)であるため、連続分布では「最も一般的な値をどのようにして見つけるのか」と本当に質問しています。 親分布がガウス分布であると仮定した場合、データをビンに分類すると、モードが最大カウントのビン位置であるとわかります。しかし、ビンのサイズはどのように決定しますか?堅牢な実装はありますか?(つまり、外れ値に対して堅牢)。私はpython/ scipy/ を使用しますnumpyが、おそらくRそれほど難なく翻訳できます。

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

1
モードの信頼区間を計算していますか?
モード(一般的に)の信頼区間の計算に関するリファレンスを探しています。ブートストラップは自然な最初の選択のように思えるかもしれませんが、Romano(1988)によって説明されているように、標準のブートストラップはモードに対して失敗し、単純なソリューションを提供しません。このペーパー以降、何か変更はありましたか?モードの信頼区間を計算する最良の方法は何ですか?ブートストラップベースの最良のアプローチは何ですか?関連する参照を提供できますか? ロマーノ、JP(1988)。モードのブートストラップ。Institute of Statistical Mathematics、40(3)、565-586。

3
中央値が外側にある反例[モード平均]
この記事は私のリーグを超えていますが、私が興味を持っているトピック、平均値、最頻値、中央値の関係について述べています。それは言う: 単峰分布の中央値は「通常」、平均と最頻値の間であると広く信じられています。ただし、これは常に正しいとは限りません... 私の質問:中央値が[モード、平均]間隔の外にある連続単峰(理想的には単純)分布の例を誰かが提供できますか?たとえば、のようなディストリビューションmode < mean < median。 ===編集======= Glen_bとFrancisによる良い回答は既にありますが、私が本当に興味を持っているのは、モード<平均<中央値または中央値<平均<モード(つまり、両方の中央値が[mode、mean]の外側であり、中央値がモードの意味としての「同じ側」(つまり、モードの上下両方))。ここで答えを受け入れることができます。新しい質問が開かれますか、または誰かがここで解決策を直接提案できますか?
11 mean  median  mode 

5
レイマンの言葉での平均、中央値、モードの説明
数値リストの平均値、中央値、最頻値の概念を説明し、基本的な算術スキルしか持たない人にとってなぜそれらが重要であるのか。歪度、CLT、中心傾向、それらの統計的性質などは言及しないでください。 私は誰かに、数のリストを「要約」するための迅速で汚い方法であることを説明しました。しかし、振り返ってみると、これはほとんどわかりません。 考えや実世界の例はありますか?

4
10D MCMCチェーンがある場合、Rでその事後モードをどのように決定できますか?
質問: 10次​​元のMCMCチェーンを使用して、ドローのマトリックスを渡す準備ができているとしましょう。特に複数のモードに関心があります。 バックグラウンド:私自身は計算に精通している統計学者だと思いますが、同僚がこの質問をしたとき、私は合理的な答えを出すことができなかったことを恥ずかしく思いました。主な懸念事項は、複数のモードが表示される可能性があることですが、10次元のうち少なくとも8次元程度が考慮される場合に限られます。私の最初の考えは、カーネル密度推定を使用することでしたが、Rを検索しても、3次元を超える問題については何も約束されませんでした。同僚は10次元のアドホックビニング戦略を提案し、最大値を検索しましたが、帯域幅が重大なスパース性の問題を引き起こすか、複数のモードを識別するための解像度が不足する可能性があるのではないかと心配しています。とは言っても、自動化された帯域幅の提案、10カーネル密度推定器へのリンクなど、知っていることなら何でも喜んで受け入れます。 懸念事項: ディストリビューションはかなり歪んでいると思われます。したがって、事後平均ではなく事後モードを識別したいとします。 いくつかの事後モードが存在する可能性があることを懸念しています。 可能であれば、Rベースの提案をお勧めします。しかし、実装するのが信じられないほど難しくない限り、どのようなアルゴリズムでも機能します。最初から自動化された帯域幅選択を備えたNdカーネル密度推定器を実装したくないと思います。

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

3
GLMがモードではなく平均を予測するのはなぜですか?
GLMが信号のモードではなく平均を予測するのはなぜですか?これは、GLMの背後にある基本、つまり最尤法と矛盾していませんか?GLMのモデルパラメーターを解くための方程式は、モデル化された信号の確率分布によって記述される尤度の最大化に基づいています。この確率分布は、平均ではなくモードの最大値です(正規分布は例外です:モードと平均の両方が同じです)。したがって、GLMは信号の平均ではなくモードを予測する必要があります。(この質問の背景については、こちらを参照してください。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.