タグ付けされた質問 「mean」

確率変数の期待値。または、サンプルの位置メジャー。

2
ロジスティック回帰の過剰分散
私はロジスティック回帰における過剰分散の概念を理解しようとしています。過剰分散とは、応答変数の観測された分散が二項分布から予想されるよりも大きい場合のことです。 しかし、二項変数が2つの値(1/0)しか持てない場合、どのようにして平均と分散を持つことができますか? x回のベルヌーイ試行から成功の平均と分散を計算することに問題はありません。しかし、2つの値しか持てない変数の平均と分散の概念に頭を抱えることはできません。 誰でも直感的な概要を提供できますか? 2つの値しか持てない変数の平均と分散の概念 2つの値しか持てない変数での過剰分散の概念



3
不確実性のあるいくつかの測定の標準偏差
サンプリングレートが1 Hzの2時間のGPSデータが2つあります(7200測定)。データはの形式で与えられます。ここで、は測定の不確かさです。(X,Xσ,Y,Yσ,Z,Zσ)(バツ、バツσ、Y、Yσ、Z、Zσ)(X, X_\sigma, Y, Y_\sigma, Z, Z_\sigma)NσNσN_\sigma すべての測定値の平均(たとえば、これら2時間の平均Z値)をとると、その標準偏差はどうなりますか?もちろん、Z値から標準偏差を計算できますが、既知の測定の不確実性があるという事実を無視します... 編集:データはすべて同じステーションからのものであり、すべての座標は毎秒再測定されます。衛星の星座などにより、すべての測定値には異なる不確実性があります。私の分析の目的は、外部イベント(すなわち、地震)による変位を見つけることです。地震前の7200回の測定(2時間)と地震後2時間の平均をとり、その結果の差(高さなど)を計算します。この差の標準偏差を指定するには、2つの平均の標準偏差を知る必要があります。

2
与えられた平均と標準偏差の正の連続変数の最大エントロピー確率密度関数とは何ですか?
一次モーメントと二次モーメントが与えられた場合、正の連続変数の最大エントロピー分布は何ですか? たとえば、ガウス分布は、その平均値と標準偏差が与えられた場合の無制限変数の最大エントロピー分布であり、ガンマ分布は、その平均値とその対数の平均値が与えられた場合の正変数の最大エントロピー分布です。

4
ヒストグラムに平均をプロットするのは適切ですか?
平均値を視覚化するためにヒストグラムに垂直線を追加することは「大丈夫」ですか? 私には大丈夫のようですが、教科書などでこれを見たことがないので、そうしない慣習があるのではないかと思っています。 グラフは学期論文用であり、非常に重要な暗黙の統計ルールを誤って破らないようにしたいだけです。:)


3
トリミング率とトリミング平均のプロットをどのように解釈できますか?
宿題の質問の一部として、最小と最大の観測値を削除してデータセットのトリミング平均を計算し、結果を解釈するように求められました。トリミングされた平均は、トリミングされていない平均よりも低かった。 私の解釈では、これは基礎となる分布が正に歪んでおり、そのため、左尾が右尾よりも密度が高いためだと考えられました。このゆがみの結果、高いデータムを削除すると、低いデータを削除するよりも平均が下にドラッグされます。これは、非公式に言えば、「代わりに待機している」データが少ないためです。(これは合理的ですか?) その後、私はトリム平均計算にトリミングパーセンテージが、これをどのように影響するか不思議に始め種々のために。興味深い放物線の形になりました: バツ¯tr(k )バツ¯tr⁡(k)\bar x_{\operatorname{tr}(k)}k = 1 / n 、2 / n 、… 、(n2− 1 )/ nk=1/n、2/n、…、(n2−1)/nk = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n これをどのように解釈するのかよくわかりません。直観的には、グラフの勾配は中央値のデータポイント内の分布の部分の負の歪度(に比例)であるように思われます。(この仮説は私のデータでチェックアウトしますが、私はしか持っていないので、あまり自信がありません。)kkkn = 11n=11n = 11 このタイプのグラフには名前がありますか、それとも一般的に使用されていますか?このグラフからどのような情報を収集できますか?標準的な解釈はありますか? 参考のため、データは4、5、5、6、11、17、18、23、33、35、80です。



4
3つ以上のサンプル間の中央値の差に関する仮説検定
質問 3つのグループの人のテストスコアは、Rの個別のベクトルとして保存されます。 set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) これらのグループの中央値に大きな違いがあるかどうかを知りたいです。ウィルコクソン検定を使用して、グループ1とグループ2をテストできることを知っています。 wilcox.test(group1, group2) ただし、これは一度に2つのグループのみを比較するため、3つすべてを同時に比較したいと思います。0.05の有意水準でp値が得られる統計的検定が必要です。誰か助けてくれますか? 編集#1-ムードの中央値検定 ユーザーHibernatingの提案された答えに従って、Moodの中央値テストを試しました。 median.test <- function(x, y){ z <- c(x, y) g <- rep(1:2, c(length(x), length(y))) m …

1
収束が速いのは、平均と中央値のどちらですか。
N(0,1)からiid変数を描くと、平均または中央値はより速く収束しますか?どれくらい速く? 具体的には、をN(0,1)から取得したiid変数のシーケンスとします。とをの中央値として定義し。とどちらが0に早く収束しますか?ˉ X N = 1x1,x2,…x1,x2,…x_1, x_2, \ldots 〜X nは{X1、xは2、...xはN}{ ˉ X N}{〜X N}x¯n=1n∑ni=1xix¯n=1n∑i=1nxi\bar{x}_n = \frac{1}{n}\sum_{i=1}^n x_ix~nx~n\tilde{x}_n{x1,x2,…xn}{x1,x2,…xn}\{x_1, x_2, \ldots x_n\}{x¯n}{x¯n}\{\bar{x}_n\}{x~n}{x~n}\{\tilde{x}_n\} より速く収束することの意味について具体的に言うと、存在しますか?もしそうなら、それは何ですか?limn→∞Var(X¯n)/Var(X~n)limn→∞Var(X¯n)/Var(X~n)\lim_{n \to \infty} Var(\bar{X}_n)/Var(\tilde{X}_n)

1
序数データの表示-平均、中央値、平均ランク
正規分布されていない序数データが​​あるため、Mann-Whitney U検定を使用してノンパラメトリック検定を行うことにしました。7つのスコアについてグループ間の違いを調べています。これらのスコアは、各被験者について0、1、2、または3のいずれかです。データの表示方法を理解するのに苦労しています! 中央値(および中央値の IQR)を使用してデータを提示する場合、違いがどこにあるかはまったく明らかではありません。それは、ほとんどの場合、中央値が0または1にあるためです。テーブルは面白くないように見えます。 手段を使用してデータを提示することもできます。序数データで平均を使用できるが、スコア間の差異について同じタイプの仮定を行うことはできないとする科学論文がいくつかあります(たとえば、0と1の差異は1と1の差異と同じではありません) 2)。手段を使用することは少し物議を醸すでしょうが、私がそれらを使用するとき、表の数字は物語をよく伝えます。 3番目のオプションは、マンホイットニーの出力でSPSSが私に与える平均ランクを使用することです。平均ランクはグループ間で比較されているものなので、多分私はそれらを使用する必要がありますか?これに関して私が抱えている唯一の問題は、平均ランクが実際のデータに関して実際には何も意味しないことです(たとえば、平均ランクを使用すると、コントロールが1に近いのに、対象が3に近いことがわかりません。) そして最後のオプションは、スコアを2つのグループ(0と1は低、2と3は高)に分割した後、被験者とコントロールを比較するカイ2乗分析を実行することでした。しかし、私がこれを行ったとき、違いはそれほど明白ではありませんでした(おそらくいくつかの理由のため)。

1
指数の家族分布では、平均と分散が常に存在しますか?
スカラー確率変数がpdfをもつベクトルパラメーター指数ファミリーに属していると仮定します。XXX fX(x|θ)=h(x)exp(∑i=1sηi(θ)Ti(x)−A(θ))fX(x|θ)=h(x)exp⁡(∑i=1sηi(θ)Ti(x)−A(θ)) f_X(x|\boldsymbol \theta) = h(x) \exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) - A({\boldsymbol \theta}) \right) ここで、はパラメーターベクトルで、\ mathbf {T}(x)= \ left(T_1(x)、T_2 (x)、\ cdots、T_s(x)\ right)^ Tは、結合十分統計量です。θ=(θ1,θ2,⋯,θs)Tθ=(θ1,θ2,⋯,θs)T{\boldsymbol \theta} = \left(\theta_1, \theta_2, \cdots, \theta_s \right )^TT(x)=(T1(x),T2(x),⋯,Ts(x))TT(x)=(T1(x),T2(x),⋯,Ts(x))T\mathbf{T}(x)= \left(T_1(x), T_2(x), \cdots,T_s(x) \right)^T 各T_i(x)の平均と分散Ti(x)Ti(x)T_i(x)が存在することを示すことができます。ただし、Xの平均と分散XXX(つまり、E(X)E(X)E(X)とVar(X)Var(X)Var(X))は常に存在しますか?そうでない場合、平均と変数が存在しない、この形式の指数ファミリー分布の例はありますか? ありがとうございました。

5
ポアソンでない場合、これはどの分布ですか?
7日間に個人が実行したアクションの数を含むデータセットがあります。特定のアクションは、この質問には関係ありません。:ここでは、データ・セットのためのいくつかの記述統計ある RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} これはデータのヒストグラムです: データのソースから判断すると、ポアソン分布に適合すると考えました。ただし、平均≠分散、およびヒストグラムは左側に大きく重み付けされています。さらに、私はgoodfitRでテストを実行し、得ました: > gf <- goodfit(actions,type="poisson", method = "MinChisq") <br> > summary(gf) <br> Goodness-of-fit test for poisson …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.