タグ付けされた質問 「mean」

確率変数の期待値。または、サンプルの位置メジャー。

1
パーセンタイルと信頼区間の関係(平均)
この質問は、パーセンタイルと信頼区間の関係を誰かが私に尋ねたときに仕事で出てきました、そして私は私の考えを明確にするのに非常に苦労しました。コンテキストは、サンプル平均の95%信頼区間の推定に関する非常に単純な質問でした。 中心極限定理は、サンプルサイズが十分に大きければ、任意の独立した確率変数の平均の標本分布は正常またはほぼ正常になると述べていることを理解しています。したがって、標本平均は正規分布持ちます。ここで、は標本標準偏差です。sN(x¯、s / n−−√)N(x¯,s/n)N(\bar{x}, s/\sqrt{n})sss ここで、帰無仮説が真であるとしましょう。次に、帰無仮説の下では、標本平均の周りの95%信頼区間はμ ˉ X ± 1.96 * S / √H0:μバツ¯= μH0:μx¯=μH_0: \mu_{\bar{x}} = \muμバツ¯± 1.96 ∗ s / n−−√μx¯±1.96∗s/n\mu_{\bar{x}} \pm 1.96 * s/\sqrt{n} 私の同僚からの質問は、具体的には次のとおりでした。標準誤差は、平均の標本分布の単なる標準偏差です。したがって、は、サイズ多くのサンプルのサンプル平均を計算することによって作成された分布の97.5パーセンタイルに相当しますか? nμバツ¯+ 1.96 ∗ s / n−−√μx¯+1.96∗s/n\mu_{\bar{x}} + 1.96 * s/\sqrt{n}んnn パーセンタイルと信頼区間は2つの別々の概念であり、同僚の質問は2つの間の関係について尋ねていたので、質問は本当に奇妙でした。非常に混乱しましたが、私のポイントを明確にすることはできませんでした。 どんな助けでも大歓迎です!

2
どちらが良いですか、平均による置換と中央値による置換ですか?
私は一連のデータの欠損値を置き換えることを含むプロジェクトを行っています(これを初めて行う)。これは、2つのメソッドを使用することを含むreplacement by meanとreplacement by median欠損値を埋めるために。両方の方法を使用したデータの最小値、中央値、最大値、平均値、および標準偏差の結果に大きな違いはなく、どちらの方法が優れているか、どの方法を使用してどちらが優れているかを判断するにはどうすればよいか疑問に思いました結果は?

1
生のスコアの標準偏差をパーセンテージの標準偏差として報告できますか?
30の質問で構成されるテストがあり、10人がこのテストを受けたとします。これらの10人の平均テストスコアは17で、サンプルのすべてのスコアの標準偏差は4です。学校で記述統計を報告するとき、これらの生のスコアを使用して書き込みます(M = 17、SD = 4); しかし、場合によっては、パーセンテージを報告する方が良いと感じることがあります。私は、30を超える17をスコアするよりも、100を超える56.7をスコアすることの意味をより直感的に理解していると思います(おそらく、10進法に慣れているためです)。 したがって、上記の例の場合、平均と標準偏差を(M = 56.7%、SD = 13.3%)として報告することは可能でしょうか? サンプルの試験スコアの標準偏差が13.3%であると言っても意味がありませんか? これらのパーセンテージは、私が作成して上記で与えた生のスコアと算術的に同等ですが、そのようなパーセンテージに直接変換するのが良い方法かどうかはわかりません。

1
コルモゴロフスミルノフZ対マンホイットニーU小サンプルサイズn = 15?
サンプルサイズが15と小さいです。2つの独立変数、グループ1 n = 11、グループ2 n = 4の間で栄養素摂取量に違いがあるかどうかを確認したいと思います。データは正規分布していません。Mann Whitney UとKolmogorov-Smirnov Zのどちらのテストがより適切ですか?Andy FieldのSPSSを使用したDiscovering Statisticsは、KS Zは小さなサンプルサイズに使用する必要があると述べています。 Kolmogorov-Smirnov Z:第5章では、サンプルが正規分布母集団からのものであるかどうかをテストするKolmogorov–Smirnovテストに出会いました。これは別のテストです!実際、2つのグループが同じ母集団から引き出されているかどうかをテストします(その母集団が何であるかに関係なく)。つまり、これはマンホイットニー検定とほぼ同じことを意味します。ただし、このテストは、サンプルサイズがグループあたり約25未満の場合、マンホイットニー検定よりも優れたパワーを持つ傾向があるため、そうである場合は選択する価値があります。 また、p値とともに摂取量を報告する場合、データはノンパラメトリックなので、平均値と標準偏差または中央値とIQRを使用する必要がありますか? 何かアドバイスをいただければ幸いです。

4
データと平均の差のゼロサムプロパティ
私は統計学の研究とこのサイトで新しいです、そして私は平均に関して私の本の「ゼロサム特性」に出くわしました。単純明快なようですが、それでもわかりません。それが公式で与える唯一の情報は で示される 変数各値とで示されるの平均値の差の合計はゼロに等しくなります。YYYYiYiY_iYYYY¯Y¯\bar Y 誰かがコンセプトをよりよく説明できますか?
8 mean 

1
サンプルの平均値と中央値から対数正規分布のパラメーターを取得できますか?
対数正規分布から抽出されたサンプルの平均値と中央値があります。これは変数のログの平均値と中央値ではないことに注意してください。もちろん、平均値と中央値のログを計算できます。この情報からμとσの閉じた形の解はありますか?数値解しかない場合、理想的にはRを使用して、それを見つける方法を教えてください。 私はこの質問は、ここで、サンプル平均と標本分散からμとσを導出するために回答されていることに注意してください: 私はサンプル平均と標本分散から対数正規分布のパラメータを推定するにはどうすればよい しかし、私は持っていません。サンプル分散、平均と中央値のみ。 閉じた形式または単純な数値解がない場合、サンプルの平均と中央値のログ、またはそれらの何らかの変換を使用すると、大規模なサンプル(数億単位)に対して適切な回答が得られるかどうかを知りたいです。 )。

3
GLMがモードではなく平均を予測するのはなぜですか?
GLMが信号のモードではなく平均を予測するのはなぜですか?これは、GLMの背後にある基本、つまり最尤法と矛盾していませんか?GLMのモデルパラメーターを解くための方程式は、モデル化された信号の確率分布によって記述される尤度の最大化に基づいています。この確率分布は、平均ではなくモードの最大値です(正規分布は例外です:モードと平均の両方が同じです)。したがって、GLMは信号の平均ではなくモードを予測する必要があります。(この質問の背景については、こちらを参照してください。)

3
分布から平均、中央値、モード、標準偏差を計算する方法
分布から平均、分散、中央値、標準偏差、およびモードを計算する方法は?正規分布を形成する数値をランダムに生成する場合、m=24.2標準偏差として平均を次のように指定しましたsd=2.2: > dist = rnorm(n=1000, m=24.2, sd=2.2) その後、私は以下を行うことができます: 平均: > mean(dist) [1] 24.17485 分散: > var(dist) [1] 4.863573 中央値: > median(dist) [1] 24.12578 標準偏差: > sqrt(var(dist)) [1] 2.205351 モードaka Modus(ここから取得): > names(sort(-table(dist)))[1] [1] "17.5788181686221" これは魔法の全体なのか、それとも私が気づかなかった他の何かがあるのでしょうか? 垂直線が(平均、中央値...)を表す私のベル形の正規分布をどうにかして視覚化できますか? これらの属性は分布について何を言っていますか? PS:コードはRにあります
8 r  distributions  mean 

1
t分布に従って正確に何が分布されますか?
t分布の背後にある考え方を理解しようとします。これまでに理解した手順は次のとおりです。 N要素のサンプルを使用して、母平均を推定します。詳細には、母平均の推定値としてサンプル平均を使用します。 見積もりが実際の値にどれだけ近いかを知りたいのです。または、より具体的には、母平均が特定の確率でこの間隔内にあると言えるように、サンプル平均の周囲の間隔をどのくらい大きくする必要があるかを知りたいです。 この質問に答えるために、母集団の値は、既知の平均と標準偏差をもつ正規分布に従って分布していると仮定します。 母集団内の値の分布のパラメータがあれば、母集団の分布と標本のサイズの関数として、標本平均の分布を計算できます。 標本平均の分布も、次の数式で与えられる母集団分布と標準偏差と同じ平均の正規分布であることを示すことができます。ここで、は標本のサイズです。 Ns = σ/ N−−√s=σ/Ns = \sigma/\sqrt{N}NNN サンプル平均の分布があれば、サンプル平均が実際の平均からXだけ離れている確率を簡単に計算できます。つまり、母平均がサンプル平均の周りの特定の間隔内にある確率を計算できます。 。 ほぼ必要なものです。唯一の問題は、実際の設定では、母集団の分布の標準偏差がわからないことが多いことです(これは、母集団の平均値の周囲に標本平均がどのように分布するかを決定するパラメーターです)。 私たちにできることは、母集団標準偏差を標本標準偏差で置き換えることです。言い換えると、正確な未知のパラメータを、その概算で置き換えます。 だから、これが今のところです。母集団STDを標本STDで置き換えることにより、標本平均の分布の推定をさらに悪くします。そして、分布のパラメーターのこの「誤った」値を「補正」するために、分布の形状を変更します(これは正規分布ではなくなったと言います。これはt分布です)。しかし、t分布に従って正確に何が分布されるのでしょうか。母集団STDがわかっている場合、標本平均が母集団平均の周囲にどのように分布しているかがわかります。これで、母集団のSTDはわかりませんが、母集団の平均値の周りの標本平均の分布は変わりません。

1
距離行列から重心間の距離を計算する効率的な方法
n点間の2乗ユークリッド距離正方対称行列と、点のクラスターまたはグループメンバーシップ(クラスター)を示すベクトルがあるとします。クラスタはポイントで構成される場合があります。DD\bf Dんんnんんnkkk≥ 1≥1\ge1 何が最も効率的か(速度の点で)本当に効率的な方法クラスタ重心間の計算距離ここでは? これまでのところ、私は常にこの状況で主座標分析を行いました。PCoA、またはTorgersonのMDSは、最初にをスカラー積の行列( "double centering")に変換してから、そのPCAを実行することになります。このようにして、それらがまたがるユークリッド空間の点の座標を作成します。その後は、データを使用する場合と同じように、重心間の距離を通常の方法で簡単に計算できます。PCoAは対称正準半定固有分解またはSVDを実行する必要がありますが、S n S nDD\bf DSS\bf Sんんngrouped points x variablesn x nSS\bf Sんんnかなり大きくなる可能性があります。さらに、このタスクは次元削減ではなく、実際にはこれらの直交する主軸は必要ありません。だから私はこれらの分解が行き過ぎかもしれないと感じています。 だから、あなたは潜在的に高速な方法についての知識やアイデアを持っていますか?

2
予測区間には平均が含まれている必要がありますか?
私が思いついた概念的な問題で大きな問題を抱えています。 ある会社が非常に歪んだ分布をしているとしましょう。指数関数または対数正規関数に似たもので、さらに極端なもの。ここで、分布が歪んでいると仮定して、分布の平均が分布の99%パーセンタイルよりも高くなるようにします。(別名1-2の極端に高い値により、他の分布と比較して平均が非常に高くなりました)。 定義により、この分布が将来の値(別名分布からのランダムサンプル)を予測するために使用された場合、平均が95%予測間隔に含まれないのは本当ですか? 私の脳では、95%の予測間隔は、すべての将来の値の95%がその間に入る範囲です。どの分布でも、これは下限の.025パーセンタイル、および上限の.975パーセンタイルに正確に等しい必要があります...平均が.975パーセンタイルよりも高い場合、平均は'95%内にありません。予測間隔」。 私はこれを間違って考えていますか?予測を次のように報告するのは奇妙に思えます 平均予測値:6,000,0000 95%予測間隔:[400,5000]。

4
R:lm()を使用した因子の平均と平均の標準誤差の計算と直接計算の編集
因子を含むデータを扱う場合、Rを使用してlm()関数で各グループの平均を計算できます。これにより、推定平均の標準誤差も得られます。しかし、この標準誤差は、手作業による計算から得られるものとは異なります。 ここに例があります(Rの2つのグループ間の違いを予測するここから取得) 最初にlm()で平均を計算します。 mtcars$cyl <- factor(mtcars$cyl) mylm <- lm(mpg ~ cyl, data = mtcars) summary(mylm)$coef Estimate Std. Error t value Pr(>|t|) (Intercept) 26.663636 0.9718008 27.437347 2.688358e-22 cyl6 -6.920779 1.5583482 -4.441099 1.194696e-04 cyl8 -11.563636 1.2986235 -8.904534 8.568209e-10 切片は、最初のグループである4気筒車の平均です。直接計算によって平均を取得するには、これを使用します。 with(mtcars, tapply(mpg, cyl, mean)) 4 6 8 26.66364 19.74286 15.10000 平均値の標準誤差を取得するには、サンプルの標準偏差を計算し、各グループの観測数で割ります。 with(mtcars, tapply(mpg, …

1
どのようにしてテストすることができ
2つの異なるモデルから計算されたパラメーターの数百の推定値があり、これらのパラメーターの分散が異なるかどうかを知りたいです。 これらのパラメーターの分散を比較する簡単なテストは何ですか?(簡単な意味、最小限の仮定)。


1
平均の平均(平均の、平均の…)
次の細胞生物学実験を考えてみましょう。比較していますTTT培養細胞の異なる処理。各治療ttt変数によってインデックス付けされたいくつかの(マイクロタイター)ウェルで複製されますW ∈ { 1 、2 、⋯ 、W}w∈{1、2、⋯、W}w \in \{1, 2, \cdots, W\}。治療に対する反応をよく測定するにはwww、 の合計 FwFwF_w重複しない顕微鏡写真、またはフィールドが記録されます。次に、フィールドごとにfff よく www、 の合計 Cw fCwfC_{wf} セルは計算により識別され、これにより各セルは ccc (よく www、フィールド fff)は、 Pw fcPwfcP_{wfc}ピクセル。最後に、各ピクセルに関連付けppp 測定です バツw fc pバツwfcpx_{wfcp} (そのピクセルで記録されたさまざまな蛍光信号の強度から派生)。 問題は、すべてのピクセル測定値を集計することです バツw fc pバツwfcpx_{wfcp} 「合理的な手段」を生み出す バツtバツtX_t 治療効果の ttt それで処理された細胞と同様に「広がり」のいくつかの測定 バツtバツtX_t。 このような問題に対する標準的なアプローチは、平均を「メジャー」として使用し、分散(または標準偏差)を「スプレッド」として使用することです。ただし、この場合は、平均と分散を計算する方法が複数あり、同等ではありません。 今のところ手段に焦点を合わせると、極端な場合、単に バツw fc pバツwfcpx_{wfcp} すべてのピクセルにわたって(セル、フィールド、ウェルの分布を無視して)、この合計をピクセルの総数で割ります PPP (治療用 ttt): …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.