タグ付けされた質問 「average」

確率変数の期待値。または、サンプルの位置メジャー。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

5
イタリア人の息子が小学校に通うことで、クラスに出席するイタリア人の子供の予想人数が変わりますか?
これは現実の状況に起因する質問であり、その答えについて私は本当に困惑しています。 私の息子はロンドンで小学校を始める予定です。私たちはイタリア人なので、すでに何人のイタリアの子供たちが学校に通っているのか知りたいと思いました。入学審査官に申請中にこれを尋ねると、クラスあたり平均2人のイタリア人の子供(30人)がいると彼女は言った。 私は今、自分の子供が受け入れられたことを知っている時点にいますが、他の子供に関する他の情報はありません。入場基準は距離に基づいていますが、この質問の目的のために、それは応募者の大規模なサンプルからのランダムな割り当てに基づいていると仮定できると思います。 息子のクラスには何人のイタリアの子供がいると予想されますか?2または3に近いでしょうか?

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

5
「平均値」と「平均」の違いは何ですか?
ウィキペディアの説明: データセットの場合、平均は値の合計を値の数で割ったものです。 ただし、この定義は、私が「平均」と呼ぶものに対応しています(少なくとも、覚えていることは覚えています)。しかし、ウィキペディアはもう一度引用しています: 「中央値」や「モード」など、一部の人々が平均値と混同するサンプルを使用する他の統計的尺度があります。 今では混乱しています。「平均値」と「平均」は互いに異なりますか?もしそうならどのように?

6
「平均」の一般化のために、中央値は平均の一種ですか?
「平均」の概念は、従来の算術平均よりもはるかに広く歩き回ります。中央値を含むまで伸びますか?類推により、 raw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean log⟶log−1geometric meanraw data⟶squaresquares⟶meanmean square⟶square−1root mean squareraw data⟶rankranks⟶meanmean rank⟶rank−1medianraw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean log⟶log−1geometric meanraw data⟶squaresquares⟶meanmean square⟶square−1root mean squareraw data⟶rankranks⟶meanmean rank⟶rank−1median \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} …
20 mean  average  median 

4
相関値の平均化
さまざまな実験条件下Yで変数が変数にどのように依存するかをテストしX、次のグラフを取得するとします。 上記のグラフの破線は、各データ系列の線形回帰を示し(実験設定)、凡例の数字は各データ系列のピアソン相関を示します。 私は間を「平均相関」(または「平均相関を」)を計算したいXとY。r値を単純に平均してもいいですか?「平均判定基準」どうですか?平均を計算し、その値の2乗を取るか、個々のR 2の平均を計算する必要がありますか?R2R2R^2rR2R2R^2

4
ポアソン確率変数の切り捨てられた平均の分布は何ですか?
パラメーターでポアソン分布するランダム変数ある場合、(つまり、平均の整数フロア)?X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nλ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor ポアソンの合計もポアソンですが、上記の場合と同じであるかどうかを判断するのに十分な統計情報はありません。

7
中央値は平均よりも公平ですか?
私は最近、外れ値を排除することを意味するのではなく、一般的に中央値を使用すべきだというアドバイスを読みました。例:次の記事 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ 現在16件のレビューがあります: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 Meanを使用しているため、記事は4つ星を取得しますが、Medianを使用すると5つ星を取得します。 中央値は「公正な」裁判官ではありませんか? 実験では、中央値の誤差は常に平均よりも大きいことが示されています。中央値は悪化していますか? library(foreach) #the overall population of bookjudgments n<-5 p<-0.5 expected.value<-n*p …
17 mean  median  average 

6
偏ったユーザーの意見を検出する方法(高評価と低評価)
ユーザーが製品またはアイテムに対する好みを表現できる星評価システムがある場合、投票が非常に「分割」されているかどうかを統計的に検出するにはどうすればよいですか。つまり、特定の製品の平均が5つのうち3つであっても、データのみを使用して(グラフィカルな方法ではなく)1-5の分割とコンセンサス3のどちらであるかをどのように検出できますか



1
変位値と中央値ではなく、触覚と中央値をいつ使用しますか?
WikipediaやWolfram Mathworldで、触覚または中間の定義を見つけることはできませんが、Bílková、D. and Mala、I.(2012)、 " 所得分布をモデル化するときのLモーメント法の適用チェコ共和国で」、オーストリア統計局誌、41(2)、125–132。 中央値は、サンプルの中央値が50 %のサンプルクォンタイルの値に等しいのと同様に、50 %50%50\%(サンプル)のサンプルの値です。サンプルタンタイルとサンプルクォンタイルは、順序付けられたサンプルに基づいています。まず、順序付けられたサンプルの観測値の累積合計が評価​​されます。その後、所定の割合のためのp、0 &lt; P &lt; 100、A tantileは、2つの部分に順序付けられたサンプル中のすべての観測を分割分析変数の値として定義される:小さいか等しい観測値の和である観測値の合計のと、より大きい観測値の合計は、残差を表します50 %50%50\%ppp0 &lt; p &lt; 1000&lt;p&lt;1000<p<100p %(100 − p )%p %p%p\%p %p%p\%(100 − p )%(100−p)%(100-p)\%この合計の。 従来の中央値やその他の変位値ではなく、これらを位置の尺度として使用するのが適切な場合はいつですか?考えられる状況の1つである家計収入は、その論文に記載されています。 この定義から、中間を収入のレベルの合理的な特性として使用できることがわかります。これは、収入が中間以下の世帯はサンプルの総収入の半分を受け取り、収入が高い世帯は半分を受け取るためです。他の半分を受け取る内側より。 この場合、家計収入の中央値はCZK 117,497(すなわち、これよりも多く稼いだ家計の半分と上記で稼いだ半分)であることが判明しました。総収入)。この比較は、必ずしも家計所得の歪度や不均一性を反映するものではないことに注意してください。家計所得が均一に分布していても、中央値は中央値より上にあります。私の定義を理解する限り、すべての世帯が同じ収入を受けた場合にのみ、中央値は中央値に等しくなります。 この場合、内側を好む特定の理由がありますか、それとも少なくとも補助的な手段として使用する理由がありますか?中央値と中央値の比較から正確に何がわかりますか?中央値は、先ほど述べた理由により、中心傾向の他の測定値に直接匹敵するものではないようです。中間/触覚が広く使用されている、または特に有益であると見なされている他の状況はありますか?サンプル研究論文でそれらが使用される実際の例は非常に歓迎されるでしょう、そして、それらが有用であると証明するかもしれないより広い文脈の直観的な考えはさらに良いでしょう。 合計と小計が意味のあるものである必要があります-お金に関連しているように見え、「パイ」がどのように分布しているのでしょうか?以下のために集中的ではなく、広範囲の性質例えば密度や温度など、合計の任意の並べ替えは、物理的に意味がないであろう。輸送物の分析者が、輸送される貨物の重量がカットオフであり、すべての貨物の50%(重量で)その重量以上の荷重で運ばれますが、生態学者がイモリの長さがどのくらいで、すべてのイモリの全長の50%がその長さ以上のイモリによってもたらされることに興味があるとは考えられません。

4
外れ値を削除するのに適した形式ですか?
私はソフトウェアビルドの統計情報に取り組んでいます。成功/失敗および経過時間に関する各ビルドのデータがあり、1週間あたり約200を生成します。 成功率は簡単に集計でき、45%がどの週にも合格したと言えます。しかし、経過時間も集計したいので、データを不当に誤って伝えないようにしたいと思います。私はプロに尋ねた方が良いと考えました:-) 期間が10あるとします。それらは、成功と失敗の両方のケースを表します。一部のビルドはすぐに失敗します。これにより、時間が非常に短くなります。テスト中にハングし、最終的にタイムアウトになるものがあり、非常に長い時間がかかります。さまざまな製品をビルドしているため、成功したビルドでも90秒から4時間の間で異なります。 私はこのようなセットを得るかもしれません: [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] 私の最初のアプローチは、セットをソートして中央値を選択することにより中央値時間を取得することでした。この場合は7812です(偶数セットの算術平均は気にしませんでした)。 残念ながら、特定の値を1つだけ選択するため、これは多くのバリエーションを生成するようです。したがって、この値をトレンドにした場合、どのビルドが中央値にあったかに応じて、5000〜10000秒の間で跳ね返ります。 そこで、これを滑らかにするために、別のアプローチを試みました。外れ値を削除して、残りの値の平均を計算します。私はそれを三分位に分割し、中央のものだけで作業することにしました: [50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] -&gt; [50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] -&gt; [3014, 7812, 8378, 8993] これが私にとって良く見える理由は2つあります: より高速なビルドではアクションは必要ありません。既に問題ありません 最も長いビルドはタイムアウトが原因である可能性が高く、常に存在します。それらを検出する他のメカニズムがあります だから、これは私が探しているデータであるように思えますが、まあ、真実を取り除くことで滑らかさを達成したのではないかと心配しています。 これは議論の余地がありますか?メソッドは正常ですか? ありがとう!

2
外れ値を検出するためのIQRの精度
プロセスの実行時間を分析するスクリプトを書いています。それらの分布はわかりませんが、プロセスが「長すぎる」かどうかを知りたいです。これまでのところ、最後の実行時間の3つの標準偏差(n&gt; 30)を使用してきましたが、データが正常でない場合(これは正常ではないように見える)、これは有用なものではないと言われました。私は次のような異常値テストを見つけました: IQR = Q3-Q1である四分位範囲を見つけます。Q3は3番目の四分位数、Q1は最初の四分位数です。次に、次の2つの数値を見つけます。 a)Q1-1.5 * IQR b)Q3 + 1.5 * IQR &lt;aまたは&gt; bの場合、ポイントは異常値です 私のデータは2秒、3秒、2秒、5秒、300秒、4秒などの傾向があります。ここで、300秒は明らかに異常値です。 どちらの方法が良いですか?IQR法または標準偏差法?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.