タグ付けされた質問 「mean」

確率変数の期待値。または、サンプルの位置メジャー。

1
シャープレシオの有意性のテスト
シャープ比または情報比の重要性をテストする適切な方法は何ですか?シャープレシオはさまざまな株式指数に基づいており、ルックバック期間が変動する場合があります。 私が説明した1つの解決策は、dfをルックバック期間の長さに設定して、スチューデントのt検定を適用するだけです。 以下の懸念のため、私は上記の方法を適用するのをためらっています。 t検定は歪度の影響を受けやすいと思いますが、株式のリターンは一般的にマイナスに歪んでいます。 ログリターンを使用して計算された平均リターンは、単純なリターンを使用して計算された平均リターンよりも小さくなります。これにより、単純なリターンベースのシャープレシオが、ログリターンベースのシャープレシオと比較して有意であると登録される可能性が高くなると思いますが、基本的なアセットリターンは技術的に同じです。 ルックバック期間が短い(つまり、サンプルサイズが小さい)場合は、t検定が適切である可能性がありますが、別の検定を使用するのに適切なしきい値はどれですか。 私の最初の傾きは、学生のt分布の使用を避け、代わりに私がしている非対称パワーディストリビューションに基づいてテストを作成することです読み尖度と歪度のコントロールを可能にし、株式市場のリターンの非常に近い近似値であることが示されているが。 私の2番目の傾向は、ノンパラメトリックテストを調べることですが、それらの使用法の経験が限られているため、どこから始めればよく、どのような落とし穴を避けるべきかわかりません。 私はこの問題を考えすぎていますか、私の懸念は無関係ですか?

2
平均の違いと平均の違い
2つの独立したサンプルの平均を研究する場合、「2つの平均の差」を見ていると言われます。この手段我々は、人口1(から平均値を取る)、人口2から、そこから平均値を引く(ˉ Y 2)。だから、私たちの"二つの手段の違いは、"ある(ˉ Y 1 - ˉ Y 2)。y¯1y¯1\bar y_1y¯2y¯2\bar y_2y¯1y¯1\bar y_1y¯2y¯2\bar y_2 対のサンプル手段を検討するとき、我々は、我々は、「平均差」を見ていると言われ。これは、各ペア間の差を取り、次にそれらすべての差の平均を取ることによって計算されます。d¯d¯\bar d 私の質問は:Doが、我々は(同じことを得る - ˉ Y 2)その対ˉ D我々は2つのデータ列から、それらを計算して、初めてそれ二つの独立したサンプルと考えられ、2回目は、それがデータをペアと考えられている場合?2列のデータをいじってみましたが、値は同じようです。その場合、非定量的な理由で異なる名前が使用されていると言えますか?y¯1y¯1\bar y_1y¯2y¯2\bar y_2d¯d¯\bar d

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

4
一連の平均値の平均は、生データのセット全体から得られる平均と常に同じですか?
4つのデータセット(サンプルサイズが異なる)の平均を計算した場合、「平均の平均」を計算して「全体の平均」を取得できますか?はいの場合、この「平均の平均」は、4つのセットすべてのデータを組み合わせて平均を計算した場合と同じですか?

2
確率変数に制限がある分布の中心極限定理はどのように成り立つのでしょうか?
中心極限定理-サンプルの分布が正規性に近づく古典的なバージョン-がポアソン分布またはガンマ分布に当てはまる可能性があるため、私は常に問題に取り組み、良い答えは得られていません。 P(x&lt;0)=0P(x&lt;0)=0P(x<0)=0。または、さらに言えば、∃X:X≠−∞,F(X)=0∃X:X≠−∞,F(X)=0\exists X:X \neq -\infty ,F(X)=0、 多分 ∃X:X≠∞,1−F(X)=0∃X:X≠∞,1−F(X)=0\exists X:X \neq \infty, 1-F(X)=0。 例として、サンプル数としてのガンマ分布を考える n→∞n→∞n \rightarrow \infty、 P(X¯=α)→1P(X¯=α)→1P( \bar{X} = \alpha) \rightarrow 1、 ∀α≥0∀α≥0\forall \alpha \geq 0、 いくつかのための X¯iX¯i\bar{X}_i。しかし、もしα&lt;0α&lt;0\alpha<0、 P(X¯=α)=0P(X¯=α)=0P(\bar{X}=\alpha)=0。決してそこには決して、決してありませんX¯i&lt;0X¯i&lt;0\bar{X}_i<0。これは、X¯X¯\bar{X} 次の理由から、 f(X¯)f(X¯)f(\bar{X}) 必ずである必要があります 000、 ∀X¯&lt;0∀X¯&lt;0\forall \bar{X}<0、正規分布の要件を満たしていない場合 f(y)&gt;0,∀y∈Rf(y)&gt;0,∀y∈Rf(y)>0, \forall y \in R。 誰かが私のロジックがどこに迷ったのかを理解してくれるとしたら、CLTに基づく人生や何かについてはずっと気分が良くなるでしょう。

2
平均絶対偏差は標準偏差よりも小さいですか?
この定義を使用して、一般的な場合の平均絶対偏差と標準偏差を比較したいと思います。 MAD=1n−1∑1n|xi−μ|,SD=∑n1(xi−μ)2n−1−−−−−−−−−−−√MAD=1n−1∑1n|xi−μ|,SD=∑1n(xi−μ)2n−1MAD = \frac{1}{n-1}\sum_1^n|x_i - \mu|, \qquad SD = \sqrt{\frac{\sum_1^n(x_i-\mu)^2}{n-1}} ここで、です。μ=1n∑n1xiμ=1n∑1nxi\mu =\frac{1}{n}\sum_1^n x_i すべてのに対してあるというのは本当ですか?MAD≤SDMAD≤SDMAD \le SD{xi}n1{xi}1n\{x_i\}^n_1 すべての場合はであるためfalseです。n=2n=2n=2x+y≥x2+y2−−−−−−√x+y≥x2+y2x+y \ge \sqrt{x^2+y^2}x,y≥0x,y≥0x, y \ge 0 それを示すのは簡単です: MAD≤nn−1−−−−−√×SDMAD≤nn−1×SDMAD \le \sqrt{\frac{n}{n-1}} \times SD

2
データセットの平均を使用して相関を向上させることはできますか?
従属変数と独立変数を持つデータセットがあります。どちらも時系列ではありません。私は120の観察結果を持っています。相関係数は0.43 この計算の後、両方の変数の列を追加し、12観測ごとの平均を示します。その結果、2つの新しい列に108観測(ペア)が追加されます。これらの列の相関係数は0.77です このようにして相関を改善したようです。これは許可されていますか?平均を使用して、独立変数の説明力を増やしましたか?

2
SVMを使用する場合、なぜ機能を拡張する必要があるのですか?
scikit-learn のStandardScalerオブジェクトのドキュメントによると: たとえば、学習アルゴリズムの目的関数で使用される多くの要素(サポートベクターマシンのRBFカーネル、線形モデルのL1およびL2正則化器など)は、すべての特徴が0を中心とし、同じ順序で分散があると仮定します。ある特徴の分散が他のものよりも桁違いに大きい場合、それは目的関数を支配し、推定量が期待どおりに他の特徴から正しく学習できなくなる可能性があります。 分類する前に機能をスケーリングする必要があります。なぜこれを行うべきなのかを示す簡単な方法はありますか?科学論文への参照はさらに良いでしょう。私はすでに見つかったものを他の多くのは、おそらくあります。

4
予想されるサイコロの数は、合計がK以上になる必要がありますか?
6面のサイコロが繰り返しロールされます。合計がK以上になるには、予想されるロールの数はいくつですか? 編集前 P(Sum&gt;=1 in exactly 1 roll)=1 P(Sum&gt;=2 in exactly 1 roll)=5/6 P(Sum&gt;=2 in exactly 2 rolls)=1/6 P(Sum&gt;=3 in exactly 1 roll)=5/6 P(Sum&gt;=3 in exactly 2 rolls)=2/6 P(Sum&gt;=3 in exactly 3 rolls)=1/36 P(Sum&gt;=4 in exactly 1 roll)=3/6 P(Sum&gt;=4 in exactly 2 rolls)=3/6 P(Sum&gt;=4 in exactly 3 rolls)=2/36 P(Sum&gt;=4 in exactly …

2
トリミングされた平均と中央値
緊急サービスへのすべての呼び出しと救急車部門の応答時間のデータセットがあります。記録を開始しなかった(値が0である)場合や、クロックを停止しなかった(値が非常に高くなる可能性がある)場合があるため、応答時間にいくつかの誤りがあることを認めました。 私は中心的な傾向を知りたいのですが、異常値を取り除くために中央値またはトリミングされた平均値を使用する方が良いかどうか疑問に思っていましたか?

2
O(1)更新効率によるロバストな平均推定
特定の特性を持つ平均のロバストな推定を探しています。この統計を計算する要素のセットがあります。次に、新しい要素を1つずつ追加し、要素を追加するたびに統計(オンラインアルゴリズムとも呼ばれます)を再計算します。この更新の計算を高速に、できればO(1)に、つまりリストのサイズに依存しないようにしたいと思います。 通常の平均には、効率的に更新できるという特性がありますが、外れ値に対して堅牢ではありません。四分位間平均やトリム平均のような、平均の典型的なロバストな推定量は、効率的に更新できません(ソートされたリストを維持する必要があるため)。 効率的に計算/更新できる堅牢な統計についての提案があれば幸いです。

1
非中心指数分布の期待される対数値
仮定XバツX非中央指数関数的に位置して配布されkkk及びレートλλ\lambda。次に、とは何ですかE(log(X))E(ログ⁡(バツ))E(\log(X))。 私はのためにことを知っているk=0k=0k=0、答えは−log(λ)−γ−ログ⁡(λ)−γ-\log(\lambda) - \gammaどこγγ\gammaであるオイラーの定数。場合はどうk&gt;0k&gt;0k > 0ですか?

4
期待値は、非正規分布の平均値、中央値などとどのように関連していますか?
連続確率変数の期待値は、非正規分布(例:歪正規)の算術平均、中央値などとどのように関連していますか?一般的で興味深い分布(例えば、対数正規、単純なバイ/マルチモーダル分布、その他奇妙で素晴らしいもの)に興味があります。 私は主に定性的な回答を探していますが、定量的または定式的な回答も歓迎します。私は特にそれをより明確にする視覚的表現を見たいと思います。

2
時系列のゼロ平均部分を見つけるための最新の方法
ノイズの多い時系列があり、平均がゼロの部分と平均がゼロの部分に分割する必要があります。境界をできるだけ正確に見つけることが重要です(境界が正確にどこにあるかを明らかにすることは、少し主観的です)。私はcusumバリアントをこれに適合させることができると思いますが、cusumは主に、セグメンテーション戦略全体を完全に対処しないままにする単一の変更を見つけることに関するものです。 この問題については多くの調査が行われたと思いますが、見つけることができませんでした。 PSこれらの時系列のデータ量は非常に大きく、つまり最大で数億のサンプルであり、個々のサンプルは数百の成分を持つベクトルになる可能性があるため、合理的に迅速に計算できる方法は重要な要素です。 PPSセグメンテーションタグがないため、分類タグがあります。

2
平均の独立性と離散一様分布の分散
私の投稿の下のコメントで、Glen_bと私は、離散分布が必然的に平均と分散に依存している方法について議論していました。 正規分布では理にかなっています。私はあなたを伝える場合バツ¯x¯\bar{x}、あなたはどのような手掛かりいないである、と私はあなたの言うならば、あなたはどのような手掛かりいないです。(母集団パラメーターではなく、サンプル統計を扱うように編集されています。)s2s2s^2s2s2s^2バツ¯x¯\bar{x} しかし、離散的な均一分布の場合、同じロジックが適用されませんか?エンドポイントの中心を推定するとスケールがわかりません。スケールを推定すると中心がわかりません。 私の考えで何が問題になっていますか? 編集 jbowmanのシミュレーションを行いました。次に、確率分布変換(私はそう思う)を実行して、周辺分布(コピュラの分離)の影響を受けずに関係を調べます。 Data.mean &lt;- Data.var &lt;- rep(NA,20000) for (i in 1:20000){ Data &lt;- sample(seq(1,10,1),100,replace=T) Data.mean[i] &lt;- mean(Data) Data.var[i] &lt;- var(Data) } par(mfrow=c(2,1)) plot(Data.mean,Data.var,main="Observations") plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'") RStudioに表示される小さな画像では、2番目のプロットは単位正方形全体が均一にカバーされているため、独立しています。ズームインすると、はっきりとした垂直の帯が現れます。これは離散性に関係していると私は考えるべきではないと思います。次に、連続一様分布で試してみました。(0 、10 )(0,10)(0,10) Data.mean &lt;- Data.var &lt;- rep(NA,20000) for (i in 1:20000){ Data &lt;- runif(100,0,10) Data.mean[i] &lt;- mean(Data) Data.var[i] &lt;- var(Data) } …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.