タグ付けされた質問 「frequency」

7
一般的な時系列の期間検出
この投稿は時系列の外れ値検出のための一般的な方法に関連する別の投稿の続きです。基本的に、この時点で、多くのノイズの影響を受ける一般的な時系列の周期性/季節性を発見するための堅牢な方法に興味があります。開発者の観点から、次のようなシンプルなインターフェースが欲しいです。 unsigned int discover_period(vector<double> v); vサンプルを含む配列はどこにあり、戻り値は信号の周期です。主なポイントは、やはり、分析された信号に関して仮定を立てることができないということです。信号の自己相関に基づいたアプローチ(コレログラムのピークの検出)を既に試しましたが、希望どおりに堅牢ではありません。

11
平均絶対偏差と標準偏差
Greer(1983)による教科書「Oレベルの新しい包括的数学」では、平均偏差は次のように計算されています。 単一の値と平均値の絶対差を合計します。次に、その平均を取得します。この章では、平均偏差という用語が使用されています。 しかし最近、標準偏差という用語を使用するいくつかの参考文献を見てきました。 単一の値と平均値の差の二乗を計算します。次に、それらの平均値を取得し、最終的に回答のルートを取得します。 共通のデータセットで両方の方法を試しましたが、答えは異なります。私は統計学者ではありません。私の子供たちに逸脱を教えようとしていたとき、私は混乱しました。 要するに、標準偏差と平均偏差という用語は同じですか、それとも私の古い教科書は間違っていますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

3
2つの頻度分布間の統計的な「距離」を測定する方法は?
私は、年間を通じてウェブサイトの使用時間を調査するデータ分析プロジェクトに取り組んでいます。私がやりたいのは、使用パターンがどの程度「一貫性がある」かを比較することです。たとえば、週に1回1時間使用するパターン、または1回10分間使用するパターンにどれだけ近いかを比較します。週に数回。私は計算できるいくつかのことを知っています: シャノンエントロピー:結果の「確実性」がどれだけ異なるか、つまり確率分布が均一な分布とどれだけ異なるかを測定します。 カルバック・リーブラー発散:ある確率分布が他の確率分布とどれだけ異なるかを測定します Jensen-Shannon発散: KL 発散と似ていますが、有限値を返すため、より有用です スミルノフ・コルモゴロフ検定:連続したランダム変数の2つの累積分布関数が同じサンプルに由来するかどうかを判定する検定。 カイ2乗検定:頻度分布が予想される頻度分布とどれだけ異なるかを判断する適合度検定。 私がやりたいのは、実際の使用期間(青)が理想的な使用時間(オレンジ)とどれだけ異なるかを比較することです。これらの分布は離散的であり、以下のバージョンは正規化されて確率分布になります。水平軸は、ユーザーがWebサイトで費やした時間(分単位)を表します。これは、年の各日について記録されています。ユーザーがウェブサイトにまったくアクセスしていない場合、これはゼロ期間としてカウントされますが、これらは度数分布から削除されています。右側は累積分布関数です。 私の唯一の問題は、JSダイバージェンスを取得して有限値を返すことができても、異なるユーザーを見て、それらの使用量分布を理想的なものと比較すると、ほとんど同じ値を取得することです(したがって、これは良くありませんそれらがどれだけ異なるかの指標)。また、頻度分布ではなく確率分布に正規化すると、かなりの情報が失われます(たとえば、学生がプラットフォームを50回使用する場合、バーの長さの合計が50になるように青色の分布を垂直にスケーリングする必要があります。オレンジ色のバーの高さは1ではなく50にする必要があります。「一貫性」とは、ユーザーがWebサイトにアクセスする頻度が、Webサイトからの離脱に影響するかどうかです。彼らがウェブサイトにアクセスした回数が失われた場合、確率分布の比較は少し疑わしいです。ユーザーの継続時間の確率分布が「理想的な」使用量に近い場合でも、そのユーザーは1年間にプラットフォームを1週間しか使用しなかった可能性があり、おそらく一貫性はありません。 2つの頻度分布を比較し、それらがどれほど似ている(または似ていない)かを特徴付ける何らかのメトリックを計算するための確立された手法はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.