タグ付けされた質問 「descriptive-statistics」

記述統計は、平均と標準偏差、中央値と四分位数、最大値と最小値など、サンプルの特徴を要約します。複数の変数を使用して、相関とクロス集計を含めることができます。箱ひげ図、ヒストグラム、散布図などの視覚表示を含めることができます。

2
正の値と負の値を持つデータを使用する場合、変動係数が無効になるのはなぜですか?
私の質問に対する決定的な答えを見つけることができないようです。 私のデータは、測定された平均が0.27から0.57まで変化するいくつかのプロットで構成されています。私の場合、すべてのデータ値は正ですが、測定自体は、-1から+1の範囲の反射率値の比率に基づいています。プロットは、植生の「生産性」のリモートで導出された指標であるNDVIの値を表します。 私の意図は、各プロットで値の変動性を比較することでしたが、各プロットには異なる平均があるため、CVを使用して、プロットごとのNDVI値の相対分散を測定することにしました。 私が理解していることから、これらのプロットのCVを取ることは、各プロットが正と負の両方の値を持つことができるので、ユダヤではありません。そのような場合にCVを使用することが適切ではないのはなぜですか?いくつかの実行可能な代替手段は何でしょうか(つまり、相対的分散、データ変換などの同様のテスト)。

3
の意味は何ですか?
\ | a \ | _p = \ left(\ sum _ {i = 1} ^ n \ left | a_i(t)\ right | {} ^ p \ right){} ^ {\ frac {1の意味は何ですか} {p}}∥a∥p=(∑ni=1|ai(t)|p)1p‖a‖p=(∑i=1n|ai(t)|p)1p\|a\|_p=\left(\sum _{i=1}^n \left|a_i(t)\right|{}^p\right){}^{\frac{1}{p}}? この式は、の5ページ目に呼び出され、改良されたデータストリームの概要:カウントミンスケッチとその応用(見つけることができるここに)。私はCount-Min Sketchを実装しており、基本的な概念は問題なく理解できますが、細かい点のいくつかは、この方程式や、私が知らない他の用語で説明されています。

2
時系列(R)の構造的破損を検出および定量化する方法
バックグラウンド だから私が持っているかもしれない理解のレベルを測るためのいくつかの背景。現在修士論文を完成させていますが、統計はほとんど無視されていますが、私は基本的には理解しています。私の現在の質問は、私が実際に何ができる/すべきか疑問に思っています。オンラインや文学でますます読むことは逆効果のようです。 私は何を達成しようとしていますか? したがって、私が入社した論文では、私が回答しようとしている一般的な質問は、本質的に、予測プロセスが特定のシステムの実装によってどのように影響されるかです(予測プロセスに使用されるデータに影響します)。 これで望ましい結果は、以下の理解です。 目立った変化はありますか?(例えば、統計的証明) 変化はどのくらいですか?(平均と分散) この予測プロセスで重要な要因(また、要因の影響が休憩前>休憩後にどのように変化するか) 1と2に答えるために、時系列オブジェクトの形式で履歴データを取得しました(この段階では、それ以上ですが無関係です)。私が使用しているソフトウェアはRです。 データ データには、毎日(2.5年間)の加重スコアが含まれ、予測プロセスのパフォーマンスの悪さ(実際のイベントからの逸脱)を示します。この1つの時系列オブジェクトには、1時間前からこれらの2.5年間のイベントの実際の発生(1時間の間隔)までに発生した予測の加重スコアが含まれます(したがって、各日には、この間隔の加重スコアが1つあります)。同様に、他の間隔(1〜2、2〜3時間など)に対して構築された複数の時系列があります。 myts1 <- structure(c(412.028462047, 468.938224875, 372.353242472, 662.26844965, 526.872020535, 396.434818388, 515.597528222, 536.940884418, 642.878650146, 458.935314286, 544.096691918, 544.378838523, 486.854043968, 478.952935122, 533.171083451, 507.543369365, 475.992539251, 411.626822157, 574.256785085, 489.424743512, 558.03917366, 488.892234577, 1081.570101272, 488.410996801, 420.058151274, 548.43547725, 759.563191992, 699.857042552, 505.546581256, 2399.735167563, 959.058553387, 565.776425823, 794.327364085, 1060.096712241, 636.011672603, 592.842508666, 643.576323635, …

3
あることを証明する方法
私は不平等を確立しようとしています |Ti|=∣∣Xi−X¯∣∣S≤n−1n−−√|Ti|=|Xi−X¯|S≤n−1n\left| T_i \right|=\frac{\left|X_i -\bar{X} \right|}{S} \leq\frac{n-1}{\sqrt{n}} ここで、はサンプルの平均値、はサンプルの標準偏差、つまり 。X¯X¯\bar{X}SSSS=∑ni=1(Xi−X¯)2n−1−−−−−−−−−√S=∑i=1n(Xi−X¯)2n−1S=\sqrt{\frac{\sum_{i=1}^n \left( X_i -\bar{X} \right)^2}{n-1}} であることがわかりやすいので、が、これは私が探していたものにあまり近くなく、有効な範囲でもありません。コーシーシュワルツと三角形の不等式を試してみましたが、どこにも行きませんでした。私がどこかで見逃している微妙なステップがあるに違いありません。どうぞよろしくお願いいたします。∑ni=1T2i=n−1∑i=1nTi2=n−1\sum_{i=1}^n T_i^2 = n-1 |Ti|&lt;n−1−−−−−√|Ti|&lt;n−1\left| T_i \right| < \sqrt{n-1}

2
有向線分の混乱を視覚的に要約する
何百万もの有向線分のデータセットがあります。ラインセグメントは連続しています。これは気候変数(顕熱)であり、30分間隔で観測およびシミュレーションされた値を持ちます。シミュレーションのパフォーマンスのパターンを探しています。obs対シミュレーション値の散布図を見て、それらを線分にリンクしています(矢印は時間の方向を示しています)。それらをプロットすると、次のように解釈することが不可能なぼやけた混乱を得るだけです: これは、10000行のサブセットであり、細かく、不透明度が低くプロットされています。 ggplot(d, aes(x=Qh_obs, xend=lead(Qh_obs), y=Qh_sim, yend=lead(Qh_sim))) + geom_segment(size=0.1, alpha=0.2, arrow=arrow(length=unit(2, units='mm'))) dput() 最初の700行のデータ(投稿の長さによって制限されます): structure( list( Qh_sim = c( 56.401439666748, 33.9568634033203, 16.2147789001465, 0.797790050506592, -3.19529962539673, -10.3250732421875, -11.6082448959351, -21.5074787139893, -21.5963478088379, -21.4389324188232, -19.8912830352783, -18.5908279418945, -19.2523441314697, -19.663516998291, -19.1126575469971, -18.4237308502197, -16.6181221008301, -14.7601175308228, -14.5604763031006, -14.3527803421021, -14.6219816207886, -14.791407585144, -15.452392578125, -15.8962726593018, -11.9349966049194, -7.97028636932373, 12.4507570266724, 32.1654815673828, 56.9330673217773, 82.0748443603516, 110.501235961914, …

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult &lt;- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn &lt;- function(data, indices){ data &lt;- data[indices, ] mod &lt;- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out &lt;- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
時系列回帰でのローリングウィンドウの使用
私は回帰について学んでいます。私は、いくつかの断面回帰を行っています。最近、単純な時系列回帰を行いました。したがって、それぞれ1000個の観測を含むyおよびxベクトルがあります。 私は、Excelで簡単なols回帰を行いましたが、これは問題ないと思いました。しかし、使用しているローリングウィンドウを尋ねる結果を送信した後、私のオンラインチューターからメールが送られてきました。私はついていないようです。メールで返信しましたが、不在通知があり、彼の意味を理解したいと思っています。 最初の50個の観測値(つまり1:49)を回帰に使用し、次にobs(2:50)を使用して別の回帰を実行するのは、1000個すべての観測値を使用するのではなく単にですか? 私の理解は、私のベクトルのデータが正しく並べられている限り(私の場合は私の日付)、回帰は断面回帰と同じ方法で行われるべきだということでした-私は間違っていますか?

4
四分位範囲の解釈は何ですか?
二酸化窒素の毎日の測定を1年間(365日)行っており、四分位数(IQR)は1立方メートルあたり24マイクログラムです。25パーセンタイルと75パーセンタイルの違いであるIQRの定義を除いて、このコンテキストでの「24」の意味は何ですか?たとえば、この数字をジャーナリストにどのように説明しますか? ありがとう

2
このデータセットに共分散がないのはなぜですか?
共分散がどのように機能するかについての私の理解は、相関しているデータはある程度高い共分散を持つべきだということです。(散布図に示されているように)データが相関しているように見えても、共分散がゼロに近い状況に遭遇しました。データが相関している場合、データの共分散はどのようにゼロになりますか? import numpy as np x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788, 0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681, 0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152, 0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536]) x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334, 0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528, 0.03098697, 0.03357531, 0.02808358, 0.03747998, 0.03804655, 0.03213286, 0.03827639, 0.02999955, …

3
メジャーとして使用された統計は、レポートされた後に無効になりますか?[閉まっている]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して詳細を追加し、問題を明確にしてください。 2年前休業。 これが間違った場所であるかどうかお詫びします。しかし、私はディレクターに、彼の統計が真実を示さないことを説明しようとしています。彼は統計が報告されているものであり、スタッフが測定されるものであることを要求しているからです。しかし、私の説明は彼には通じません。 昔、名前の付いた法律、理論、またはそのための何かがあったことを読んだことを覚えています。それは完全にそれを説明しましたが、それが何であるか思い出せません。誰か知っていますか? 法の根拠は次のとおりです。レポートされた統計がパフォーマンスの測定基準として使用される場合、人々は統計が何を意味するのかではなく測定に対して正確に見えるようにすることを人々がすぐに習得するため、それらは効果測定ではなくなります。 チームの統計情報の表示方法を変更したい。

1
別の分布から測定された分布を削除する
粒子ビームを多くの粒子の集合として捉えます。2つの独立した確率変数と仮定とδ水平位置まで追加X粒子のを:バツβXβX_\betaδδ\deltaバツXX バツ= Xβ+ DバツδX=Xβ+Dxδ X = X_\beta + D_x \delta (は単純な数値で、ビームダイナミクスの「分散」関数です。)DバツDxD_x Iは、ビームプロファイルの水平方向の測定値を有する、縦運動量分布の他の測定、F δ。両方を単一領域に正規化し、それらをXとδの確率密度関数の測定値と見なします。fバツfXf_Xfδfδf_\deltaバツXXδδ\delta 今、私はの分布/プロファイルを決定したいと思い。バツβXβX_\beta どうすればよいですか? 最初に考えたデコンボリューションすることであったとF D X δ Iは、位置の同じセットに両方のデータセットを補間した後、。残念ながら、私は失敗しました...私はスペクトルに等しいエラー量で終わります、すなわち、どこにも行きません。fバツfXf_XfDバツδfDxδf_{D_x\delta}scipy.signal.deconvolve 2つを畳み込むと、、に拡張がられます。fバツfXf_XfDバツδfDバツδf_{D_x\delta} (numpy.convolve(f_x, f_Dxdelta, 'same')両方の配列が同じ長さで、同じ位置にある場合) 今は反対を行い、分散部分を「追加」する代わりに「削除」したいと思います。または私は完全に間違った方向に行っていますか? もう1つの重要な可能性のある情報:はではなく正規分布を持っていると思います。私は、対応する標準偏差を抽出したいから。バツβバツβX_\betaδδ\deltaバツβバツβX_\betafバツfバツf_X 助けてくれてありがとう、エイドリアン PS:物理スタック交換フォーラムで同じ質問をしたので、コミュニティに質問することを提案しました:-)(/physics/224671/remove-measured-distribution-from-別の配布)

3
同一の5数の要約を持つ2つの分布は常に同じ形になりますか?
N(x、s)とU(x、s)を持つことができるので、同じ平均と分散を持つ2つの分布が異なる形状になる可能性があることを知っています しかし、それらの最小値、Q1、中央値、Q3、および最大値が同一である場合はどうでしょうか? その場合、分布は異なって見えますか、それとも同じ形状をとる必要がありますか? これの背後にある私の唯一の論理は、彼らがまったく同じ5数の要約を持っている場合、彼らはまったく同じ分布形状をとらなければならないということです。

1
すべての値の指定された割合を含む最小幅を取得する
配列または数値のコレクションの要素の総数の特定の割合を含む最小サイズのスライディングウィンドウの最小/最大境界を見つけたいのですが。 例:説明を簡単にするために整数を取る場合、この配列で探している要素の比率が50%だとします。 [1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10] ミステリー関数は(2、4)のようなものを返します。これは、最小値が2で最大値が4であることを意味します(包括的であり、これらはインデックスではなくVALUESであることに注意してください)。その小さなウィンドウには16個の値のうち8個が含まれ、その幅は2ユニットのみであり、値の数の半分を含む最も狭いウィンドウです。 注:四分位数は[1,1,2,3]、[3,3,3,3]、[3,4,5,6]、[7,8,9,10]であるため、私は探しています。 私はそれをコード化することができます...それがうまくいくのに時間がかかるかもしれません。うまくいけば、誰かが以前にそれに遭遇したことがあります。名前はありますか?誰かが知っている既存の方法はありますか? Pythonの実装に興味があります。 更新: 「short-half」と「shortest interval」という名前を付けたGlen_bのおかげで、これを思い付くことができました。 確率密度間隔を見つける

7
要約統計量からの信頼区間バーのプ​​ロット
箱ひげ図に少し似ています。必ずしも標準の上限信頼区間、下限信頼区間、平均、およびデータ範囲を示すボックスプロットを意味するわけではありませんが、95%信頼区間と平均という 3つのデータのみを含むボックスプロットのようなものです。 これはまさに私が欲しいものを持っていたジャーナル記事のスクリーンショットです: また、そのようなプロットを作成するために回答者が言及するソフトウェアをどのように使用するかについても知りたいです。

1
素敵な要約表を生成する方法は?
Rがsummary()関数から得たデータをテーブルに表示して、簡単に共有できるようにしたいと考えています。私は現在summary()コンソールで実行していて、スクリーンショットを撮っていますが、すべてのグラフと同じように、これを素敵なテーブルとして生成したいです。何か案は?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.