タグ付けされた質問 「power-law」

べき法則は、引数の累乗(ax ^ b)に比例して増加する関数です。多くの場合、近似関係または密度(べき乗分布)で見られます。

4
対数正規分布とべき法則分布の違いの解釈(ネットワーク次数分布)
まず、私は統計学者ではありません。しかし、私は博士号の統計ネットワーク分析を行っています。 ネットワーク分析の一環として、ネットワーク度の相補累積分布関数(CCDF)をプロットしました。私が見つけたのは、従来のネットワーク分布(WWWなど)とは異なり、分布は対数正規分布に最も適しているということです。私はそれをべき法則に適合させようとしましたが、Clauset et alのMatlabスクリプトを使用して、曲線の尾部がカットオフのあるべき法則に従うことがわかりました。 点線はべき乗則を表します。紫色の線は、対数正規フィットを表します。緑の線は指数近似を表します。 私が理解するのに苦労しているのは、これがすべて意味するものですか?このトピックについて少し触れているNewmanのこの論文を読んだことがあります:http : //arxiv.org/abs/cond-mat/0412004 以下に私の推測を示します。 次数の分布がべき法則の分布に従う場合、リンクとネットワークの次数の分布に線形の優先的アタッチメントがあることを理解します(豊かになるほど豊かな効果またはユールプロセス)。 私が目撃している対数正規分布では、曲線の始まりに準線形の優先的付着があり、べき乗則によって適合することができる尾部に向かってより線形になると言うのは正しいですか? また、対数正規分布は確率変数の対数(Xなど)が正規分布しているときに発生するため、対数正規分布ではXの値が小さく、Xの値が小さいべき法則分布に従うランダム変数は さらに重要なことは、ネットワーク度の分布に関して、対数正規の優先添付ファイルはまだスケールフリーネットワークを示唆していますか?私の本能は、曲線の尾部がべき法則で適合できるため、ネットワークはスケールフリー特性を示すと結論付けることができることを教えてくれます。

2
べき乗則に対するトレンドラインの適合度を測定/議論する方法は?
トレンドラインに合わせようとしているデータがあります。データはべき乗則に従うと信じているので、直線を探して対数軸にデータをプロットしました。これにより、(ほぼ)直線になったため、Excelでべき乗則のトレンドラインを追加しました。統計の初心者なので、私の質問は、「線がかなりよく似ているように見える」から「数値特性はこのグラフがべき法則によって適切に適合していることを証明する」に進む最良の方法は何ですか? バツバツx Excelではrの2乗値を取得できますが、統計に関する知識が限られているため、これが特定の状況で実際に適切かどうかさえわかりません。Excelで作業しているデータのプロットを示す以下の画像を含めました。私はRに少し経験があるので、分析がツールによって制限されている場合、Rを使用してRを改善する方法についての提案を受け入れています。

4
べき乗分布の直観
べき乗分布のpdfがであることを知っていp(x)=α−1xmin(xxmin)−αp(x)=α−1xmin(xxmin)−α p(x) = \frac{\alpha-1}{x_{\text{min}}} \left(\frac{x}{x_{\text{min}}} \right)^{-\alpha} しかし、たとえば株価がべき法則の分布に従う場合、それは直感的に何を意味しますか?これは、損失が非常に高いがまれではないことを意味しますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
ウェブサイトへのユニークビジターはべき法則に従いますか?
最初の要素が特定の期間のウェブサイトへの訪問数であり、最大の訪問数を持つ一意のIPによる順序ベクトルであり、2番目の要素が2番目の要素を持つ一意のIPによる訪問数であるとします最大訪問数など。サイトごとのバリエーションがあるかもしれないと理解していますが、一般的にこのベクトルの形状に想定されるパターンはありますか?たとえば、べき乗分布に従っていますか?
14 web  power-law 

1
分布がべき法則に従っているかどうかをテストする方法は?
何人のユーザーがいくつの質問を投稿したかに関するデータがあります。例えば、 [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... これは、2人のユーザーがそれぞれ100の質問を投稿し、9人のユーザーがそれぞれ10の質問を投稿したことを意味します。だから、どうすればUserCount, QuestionCount分布がべき法則に従っているますか? poweRlawパッケージを見つけました。ただし、評価を行うために1つのグループの数値のみを渡すことができます。(このパッケージで提供されている例は単語の頻度です。)では、このパッケージをどのように使用しますか?それとも何かおかしいのでしょうか?また、各ユーザーの質問数のデータもあり[100, 100, 10, 10, 10 ... ]ます。このデータをパッケージに渡すと、何が得られますか?

4
Rでのnlsモデルの正しい開始値の取得
次のようなデータセットに単純なべき乗則モデルを適合させようとしています。 mydf: rev weeks 17906.4 1 5303.72 2 2700.58 3 1696.77 4 947.53 5 362.03 6 目標は、電力線を通過させ、それを使用してrev、今後数週間の値を予測することです。たくさんの研究の結果、私はこのnls機能にたどり着きました。その機能を次のように実装しました。 newMod <- nls(rev ~ a*weeks^b, data=modeldf, start = list(a=1,b=1)) predict(newMod, newdata = data.frame(weeks=c(1,2,3,4,5,6,7,8,9,10))) これはlmモデルで機能しsingular gradientますが、エラーが発生します。これは、開始値aとに関係していることを理解していますb。私はさまざまな値を試しましたが、これをExcelでプロットし、1つを渡し、方程式を取得し、方程式の値を使用しましたが、それでもエラーが発生しました。私はこのような答えをたくさん見て、2番目の答えを試しました(最初の答えは理解できませんでした)が、結果はありませんでした。 ここで、適切な開始値を見つける方法について、いくつかのヘルプを実際に使用できます。または、nlsの代わりに使用できる他の関数。 mydf簡単に再作成したい場合: mydf <- data.frame(rev=c(17906.4, 5303.72, 2700.58 ,1696.77 ,947.53 ,362.03), weeks=c(1,2,3,4,5,6))


2
2つの異なる最小nを生成する不等サイズグループのt検定電力分析を実行できますか?
通常、Power Analysisを計算するためにaを実行するのは簡単ですminimum sample size。特に、私のお気に入りの統計計算環境であるRでは、簡単です。 ただし、私が行ったものやオンラインで参照できるものとは少し異なる電力分析を実施するように求められています。私が求められていることがさらに可能/有効かどうか疑問に思っています。 プロジェクトには基本的に2つunequal groupsの状態があり、これらの2つのグループは結果変数(顧客への電話の継続時間)に関して大幅に異なるという仮説があります。「コントロール」グループは40の州で構成され、約2,500の観測を生成しました。「テスト」グループには、約10の州と500の観測があります。 最初に、を計算するために使用したグループmeans+ を見つけましpooled standard deviationたEffect Size。それから私はと呼ばれるパッケージを使用pwr中にR、私は0.05意義と0.8パワー与えられたグループごとに約135の観測の最小サンプルサイズを、必要なことがわかりました。 ただし、現在のように1つのグループを他のグループよりも大きくしたいため、グループごとに2つの異なる観測値の最小数または状態数の観点からの人口の最小%または「テスト」グループに入らなければならない観察。 2つのサンプルt検定(R関数pwr.t2n.test)のパワー分析が表示されますが、少なくとも1つのサンプルサイズを指定する必要がありますが、両方のグループの最小サンプルサイズを(数値またはパーセンテージ)とこの関数は、2つのグループの標準偏差の違いを反映していません。 これは可能ですか、それとも機能しないことを伝えますか?

2
離散べき法則分布から正確に変量を生成する
べき法則に従って分布するランダムな整数を正確に生成するための最良の方法は何ですか?()を取得する確率はと等しく、メソッドはうまく機能するはずです。、K = 1 、2 、... PのK = K - γ / ζ (γ )γ > 1kkkk=1,2,…k=1,2,…k=1,2,\ldotspk=k−γ/ζ(γ)pk=k−γ/ζ(γ)p_k = k^{-\gamma} / \zeta(\gamma)γ>1γ>1\gamma > 1 私は2つの素朴なアプローチを見ることができます: 計算はいくつかの大規模までよう次いで、これらの確率に応じて整数を生成する、1に"十分に近い"です。が巨大である必要があるため、が1に近い場合、これは機能しません。K maxのΣのK maxの K = 1、γ k個の最大pkpkp_kkmaxkmaxk_\text{max}∑kmaxk=1∑k=1kmax\sum_{k=1}^{k_\text{max}}γγ\gammakmaxkmaxk_\text{max} 連続するべき乗則の分布(解く方法を知っている簡単な問題)から実数を引き出し、何らかの方法で整数に丸めます。上記の方法で各整数を取得する正確な確率を分析的に計算することが可能です。拒否を使用してこれらをに修正できます(関数を評価できる場合は、これも計算できます)。(これは、ある値よりも大きいに対してよりも高い確率で整数を取得し、それよりも小さいを個別に処理する方法でため、になります。) ζ P K K Kpkpkp_kζζ\zetapkpkp_kkkkkkk 正確でもある(概算ではない)より良い方法はありますか?

1
対数-対数プロットに線を当てはめる
私がいじっているデータがあります。簡単にするために、ブロガーが投稿した投稿の数と、その人のブログを購読している人の数の情報がデータに含まれているとしましょう(これは単なる例です)。 #件の投稿と#件の登録者の関係の大まかなモデルを取得したいのですが、ログとログのプロットを見ると、次のように表示されます。 これは大まかな線形関係(対数-対数目盛)のように見え、残差をすばやく確認すると一致するように見えます(明らかなパターンはなく、正規分布からの顕著な逸脱はありません)。 だから私の質問は:この線形モデルを使用しても大丈夫ですか?対数-対数プロットの線形回帰を使用してべき乗則分布を推定するのに問題があることを漠然と知っていますが、私のデータはべき乗則確率分布ではありません(単に大まかに従うように見えるものです)subscribers=A∗(postings)ksubscribers=A∗(postings)ksubscribers = A * (postings) ^ kモデル; 特に、1)を合計する必要はないので、同じ批評が当てはまるかどうかはわかりません。(おそらく、同じ文の「log-log」と「線形回帰」について言及しているので、私は過度に修正しています...)また、私が本当にやろうとしているのは、次のことだけです。 残差が正のブログと残差が負のブログにパターンがあるかどうかを確認します。 購読者が投稿数にどのように関連しているかの大まかなモデルを提案します。

2
べき法則の回帰
これはMath SEからのクロスポストです。 データ(アルゴリズムの実行時間)があり、べき乗則に従っていると思う yreg=kxayreg=kxay_\mathrm{reg} = k x^a とaを決定したい。これまでに行ったことは、log (x )、log (y )を通じて線形回帰(最小二乗)を実行し、その係数からkとaを決定することです。kkkaaalog(x),log(y)log⁡(x),log⁡(y)\log(x), \log(y)kkkaaa 私の問題は、「絶対ログ」エラーが「ログログデータ」で最小化されているため、元のデータを見ると最小化されるのが商であるということです。 yyregyyreg\frac{y}{y_\mathrm{reg}} これにより、yの値が大きい場合、絶対誤差が大きくなります。実際の「絶対」エラーを最小限に抑える「べき乗則回帰」を行う方法はありますか?または、少なくともそれを最小化することでより良い仕事をしますか?yyy 例: 赤い曲線はデータセット全体に適合しています。緑の曲線は、最後の21点のみに適合します。 これがプロットのデータです。左側の列は(x軸)の値、右側の列はt(y軸)の値ですnnnxxxtttyyy 1.000000000000000000e+02,1.944999820000248248e-03 1.120000000000000000e+02,1.278203080000253058e-03 1.250000000000000000e+02,2.479853309999952970e-03 1.410000000000000000e+02,2.767649050000500332e-03 1.580000000000000000e+02,3.161272610000196315e-03 1.770000000000000000e+02,3.536506440000266715e-03 1.990000000000000000e+02,3.165302929999711402e-03 2.230000000000000000e+02,3.115432719999944224e-03 2.510000000000000000e+02,4.102446610000356694e-03 2.810000000000000000e+02,6.248937529999807478e-03 3.160000000000000000e+02,4.109296799998674206e-03 3.540000000000000000e+02,8.410178100001530418e-03 3.980000000000000000e+02,9.524117600000181830e-03 4.460000000000000000e+02,8.694799099998817837e-03 5.010000000000000000e+02,1.267794469999898935e-02 5.620000000000000000e+02,1.376997950000031709e-02 6.300000000000000000e+02,1.553864030000227069e-02 7.070000000000000000e+02,1.608576049999897034e-02 7.940000000000000000e+02,2.055535920000011244e-02 8.910000000000000000e+02,2.381920090000448978e-02 1.000000000000000000e+03,2.922614199999884477e-02 1.122000000000000000e+03,1.785056299999610019e-02 1.258000000000000000e+03,3.823622889999569313e-02 1.412000000000000000e+03,3.297452850000013452e-02 1.584000000000000000e+03,4.841355780000071440e-02 1.778000000000000000e+03,4.927822640000271981e-02 1.995000000000000000e+03,6.248602919999939054e-02 2.238000000000000000e+03,7.927740400003813193e-02 2.511000000000000000e+03,9.425949999996419137e-02 2.818000000000000000e+03,1.212073290000148518e-01 3.162000000000000000e+03,1.363937510000141629e-01 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.