統計とビッグデータ change-point

3

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのかと思います。の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

1

時間的ネットワークでのリンク異常検出

リンク異常検出を使用してトレンドのトピックを予測するこの論文に出会いましたが、非常に興味深いことがわかりました。この論文は、「リンク異常検出によるソーシャルストリームの新興トピックの発見」です。別のデータセットに複製したいのですが、それらの使用方法を知るための方法に十分な知識がありません。6か月の間にノードのネットワークの一連のスナップショットがあるとします。ノードには、次数の長い分布があり、ほとんどはわずかな接続しかありませんが、一部は非常に多くの接続を持ちます。この期間内に新しいノードが表示されます。バーストの前兆と思われる異常なリンクを検出するために、論文で使用されている逐次割引正規化最尤計算をどのように実装できますか？より適切な他の方法はありますか？理論的にも実際的にもお願いします。誰かがこれをPythonまたはRで実装する方法を教えてくれたら、それは非常に役立ちます。誰でも？私はあなたが賢明な人々が答えのためのいくつかの最初の考えを持っていることを知っています、

32 time-series machine-learning outliers python change-point

5

変化点分析のためのPythonモジュール

時系列の変化点分析を実行するPythonモジュールを探しています。さまざまなアルゴリズムがありますが、それぞれのアルゴリズムを手動でロールすることなく、それらのいくつかの有効性を調査したいと思います。理想的には、bcp（Bayesian Change Point）やRのstrucchangeパッケージのようないくつかのモジュールが欲しいです。以下に施設がないことに驚いています。 statsmodels.tsa：時系列統計分析ツール scikits.timeseries：scipyを拡張する時系列分析ツール scipy.signal：scipyの信号処理ツール Pythonに変更点検出アルゴリズムを備えたモジュールはありますか？

24 time-series python change-point

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

5

時系列の変化の検出（Rの例）

通常は同じ形状の時系列データの変化を検出したいと思います。これまでのところ私が働いてきたchangepointR用のパッケージとcpt.mean(), cpt.var()してcpt.meanvar()機能します。cpt.mean()データが通常1つのレベルにとどまっている場合、PELTメソッドを使用するとうまく機能します。しかし、降下中の変化も検出したいと思います。変化の例として、検出したいのは、実際に例の赤い点線に従うはずの黒い曲線が突然落ちる部分です。私はcpt.var（）関数を試しましたが、良い結果を得ることができませんでした。推奨事項はありますか（必ずしもRを使用する必要はありません）？変更されたデータ（Rオブジェクトとして）は次のとおりです。 dat.change <- c(12.013995263488, 11.8460207231808, 11.2845153487846, 11.7884417180764, 11.6865425802022, 11.4703118125303, 11.4677576899063, 11.0227199625084, 11.274775836817, 11.03073498338, 10.7771805591742, 10.7383206158923, 10.5847230134625, 10.2479315651441, 10.4196381241735, 10.467607842288, 10.3682422713283, 9.7834431752935, 9.76649842404295, 9.78257968297228, 9.87817694914062, 9.3449034905713, 9.56400153361727, 9.78120084558148, 9.3445162813738, 9.36767436354887, 9.12070987223648, 9.21909859069157, 8.85136359917466, 8.8814423003979, 8.61830163359642, 8.44796977628488, 8.06957847272046, 8.37999165387824, 7.98213210294954, 8.21977468333673, 7.683960439316, 7.73213584532496, 7.98956476021092, 7.83036046746187, 7.64496198988985, 4.49693528397253, 6.3459274845112, 5.86993447552116, 4.58301192892403, …

18 r time-series change-point structural-change

6

「ポリシー」の変更による時系列データの大幅な変更を検出する方法

これがこれを投稿するのにふさわしい場所であることを願っています。懐疑論者に投稿することを検討しましたが、研究が統計的に間違っていると彼らは言うだろうと思います。どのようにそれを正しく行うかという質問の裏側に興味があります。ウェブサイトQuantified Selfで、著者は、時間の経過とともに自分自身で測定され、コーヒーを飲むのを突然止める前後で比較された出力のメトリックの実験結果を投稿しました。結果は主観的に評価され、著者は時系列に変化があり、それが政策の変化に関連しているという証拠があると信じていました（コーヒーを飲む）これが私に思い出させるのは、経済のモデルです。経済は1つしかありません（現時点では重要です）。そのため、エコノミストは基本的にn = 1の実験を行っています。このため、データは時間の経過とともにほぼ確実に自己相関します。経済学者は一般的に、FRBが政策を開始するのを見ており、潜在的に政策のために時系列が変化したかどうかを判断しようとしています。時系列がデータに基づいて増加または減少したかどうかを判断するための適切なテストは何ですか？どのくらいのデータが必要ですか？どのツールが存在しますか？私の最初のグーグルはマルコフ切り替え時系列モデルを示唆していますが、私のグーグルのスキルでは、テクニックの名前だけで何かをするのに失敗するわけではありません。

15 time-series change-point

2

Rのnls（）を使用したポイント分析の変更

「変更点」分析、またはnls()R を使用したマルチフェーズ回帰を実装しようとしています。ここに私が作ったいくつかの偽のデータがあります。データを近似するために使用する式は次のとおりです。 y= β0+ β1x + β2max （0 、x - δ）y=β0+β1バツ+β2最大（0、バツ−δ）y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) これは、特定の切片と勾配（および）で特定のポイントまでデータを近似し、特定のx値（）の後に、勾配をです。それが最大のことです。ポイントの前は、0に等しくなり、はゼロにされます。β0β0\beta_0β1β1\beta_1δδ\deltaβ2β2\beta_2δδ\deltaβ2β2\beta_2 したがって、これを行うための私の機能は次のとおりです。 changePoint <- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } そして、私はこの方法でモデルを適合させようとします nls(y ~ changePoint(x, b0, slope1, slope2, delta), data = data, start = c(b0 …

15 r regression change-point nls

4

不連続性を許容するLOESS

LOESSのように、不連続のタイミングがアプリオリにわからないゼロ、1つ、またはそれ以上の不連続を可能にするモデリング手法はありますか？テクニックが存在する場合、Rに既存の実装はありますか？

14 r regression curve-fitting change-point loess

4

Rのランダムな効果を持つ破損したスティック/区分的線形モデルの破損点の推定[コードと出力を含む]

他のランダム効果も推定する必要があるときに、Rに区分的線形モデルのブレークポイントを（固定またはランダムパラメーターとして）推定させる方法を教えてもらえますか？ブレークポイント4のランダムスロープ分散とランダムy切片分散を使用したホッケースティック/ブロークンスティック回帰に適合するおもちゃの例を以下に示します。ブレークポイントを指定する代わりに推定したいです。ランダム効果（望ましい）または固定効果の可能性があります。 library(lme4) str(sleepstudy) #Basis functions bp = 4 b1 <- function(x, bp) ifelse(x < bp, bp - x, 0) b2 <- function(x, bp) ifelse(x < bp, 0, x - bp) #Mixed effects model with break point = 4 (mod <- lmer(Reaction ~ b1(Days, bp) + b2(Days, bp) + (b1(Days, …

14 r mixed-model lme4-nlme change-point piecewise-linear

8

複数の未知のノットで区分的線形回帰を行う方法は？

複数のノットを自動的に検出できる区分的線形回帰を実行するパッケージはありますか？ありがとう。strucchangeパッケージを使用する場合。変化点を検出できませんでした。変化点を検出する方法がわかりません。プロットから、それらを選択するのに役立つ可能性があるいくつかのポイントがあることがわかりました。誰かここに例を挙げていただけますか？

14 regression change-point

6

突然の変化を特徴付ける方法は？

この質問は基本的すぎるかもしれません。データの時間的傾向について、「急激な」変化が起こるポイントを知りたい。たとえば、下の最初の図では、統計的方法を使用して変化点を見つけたいと思います。そして、変化点が明らかでない他のデータ（2番目の図のような）にそのような方法を適用したいのですが、そのような目的のための一般的な方法はありますか？

13 time-series trend change-point

1

時系列の変化が統計的に有意であるかどうかの判断

毎週の合計コール数があり、3年近く前のチャートにプロットしました。目で見て、クリスマスには大幅な落ち込みがあったようですが、回復していないようで、リクエストに段階的な変化があったようです。この違いを定量化できるテストはありますか？乾杯ベン

11 time-series statistical-significance change-point

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

時系列の変化を検出する

トラフィックデータに大きな変化（「トレンド」-スパイク/外れ値ではない）を見つけるアプリケーションプロトタイプの画像を見つけました。同じことができるプログラム（Java、オプションでR）を作成したいのですが、私の統計スキルは少し錆びているため、このトピックをもう一度掘り下げる必要があります。したがって、どのようなアプローチ/アルゴリズムを使用/調査する必要がありますか？

11 time-series change-point

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

タグ付けされた質問 「change-point」

タグ付けされた質問「change-point」