統計とビッグデータ stochastic-processes

1

「線形弾道アキュムレータ」モデル（LBA）は、高速で単純な意思決定タスクにおける人間の行動に対してかなり成功したモデルです。Donkin et al（2009、PDF）は、人間の行動データを与えられたモデルのパラメーターを推定することを可能にするコードを提供しています。ただし、モデルに一見マイナーな変更を加えたいのですが、コードでこの変更を行う方法がわかりません。正規モデルから始めるために、LBAはかなり奇妙なレースの競合者として各応答の選択肢を表し、競合者は次の特性が異なる場合があります。開始位置：U（0、X1）で区切られた一様分布に従って、これは人種によって異なります。速度：これは、特定のレース（加速なし）内で一定に保たれますが、N（X2、X3）で定義されるガウス分布に従ってレースごとに異なりますフィニッシュラインポジション（X4）したがって、各競合他社には、X1、X2、X3、およびX4の独自の値のセットがあります。レースは何度も繰り返され、各レースの後に勝者とその時間が記録されます。X5の定数がすべての勝利時間に追加されます。ここで変更したいのは、開始点の変動を終了線に入れ替えることです。つまり、すべての競技者とすべてのレースで開始点をゼロにしてX1を排除したいのですが、各競技者のX4を中心とする均一分布の範囲のサイズを指定するパラメーターX6を追加したいと思います。フィニッシュラインはレースごとにサンプリングされます。このモデルでは、各競合他社にはX2、X3、X4、およびX6の値があり、X5には競合他社全体の値があります。これを手伝ってくれる人がいたら、とてもありがたいです。ああ、そして上記の "X"という名前のパラメーターから、私がリンクしたLBAコードが使用する変数名へのマッピングを提供するために：X1 = x0max; X2 =ドリフト率; X3 = sddrift; X4 =カイ; X5 = Ter。

11 r stochastic-processes

3

確定的モデルと確率的モデルの違いは何ですか？

単純な線形モデル： ε T N （0 、σ 2）X = α T + εtx=αt+ϵtx=\alpha t + \epsilon_t 〜IIDεtϵt\epsilon_tN（0 、σ2）N(0,σ2)N(0,\sigma^2) とV R （X ）= σ 2E（X ）= α TE(x)=αtE(x) = \alpha tVa r （x ）= σ2Var(x)=σ2Var(x)=\sigma^2 AR（1）： ε T N （0 、σ 2）バツt= α Xt − 1+ ϵtXt=αXt−1+ϵtX_t =\alpha X_{t-1} + \epsilon_t場合〜IIDεtϵt\epsilon_tN（0 …

11 regression stochastic-processes autoregressive deterministic

2

時系列が2次定常である場合、これは厳密に定常であることを意味しますか？

プロセス場合の結合分布厳密に静止しているXのT 1、X 、T 2、。。。、X T mはの結合分布と同じであるXのT 1 + K、X T 2 + K、。。。、X t m + kすべてのm、すべてのk、すべてのt 1、t 2、XtXtX_tXt1,Xt2,...,XtmXt1,Xt2,...,XtmX_{t_1},X_{t_2},...,X_{t_m}Xt1+k,Xt2+k,...,Xtm+kXt1+k,Xt2+k,...,Xtm+kX_{t_1+k},X_{t_2+k},...,X_{t_m+k}mmmkkk。t1,t2,...,tmt1,t2,...,tmt_1,t_2,...,t_m 平均が一定で、自己共分散関数がラグのみに依存する場合、プロセスは2次定常です。したがって、2次定常は厳密な定常を意味しますか？また、2次定常状態では、1次および2次のモーメントよりも高いモーメントについては想定されていません。1次モーメントは平均に対応しますが、2次モーメントは自己共分散に対応しますか？

11 time-series autocorrelation stochastic-processes stationarity

1

Rの「前の状態」が「後の状態」に影響を与えるかどうかをテストする方法

状況を想像してみてください。3つの鉱山の歴史的な記録（20年）があります。銀の存在は来年金を見つける確率を高めますか？そのような質問をテストする方法は？以下はデータの例です。 mine_A <- c("silver","rock","gold","gold","gold","gold","gold", "rock","rock","rock","rock","silver","rock","rock", "rock","rock","rock","silver","rock","rock") mine_B <- c("rock","rock","rock","rock","silver","rock","rock", "silver","gold","gold","gold","gold","gold","rock", "silver","rock","rock","rock","rock","rock") mine_C <- c("rock","rock","silver","rock","rock","rock","rock", "rock","silver","rock","rock","rock","rock","silver", "gold","gold","gold","gold","gold","gold") time <- seq(from = 1, to = 20, by = 1)

10 r time-series hypothesis-testing stochastic-processes

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

無限ランダム幾何学グラフでランダムウォークを行うロボットの密度

ノードの位置が密度ポアソン点プロセスに従い、エッジがdよりも近いノード間に配置されている無限ランダム幾何学グラフを考えてみます。したがって、エッジの長さは次のPDFに従います。ρρ\rhoddd f（l ）= { 2 ld2L ≤ D0l > df(l)={2ld2l≤d0l>d f(l)= \begin{cases} \frac{2 l}{d^2} \;\quad l \le d \\ 0 \qquad\; l > d \end{cases} 上のグラフで、原点を中心とする半径の円の内側のノードを考えます。時間t = 0で、言及した各ノードの内側に小さなロボットを配置するとします。つまり、平面上のロボットの密度は次のように与えられます。rrrt = 0t=0t=0 ここで、lは原点からの距離です。次の図は、ロボットの初期配置の例を示しています。g（l ）= { ρL ≤ R0l > dg(l)={ρl≤r0l>d g(l)= \begin{cases} \rho \quad l \le r \\ 0 \quad\; l > …

10 probability stochastic-processes pdf asymptotics graph-theory

3

Mの連続が与えられた場合、Nの連続が得られると予想されるコイントスの数

Interviewstreetには、1月に2番目のCodeSprintがあり、以下の質問が含まれていました。プログラムによる回答が投稿されていますが、統計的な説明は含まれていません。（Googleの資格情報を使用してInterviewstreet Webサイトにサインインし、このページからコイントス問題に移動すると、元の問題と投稿された解決策を確認できます。）コイントス公平なコインを持っているので、N枚の連続した表が出るまでトスを続けます。あなたはコインをM回投げましたが、驚くべきことに、すべての投げは表になりました。 N連続の頭を取得するまでに必要な追加のトスの予想数はいくつですか？入力：最初の行にはケースの数Tが含まれています。次のT行のそれぞれには、2つの数値NとMが含まれています。出力：対応するテストケースの回答を含むT行を出力します。正確に小数点以下2桁に丸めて回答を出力します。入力例： 4 2 0 2 1 3 3 3 2 出力例： 6.00 4.00 0.00 8.00 サンプルの説明： N = 2かつM = 0の場合、2つの連続した表が出るまでコインを投げ続ける必要があります。平均して6回のコイントスが必要であることを示すことは難しくありません。 N = 2およびM = 1の場合、2つの連続したヘッドが必要で、すでに1を持っています。何があってももう一度トスする必要があります。その最初のトスでは、あなたが頭を得れば、あなたは終わりです。それ以外の場合は、連続カウンターがリセットされたときに最初からやり直す必要があり、N = 2の連続ヘッドが得られるまでコインを投げ続ける必要があります。したがって、コイントスの予想数は1 +（0.5 * 0 + 0.5 * 6）= 4.0です。N= 3かつM = 3の場合、すでに3つの頭があるので、これ以上トスは必要ありません。私が思いついたすべての数式は、上記のサンプル入力データに対して正解でしたが、他のすべての入力セット（不明）に対しては間違っていました。彼らのプログラムによる解決策は、方程式を使って試してみる方法とはかなり異なる方法で問題を解決しているようです。誰かがこれを解決する方程式を考え出す方法を説明できますか？

10 probability stochastic-processes markov-process

1

2次定常であるが厳密に定常ではないプロセスの例

誰かが2次定常である確率的プロセスの良い例を持っていますが、厳密に定常ではありませんか？

10 time-series stochastic-processes stationarity

1

釣りの問題

近くの湖で午前8時から午後8時まで釣りに行きたいとします。乱獲のため、1日に1匹しか捕まえないという法律が定められています。魚を捕まえたら、それを維持するか（その魚と一緒に家に帰る）、または湖に投げ戻して釣りを続けるかを選択できます（ただし、後で小さな魚を受け入れるか、まったく魚を捕まえない危険があります）。あなたはできるだけ大きな魚を捕まえたいです。具体的には、持ち帰る魚の予想される質量を最大化する必要があります。正式には、次のようにこの問題を設定する可能性があります。魚は一定の割合で捕獲され（次の魚を捕獲するのにかかる時間は既知の指数分布に従います）、捕獲された魚のサイズは（既知の）分布に従います。私たちは、現在の時間とあなたが捕まえたばかりの魚のサイズを考慮して、その魚を維持するか、それを投げ返すかを決定するいくつかの決定プロセスを求めています。だから問題は：この決定はどのように行われるべきか？いつ釣りを止めるかを決める簡単な（または複雑な）方法はありますか？問題は、与えられた時間tについて、最適な漁師が時間tに開始した場合に、どの程度の予想魚量が持ち帰るかを決定することと同等だと思います。最適な決定プロセスでは、魚が予想される質量よりも重い場合にのみ、魚を維持します。しかし、それは一種の自己参照のようです。私たちは最適な漁師の観点から最適な釣り戦略を定義しているのですが、どうすればよいのかよくわかりません。

10 stochastic-processes optimal-stopping

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

4

コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか？

コックス比例ハザードモデルから生存曲線をどのように解釈しますか？このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか？または両方が間違っていますか？200200200 ステートメント1：被験者は20％残ります（たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです）。 100010001000200200200200200200 ステートメント2：特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

一定の平均値を持つ時系列の名前は何ですか？

の平均が存在し、すべての時間について一定であるランダムプロセスを考えます。つまり、すべての時間および時間シフト（または「遅れ」）。高いモーメントや分布関数にはこれ以上の条件を課しません。そのようなプロセスをどのように説明できますか？「弱い定常」（つまり、2次の定常性）よりも弱い意味でのみ定常です。E（X T）T E（X T）= E（X T + τ）T τ{ Xt}{Xt}\{X_t\}E（ Xt）E(Xt)\mathbb{E}(X_t)tttE（ Xt）= E（Xt + τ）E(Xt)=E(Xt+τ)\mathbb{E}(X_t)=\mathbb{E}(X_{t+\tau})tttττ\tau 他の形式の定常性には多くの名前があります。たとえば、弱い場合に「広義の定常」または「共分散定常」を追加することもできます。したがって、いくつかの可能な用語が当てはまると思いますが、考えられるすべての用語には欠点があります。一次固定、または注文一方に固定は、「二次固定」と「順に静止に類似している」は、しばしばより高いモーメントのために使用される製剤。しかし、平均値が一定のプロセス（ここでは例）で使用される「1次定常」を見てきたが、信号処理で異なる意味で一般的に使用され、検索エンジンのヒットの大部分を提供するフィールド。私がチェックしたすべての信号処理の本は、一次分布関数が時間に対して不変である場合、つまり、すべての時間、と値シフトしますF X （T ）（X ）= F X （T + τ ）（X ）T τ X F X （T 1）、X （T 2）（X 1、X 2）= F X （T 1 + τ ）、X （t 2 + τ ）（xんnnFバツ（t …

9 time-series terminology stationarity stochastic-processes

1

多変量ホークスプロセスのMLE

多変量ホークスプロセス（HP）の最尤推定量の実装に苦労しています。具体的には、単変量HPの対数尤度関数の分析式はオンラインで簡単に見つけることができますが（たとえば、Ozaki、1979）、多変量HPの対数尤度関数のバージョンは（一貫性がないか、同等か）異なるようです。そこに。また、以下の推定量を自分で導き出そうとしたところ、さらに別の結果が得られました（ただし、このテーマは非常に新しいです）。誰かがこれを片付けてくれませんか？ありがとう！これは私が導き出したものです（私はLaub et al。、2015で使用されている表記に従います）。カウントプロセスのコレクションを考えは、各カウントプロセス（および a自然数）。強度がように指数関数的に減衰する消失関数を使用して多変量HPを定義します。このm変量HPの対数尤度は、個々の対数尤度の合計に等しくなります。つまり、N = （N 1、。。、NのM）T iは、J iは= 1 、。。、M J λ * I（T ）= λ I + M Σ J = 1 Σ T J 、K < T α I 、J、E - β I 、J（T -mmmN=(N1,..,Nm)N=(N1,..,Nm)N=(N_{1},..,N_{m})ti,jti,jt_{i,j}i=1,..,mi=1,..,mi=1,..,mjjj LNL（T）のLNL（T）= M Σ J = 1つのLNLの J（T）LNLの J（T）=- T ∫ 0 …

9 maximum-likelihood stochastic-processes likelihood

1

ガウス過程の事後のシミュレーション

初めて（不正確/間違い）ガウシアンプロセスを確認しました。具体的には、ナンドデフレイタスによるこのビデオを見ました。メモはここからオンラインで入手できます。ある時点で、ガウスカーネル（軸の距離の2乗の指数）に基づいて共分散行列を作成することにより生成された多変量法線から、ランダムなサンプルを抽出します。これらのランダムなサンプルは、データが利用可能になると分散が少なくなる以前の滑らかなプロットを形成します。最終的に、目的は、共分散行列を変更して予測し、対象の点での条件付きガウス分布を取得することです。倍101010xxx コード全体は、Katherine Baileyによる優れた要約でここから入手できます。これは、Nando de Freitasによるコードリポジトリのクレジットです。便宜上、ここにPythonコードを掲載しました。（上記のではなく）事前関数から始まり、「調整パラメーター」を導入します。10333101010 プロットを含めて、コードをPythonおよび[R]に翻訳しました。以下は、[R]の最初のコードチャンクと、テストセットの値の近接性に基づいてガウスカーネルを介して生成された3つのランダム曲線の結果のプロットです。xxx Rコードの2番目のチャンクはより毛羽立ち、トレーニングデータの4つのポイントをシミュレートすることから始まります。これは、これらのトレーニングデータポイントが存在する領域の周りの可能な（前の）曲線間の広がりを絞り込むのに役立ちます。これらのデータポイントの値のシミュレーションは、関数として行われます。「点の周りの曲線の引き締め」を見ることができます：罪（）yyysin()sin()\text{sin}() Rコードの3番目のチャンクは、値（以下の計算を参照）に対応する平均推定値の曲線（回帰曲線に相当）とそれらの信頼区間のプロットを扱います。μ505050 μμ{\bf\mu} 質問：前のGPから後のGPに至るまでの操作について教えてください。具体的には、平均とsdを取得するために、Rコードのこの部分（2番目のチャンク内）を理解したいと思います。 # Apply the kernel function to our training points (5 points): K_train = kernel(Xtrain, Xtrain, param) #[5 x 5] matrix Ch_train = chol(K_train + 0.00005 * diag(length(Xtrain))) #[5 x 5] matrix # Compute the mean …

8 machine-learning simulation stochastic-processes gaussian-process

1

ブラウン運動の

ブラウン運動は、ガウス増分の合計の限界として構築されます。代わりに非ガウス安定分布（例えば、コーシー分布）を使用して、プロセスを構築できますか？そのようなプロセスのスケールパラメータは、式c t = t 1 / αに従って進化しますか？αα\alphact= t1 / αct=t1/αc_t = t^{1/\alpha}

8 stochastic-processes brownian stable-distribution

タグ付けされた質問 「stochastic-processes」

タグ付けされた質問「stochastic-processes」