タグ付けされた質問 「non-independent」

データ、イベント、プロセスなどは、1の知識が他の状態または値に関するいくつかの情報を提供する場合、独立していません。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
正規性をテストするとき、残差の相関が重要ではないのはなぜですか?
とき(すなわち、Yは、線形回帰モデルから来ている)、 ε 〜N(0 、σ 2 I )Y= A X+ εY=AX+εY = AX + \varepsilonYYY その場合には、残差 eは 1、... 、E N相関と独立していません。我々は回帰診断を行うと仮定テストしたいときには ε 〜N(0 、σ 2 I )、すべての教科書には、Q-Qプロットと残差の統計的検定を使用することが提案されている電子かどうかをテストするために設計された電子〜N(0 、σ 2 I )のためのいくつかの σ 2 ∈ R。ε 〜N(0 、σ2私)⇒e^= (私− H)Y〜N(0 、(私− H)σ2)ε∼N(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - …

2
従属データのベルヌーイ確率変数の合計をモデル化する方法は?
私はこのようなほぼ同じ質問があります: ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか? ただし、設定はかなり異なります。 S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i}、、〜20、〜0.1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i ベルヌーイ確率変数の結果のデータがあります:、Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} 最尤推定でを推定した場合(およびを取得した場合)、がはるかに大きいことが他の基準で期待される:pipip_ip^MLEip^iMLE\hat p^{MLE}_iP^{S=3}(p^MLEi)P^{S=3}(p^iMLE)\hat P\{S=3\} (\hat p^{MLE}_i)P^{S=3}(p^MLEi)−P^expected{S=3}≈0.05P^{S=3}(p^iMLE)−P^expected{S=3}≈0.05\hat P\{S=3\} (\hat p^{MLE}_i) - \hat P^{expected} \{S=3\}\approx 0.05 したがって、とは独立したものとして扱うことができません(依存関係が小さいため)。XiXiX_{i}XjXjX_{j} (j&gt;k)(j&gt;k)(j>k) これらのようないくつかの制約があります:および(既知)、これは推定に役立つはずです。pi+1≥pipi+1≥pip_{i+1} \ge p_i∑s≤2P^{S=s}=A∑s≤2P^{S=s}=A\sum_{s \le 2}\hat P\{S=s\}=AP{S}P{S}P\{S\} この場合、ベルヌーイ確率変数の合計をモデル化するにはどうすればよいでしょうか? この課題を解決するのに役立つと思われる文献はどれですか。 更新しました さらにいくつかのアイデアがあります: (1)間の未知の依存関係は、連続して1回以上成功した後に始まると想定できます。したがって、場合、およびます。XiXi{X_i}∑i=1,KXi&gt;0∑i=1,KXi&gt;0\sum_{i=1,K}{X_i} > 0pK+1→p′K+1pK+1→pK+1′p_{K+1} \to p'_{K+1}p′K+1&lt;pK+1pK+1′&lt;pK+1p'_{K+1} < p_{K+1} (2)MLEを使用するには、問題が最も少ないモデルが必要です。ここにバリアントがあります: P{X1,...,Xk}=(1−p1)...(1−pk)P{X1,...,Xk}=(1−p1)...(1−pk)P\{X_1,...,X_k\}= (1-p_1) ... (1-p_k)場合任意のkのための ifおよび、および任意のkに対して。∑i=1,kXi=0∑i=1,kXi=0\sum_{i=1,k}{X_i} = 0P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P\{X_1,...,X_k,X_{k+1},...,X_N\}= (1-p_1) ... p_k P'\{X_{k+1},...,X_N\}∑i=1,k−1Xi=0∑i=1,k−1Xi=0\sum_{i=1,k-1}{X_i} = …

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 


3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
非排他的なカテゴリ変数を使用して独立性をテストするにはどうすればよいですか?
前書き 私は、多くの行とバイナリの結果を含むカテゴリー分割表を持っています。 name outcome1 outcome2 ---- -------- -------- A 14 5 B 17 2 C 6 5 D 11 8 E 18 14 両方のカテゴリ(名前と結果)は互いに独立しているため、これで問題ありません。つまり、人物Aが人物Bになることはできず、結果1は結果2 と同時に発生しません。 問題を追加する ただし、エージェントにクラスを割り当てることで、データセットを充実させたいと思います。クラスは排他的ではなく、一部は相互に依存することさえあります。上記の例では、4つのクラスC xがあります。 name C1 C2 C3 C4 ---- --- --- --- --- A 0 0 1 1 B 1 0 1 0 C 1 …

1
コルモゴロフ0-1法に関連する推測(イベント用)
してみましょうも確率空間。推測:(Ω,F,P)(Ω,F,P)(\Omega, \mathscr F, \mathbb P) イベント st、またはます。イベント stの独立したシーケンスが存在しますA1,A2,...A1,A2,...A_1, A_2, ...∀ A∈⋂nσ(An,An+1,...)∀ A∈⋂nσ(An,An+1,...)\forall \ A \in \bigcap_n \sigma(A_n, A_{n+1}, ...)P(A)=0P(A)=0P(A) = 0111B1,B2,...B1,B2,...B_1, B_2, ... τAn:=⋂nσ(An,An+1,...)=⋂nσ(Bn,Bn+1,...):=τBnτAn:=⋂nσ(An,An+1,...)=⋂nσ(Bn,Bn+1,...):=τBn\tau_{A_n} := \bigcap_n \sigma(A_n, A_{n+1}, ...) = \bigcap_n \sigma(B_n, B_{n+1}, ...) := \tau_{B_n} これは本当ですか? 私が思うに、関数が存在する ST「私たちが選択できるように、sは独立している。本当?なぜ/なぜですか?そうでない場合、上記の予想を他にどのように証明または反証できますか?それが本当なら、コルモゴロフ0-1法(イベント)の証明を変更することで証明できると思います。f:N→Nf:N→Nf: \mathbb N \to \mathbb NAf(n)Af(n)A_{f(n)}Bn=Af(n)Bn=Af(n)B_n = A_{f(n)} おそらく、これらのセットのサブシーケンスの1つは独立しています。 AnAnA_n A2n,A2n+1A2n,A2n+1A_{2n}, A_{2n+1} …

2
重複するサンプルのt検定
私は10人で協力しています。彼らは6日間グループで作業します。1週間に3日間、2週間に3日間です。毎日、すべての人がいるわけではなく、その一部がいます。毎日、私は個々のパフォーマンスを測定します。 一般的なパフォーマンスが第1週または第2週のほうが高かったかどうかを言わなければなり ません。たとえば、次のような2つのグループでt検定を行うことを計画していました。 グループ1 – 1週目のパフォーマンス 1日目:ポール、メアリー、ジョン1日目:ポール、サラ3日目:ジェシカ、サラ グループ2 – 2週目のパフォーマンス 4日目:ポール、リタ5日目:ジョン、ポール、サラ6日目:ジェシカ、リタ 質問: 2つのグループを独立していると見なして、独立したt検定を実行できますか? 一般的なパフォーマンスが第1週または第2週のほうが良かったと言える最良の方法を教えていただけませんか。 私の懸念は、毎日のさまざまな人々と毎日のさまざまなサイズのワークグループです。同じ人が別の日に、両方のグループにいるため、私も心配しています。したがって、サンプルがオーバーラップしているように見えます。

3
なぜ依存が問題になるのですか?
従属観測が統計で問題になる理由に興味があります。2つの学校の平均試験の点数に差があるかどうかを知りたいとします。各学校で50の観測を収集します。これらの50の観察は、各学校の5つの異なる教室から得られ、教室内で依存関係があります。この場合、t検定の結果はどのように影響を受け、どのようにして不正確な結論につながるのでしょうか。

3
共分散とスピアマンのローのサイン
2つの変数間の共分散が常に SpearmanのRhoと同じ符号であるという証明、または両方がゼロでないと仮定した人、またはこれが当てはまらない理由を示す説明/反例はありますか? 私は「母集団」(理論的)の大きさについて話しているのであって、それらのサンプルの対応物について話しているのではありません。つまり、場合、分布関数があり、必要なすべてのモーメント、コモーメントなどが存在する2つの確率変数が存在します。X,YX,YX, YFX,FYFX,FYF_X, F_Y Cov(X,Y)=E(XY)−E(X)E(Y)Cov(X,Y)=E(XY)−E(X)E(Y)\text{Cov}(X,Y) = E(XY) - E(X)E(Y) while ρs(X,Y)=Cov[FX(X),FY(Y)]ρs(X,Y)=Cov[FX(X),FY(Y)]\rho_s(X,Y) = \text{Cov}[F_X(X),F_Y(Y)] 私があればということを知っている(依存クアドラントある)、正または負、これは確かに、保持していますX,YX,YX,YQDQDQD (X,Y)=QD⟹sign{Cov(X,Y)}=sign{ρs(X,Y)}(X,Y)=QD⟹sign{Cov(X,Y)}=sign{ρs(X,Y)}(X,Y) = QD \implies \text{sign}\left\{\text{Cov}(X,Y)\right\} = \text{sign}\left\{\rho_s(X,Y)\right\} ...再度、両方がゼロでない場合。しかし、を確立できない、または保持できない場合はどうなりますか?QDQDQD 私は最終的に後の午前する証拠である場合の増加単調変換である、次に。これは非常に直感的で「自明」であるように見えることは知っていますが、そのような証拠をどこにも見つけることができず、自分で証明することもできませんでした。より正確には、私が示したいのは、両方がゼロでなければ、反対の符号を持つことはできないということです。h(Y)h(Y)h(Y)YYYsign{Cov(X,Y)}=sign{Cov(X,h(Y))}sign{Cov(X,Y)}=sign{Cov(X,h(Y))}\text{sign}\left\{\text{Cov}(X,Y)\right\} = \text{sign}\left\{\text{Cov}(X,h(Y))\right\} ここで、スピアマンのローは単調変換に対して不変なので、があるので、共分散の「同じ符号」の結果を証明する方法は、共分散が常にスピアマンのローと同じ符号を持っていることを証明するため、この質問。ρs(X,Y)=ρs(X,h(Y))ρs(X,Y)=ρs(X,h(Y))\rho_s(X,Y) = \rho_s(X,h(Y)) と定義を「非常に近い」ものにするW. Hoeffdingによる共分散の古い美しい式を見つけましたが、象限依存を仮定しないと一般的なステートメントを証明できませんでした。CovCov\text{Cov}ρsρs\rho_s もちろん、誰かが共分散の「同じ符号」(望ましい)結果に直接何かを持っている場合、それは同様に役立ちます。 更新 私は関連しているが同一ではないこの質問を見つけました。すでに述べたように、それは私の質問を次のように変更します:「両方のメジャーがゼロでないと仮定します。それらは反対の符号を持つことができますか?」
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.