統計とビッグデータ non-independent

1

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

正規性をテストするとき、残差の相関が重要ではないのはなぜですか？

とき（すなわち、Yは、線形回帰モデルから来ている）、 ε 〜N（0 、σ 2 I ）Y= A X+ εY=AX+εY = AX + \varepsilonYYY その場合には、残差 eは 1、... 、E N相関と独立していません。我々は回帰診断を行うと仮定テストしたいときには ε 〜N（0 、σ 2 I ）、すべての教科書には、Q-Qプロットと残差の統計的検定を使用することが提案されている電子かどうかをテストするために設計された電子〜N（0 、σ 2 I ）のためのいくつかの σ 2 ∈ R。ε 〜N（0 、σ2私）⇒e^= （私− H）Y〜N（0 、（私− H）σ2）ε∼N(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - …

9 regression residuals non-independent

2

従属データのベルヌーイ確率変数の合計をモデル化する方法は？

私はこのようなほぼ同じ質問があります：ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか？ただし、設定はかなり異なります。 S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i}、、〜20、〜0.1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i ベルヌーイ確率変数の結果のデータがあります：、Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} 最尤推定でを推定した場合（およびを取得した場合）、がはるかに大きいことが他の基準で期待される：pipip_ip^MLEip^iMLE\hat p^{MLE}_iP^{S=3}(p^MLEi)P^{S=3}(p^iMLE)\hat P\{S=3\} (\hat p^{MLE}_i)P^{S=3}(p^MLEi)−P^expected{S=3}≈0.05P^{S=3}(p^iMLE)−P^expected{S=3}≈0.05\hat P\{S=3\} (\hat p^{MLE}_i) - \hat P^{expected} \{S=3\}\approx 0.05 したがって、とは独立したものとして扱うことができません（依存関係が小さいため）。XiXiX_{i}XjXjX_{j} (j>k)(j>k)(j>k) これらのようないくつかの制約があります：および（既知）、これは推定に役立つはずです。pi+1≥pipi+1≥pip_{i+1} \ge p_i∑s≤2P^{S=s}=A∑s≤2P^{S=s}=A\sum_{s \le 2}\hat P\{S=s\}=AP{S}P{S}P\{S\} この場合、ベルヌーイ確率変数の合計をモデル化するにはどうすればよいでしょうか？この課題を解決するのに役立つと思われる文献はどれですか。更新しましたさらにいくつかのアイデアがあります：（1）間の未知の依存関係は、連続して1回以上成功した後に始まると想定できます。したがって、場合、およびます。XiXi{X_i}∑i=1,KXi>0∑i=1,KXi>0\sum_{i=1,K}{X_i} > 0pK+1→p′K+1pK+1→pK+1′p_{K+1} \to p'_{K+1}p′K+1<pK+1pK+1′<pK+1p'_{K+1} < p_{K+1} （2）MLEを使用するには、問題が最も少ないモデルが必要です。ここにバリアントがあります： P{X1,...,Xk}=(1−p1)...(1−pk)P{X1,...,Xk}=(1−p1)...(1−pk)P\{X_1,...,X_k\}= (1-p_1) ... (1-p_k)場合任意のkのための ifおよび、および任意のkに対して。∑i=1,kXi=0∑i=1,kXi=0\sum_{i=1,k}{X_i} = 0P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P\{X_1,...,X_k,X_{k+1},...,X_N\}= (1-p_1) ... p_k P'\{X_{k+1},...,X_N\}∑i=1,k−1Xi=0∑i=1,k−1Xi=0\sum_{i=1,k-1}{X_i} = …

9 distributions modeling binomial random-variable non-independent

2

データのROC曲線を計算する

そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線（FPR対TPR OR FAR対FRR）を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

2つの従属変数の違いの分散のデモンストレーションは何ですか？

2つの独立変数の差の分散が分散の合計であることを知っているので、それを証明できます。他のケースでは共分散がどこに行くのか知りたい。

9 variance covariance independence non-independent

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

非排他的なカテゴリ変数を使用して独立性をテストするにはどうすればよいですか？

前書き私は、多くの行とバイナリの結果を含むカテゴリー分割表を持っています。 name outcome1 outcome2 ---- -------- -------- A 14 5 B 17 2 C 6 5 D 11 8 E 18 14 両方のカテゴリ（名前と結果）は互いに独立しているため、これで問題ありません。つまり、人物Aが人物Bになることはできず、結果1は結果2 と同時に発生しません。問題を追加するただし、エージェントにクラスを割り当てることで、データセットを充実させたいと思います。クラスは排他的ではなく、一部は相互に依存することさえあります。上記の例では、4つのクラスC xがあります。 name C1 C2 C3 C4 ---- --- --- --- --- A 0 0 1 1 B 1 0 1 0 C 1 …

8 categorical-data non-independent predictor

1

コルモゴロフ0-1法に関連する推測（イベント用）

してみましょうも確率空間。推測：(Ω,F,P)(Ω,F,P)(\Omega, \mathscr F, \mathbb P) イベント st、またはます。イベント stの独立したシーケンスが存在しますA1,A2,...A1,A2,...A_1, A_2, ...∀ A∈⋂nσ(An,An+1,...)∀ A∈⋂nσ(An,An+1,...)\forall \ A \in \bigcap_n \sigma(A_n, A_{n+1}, ...)P(A)=0P(A)=0P(A) = 0111B1,B2,...B1,B2,...B_1, B_2, ... τAn:=⋂nσ(An,An+1,...)=⋂nσ(Bn,Bn+1,...):=τBnτAn:=⋂nσ(An,An+1,...)=⋂nσ(Bn,Bn+1,...):=τBn\tau_{A_n} := \bigcap_n \sigma(A_n, A_{n+1}, ...) = \bigcap_n \sigma(B_n, B_{n+1}, ...) := \tau_{B_n} これは本当ですか？私が思うに、関数が存在する ST「私たちが選択できるように、sは独立している。本当？なぜ/なぜですか？そうでない場合、上記の予想を他にどのように証明または反証できますか？それが本当なら、コルモゴロフ0-1法（イベント）の証明を変更することで証明できると思います。f:N→Nf:N→Nf: \mathbb N \to \mathbb NAf(n)Af(n)A_{f(n)}Bn=Af(n)Bn=Af(n)B_n = A_{f(n)} おそらく、これらのセットのサブシーケンスの1つは独立しています。 AnAnA_n A2n,A2n+1A2n,A2n+1A_{2n}, A_{2n+1} …

8 probability independence non-independent asymptotics

2

重複するサンプルのt検定

私は10人で協力しています。彼らは6日間グループで作業します。1週間に3日間、2週間に3日間です。毎日、すべての人がいるわけではなく、その一部がいます。毎日、私は個々のパフォーマンスを測定します。一般的なパフォーマンスが第1週または第2週のほうが高かったかどうかを言わなければなりません。たとえば、次のような2つのグループでt検定を行うことを計画していました。グループ1 – 1週目のパフォーマンス 1日目：ポール、メアリー、ジョン1日目：ポール、サラ3日目：ジェシカ、サラグループ2 – 2週目のパフォーマンス 4日目：ポール、リタ5日目：ジョン、ポール、サラ6日目：ジェシカ、リタ質問： 2つのグループを独立していると見なして、独立したt検定を実行できますか？一般的なパフォーマンスが第1週または第2週のほうが良かったと言える最良の方法を教えていただけませんか。私の懸念は、毎日のさまざまな人々と毎日のさまざまなサイズのワークグループです。同じ人が別の日に、両方のグループにいるため、私も心配しています。したがって、サンプルがオーバーラップしているように見えます。

8 t-test non-independent

3

なぜ依存が問題になるのですか？

従属観測が統計で問題になる理由に興味があります。2つの学校の平均試験の点数に差があるかどうかを知りたいとします。各学校で50の観測を収集します。これらの50の観察は、各学校の5つの異なる教室から得られ、教室内で依存関係があります。この場合、t検定の結果はどのように影響を受け、どのようにして不正確な結論につながるのでしょうか。

8 hypothesis-testing t-test independence non-independent

3

共分散とスピアマンのローのサイン

2つの変数間の共分散が常に SpearmanのRhoと同じ符号であるという証明、または両方がゼロでないと仮定した人、またはこれが当てはまらない理由を示す説明/反例はありますか？私は「母集団」（理論的）の大きさについて話しているのであって、それらのサンプルの対応物について話しているのではありません。つまり、場合、分布関数があり、必要なすべてのモーメント、コモーメントなどが存在する2つの確率変数が存在します。X,YX,YX, YFX,FYFX,FYF_X, F_Y Cov(X,Y)=E(XY)−E(X)E(Y)Cov(X,Y)=E(XY)−E(X)E(Y)\text{Cov}(X,Y) = E(XY) - E(X)E(Y) while ρs(X,Y)=Cov[FX(X),FY(Y)]ρs(X,Y)=Cov[FX(X),FY(Y)]\rho_s(X,Y) = \text{Cov}[F_X(X),F_Y(Y)] 私があればということを知っている（依存クアドラントある）、正または負、これは確かに、保持していますX,YX,YX,YQDQDQD (X,Y)=QD⟹sign{Cov(X,Y)}=sign{ρs(X,Y)}(X,Y)=QD⟹sign{Cov(X,Y)}=sign{ρs(X,Y)}(X,Y) = QD \implies \text{sign}\left\{\text{Cov}(X,Y)\right\} = \text{sign}\left\{\rho_s(X,Y)\right\} ...再度、両方がゼロでない場合。しかし、を確立できない、または保持できない場合はどうなりますか？QDQDQD 私は最終的に後の午前する証拠である場合の増加単調変換である、次に。これは非常に直感的で「自明」であるように見えることは知っていますが、そのような証拠をどこにも見つけることができず、自分で証明することもできませんでした。より正確には、私が示したいのは、両方がゼロでなければ、反対の符号を持つことはできないということです。h(Y)h(Y)h(Y)YYYsign{Cov(X,Y)}=sign{Cov(X,h(Y))}sign{Cov(X,Y)}=sign{Cov(X,h(Y))}\text{sign}\left\{\text{Cov}(X,Y)\right\} = \text{sign}\left\{\text{Cov}(X,h(Y))\right\} ここで、スピアマンのローは単調変換に対して不変なので、があるので、共分散の「同じ符号」の結果を証明する方法は、共分散が常にスピアマンのローと同じ符号を持っていることを証明するため、この質問。ρs(X,Y)=ρs(X,h(Y))ρs(X,Y)=ρs(X,h(Y))\rho_s(X,Y) = \rho_s(X,h(Y)) と定義を「非常に近い」ものにするW. Hoeffdingによる共分散の古い美しい式を見つけましたが、象限依存を仮定しないと一般的なステートメントを証明できませんでした。CovCov\text{Cov}ρsρs\rho_s もちろん、誰かが共分散の「同じ符号」（望ましい）結果に直接何かを持っている場合、それは同様に役立ちます。更新私は関連しているが同一ではないこの質問を見つけました。すでに述べたように、それは私の質問を次のように変更します：「両方のメジャーがゼロでないと仮定します。それらは反対の符号を持つことができますか？」

8 covariance non-independent spearman-rho

タグ付けされた質問 「non-independent」

タグ付けされた質問「non-independent」