統計とビッグデータ sparse

2

現在、バイナリロジスティック回帰を使用して一部のデータをモデル化しています。従属変数には多くの正のケースと負のケースがあります-それはまばらではありません。また、トレーニングセットが大きく（> 100,000）、関心のある主な効果の数は約15であるため、p> nの問題は心配していません。私が心配しているのは、予測変数の多くが、連続している場合、ほとんどの場合ゼロであり、名目上の場合、ほとんどの場合nullであることです。これらの疎な予測子変数が> 0（またはnullではない）の値を取る場合、データに精通しているため、これらの変数が私の陽性のケースを予測する上で重要であることを知っています。これらの予測子のスパース性がモデルにどのように影響するかについての情報を探しています。特に、スパースではなく相関しているが、実際にはポジティブケースの予測がうまくいかない別の予測変数がある場合、スパースではあるが重要な変数の影響がモデルに含まれないようにしたいと思います。。例を示すと、誰かが特定のアイビーリーグの大学で受け入れられるかどうかをモデル化しようとしていて、私の3つの予測因子がSATスコア、GPA、およびバイナリとしての「寄付> 100万ドル」であった場合、私には理由があります。「寄付> 100万ドル」は、真実である場合、受け入れを非常に予測するものであると信じることです。高いGPAやSATよりもはるかに高いですが、非常にまばらです。これが私のロジスティックモデルにどのように影響しますか？また、これを調整する必要がありますか？また、別のタイプのモデル（たとえば、決定木、ランダムフォレストなど）がこれをより適切に処理しますか？

8 regression logistic predictor sparse

3

SPSSを使用した2x3混合設計ANOVAの事後テスト？

実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group（コントロール、実験）、time（最初、2、3）、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です！記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。どう思いますか？どちらが正しい方法でしょうか？

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

2

リッジのMATLABの実装に混乱

ridgeMATLAB には2つの異なる実装があります。1つは単に x=(A′A+Iλ)−1A′bx=(A′A+Iλ)−1A′b\mathbf x = (\mathbf{A}'\mathbf{A}+\mathbf{I}\lambda)^{-1}\mathbf{A}'\mathbf b （ウィキペディアのリッジ回帰ページで見られるように）、とII\mathbf{I} サイズ列の単位行列であること（AA\mathbf{A}） ××\times 列（AA\mathbf{A}）、および私は単にMatlabの「尾根」を x = ridge(A, b, lambda) 私の問題は、どちらも異なる結果を返すことです。（1）必要な結果を返します（他の人と結果を比較することでわかります）が、（2）同じ結果が返されないのはなぜですか？私のマトリックス AA\mathbf A疎で、1％1と99％0で埋められます。一部の列には1がほとんど含まれていません。最大の違いは、1が非常に少ない列の係数が（1）の0に非常に近いことですが、（2）の0からかなり離れている可能性がありますなぜそれが違うのか、そして（2）の呼び出しを変更して（1）と同じ結果を出すにはどうすればいいですか？

8 matlab ridge-regression sparse

タグ付けされた質問 「sparse」

タグ付けされた質問「sparse」