統計とビッグデータ social-science

3

R：データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]

キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

4

現在の議論が統計的有意性に与える影響

過去数年間、さまざまな学者が科学的仮説検定の有害な問題を提起しており、これは「研究者の自由度」と呼ばれています。つまり、科学者は分析中に、p値<5％の発見に偏る多くの選択肢を持っています。これらのあいまいな選択は、たとえば、どのケースが含まれるか、どのケースが外れ値として分類されるか、何かが現れるまで多数のモデル仕様を実行するか、nullの結果を公開しないかなどです（心理学におけるこの議論を引き起こした論文はここにあります、人気のスレートの記事を参照し、フォローアップの議論をアンドリュー・ゲルマンことで、ここで、そしてタイム誌にもこの話題に触れここに。）最初に、1つの明確化の質問：タイム誌は書いて、「0.8のべき乗とは、テストされた10の真の仮説のうち、その影響がデータに反映されないため、除外されるのは2つだけであることを意味します。」これが、教科書で見つけたべき関数の定義にどのように当てはまるかはわかりません。これは、パラメーター関数としてnullを拒否する確率ですθθ\theta。異なるとθθ\theta我々は異なる力を持っているので、私はかなり上記の引用を理解していません。第二に、いくつかの研究の影響：私の政治学/経済学の分野では、学者は利用可能な国年データをすべて使い果たします。したがって、ここでサンプルをいじる必要はありませんか？複数のテストを実行して1つのモデルのみを報告するという問題は、その分野の他の誰かがあなたの論文を再テストし、堅牢な結果が得られなかったとしてすぐにあなたを打ちのめすという事実によって修正できますか？これを予測して、私の分野の学者は、robustness check複数のモデル仕様が結果を変更しないことを示すセクションを含める可能性が高くなります。これで十分ですか？ Andrew Gelmanらは、データに関係なく、実際には存在しない「パターン」を見つけて公開することが常に可能であると主張している。しかし、経験に基づく「パターン」は理論によってサポートされなければならないという事実を考えると、これは問題になりません。ある分野内のライバル理論は、どのキャンプがより多くの「パターン」を見つけることができるかを見つけるために議論/競争に参加するだけです。様々な場所で。パターンが本当に疑わしい場合、他のサンプル/設定に同様のパターンがない場合、背後にある理論はすぐに打ち消されます。これが科学の進歩ではないでしょうか？無効な結果に対するジャーナルの現在の傾向が実際に繁栄すると仮定すると、すべての無効な結果と肯定的な結果を一緒に集計し、それらすべてがテストしようとしている理論を推測する方法はありますか？

10 hypothesis-testing inference philosophical reproducible-research social-science

1

オバマ氏のキャンペーンにおけるデータマイニング手法

私はオバマ氏の再選キャンペーンのデータマイニングチームに関するこの記事に出くわしました。残念ながら、この記事は統計アルゴリズムの実際の仕組みについて非常にあいまいです。しかし、一般的な手法は社会科学や政治学で知られているように思えました。これは私の専門分野ではないので、誰かがこの種の技法についての文献（概要）を指摘してもらえますか？

10 data-mining social-network social-science

4

社会科学または教育研究における

「なぜ値が低くても社会科学や教育の研究で受け入れられるのか」について述べた論文を探しています。知っている場合は、正しいジャーナルを教えてください。R2R2R^2

8 correlation references r-squared social-science

1

疫学者/公衆衛生の同僚に高度な予測モデリングを穏やかに導入するにはどうすればよいですか？

社会科学と疫学の背景から来た私の同僚は、最小二乗回帰、ロジスティック回帰、および生存分析について訓練を受けました。彼らは、95％の信頼区間とパラメーター係数のp値を確認することを好み、ニューラルネットワーク、CART、バギングとブースティング、ペナルティ付き回帰手法などの現在の予測ツールに不信感を抱いています。

8 predictive-models epidemiology teaching social-science

タグ付けされた質問 「social-science」

タグ付けされた質問「social-science」