タグ付けされた質問 「references」

特定の主題に関する外部参照(本、論文など)を求める質問。さらに、常により具体的なタグを使用してください。


2
フリードマン他による「統計学」とフリードマンによる「統計モデル:理論と実践」の選択
私は統計学者ではありませんが、統計に非常に興味があり、参考のために本を購入したいと思います。特定のテーマに関するいくつかの本を持っています(機械学習のための統計学習の要素や、ベイズデータ分析のためのベイジアンデータ分析など)。もっと一般的な本も探していました。 フリードマンの本はしばしばここでよく考えられています: 高度な統計図書の推奨事項 統計学者以外の科学者にはどの本をお勧めしますか? Freedman、Pisani、Purves(A)の統計は、後者の質問に対する選択された答えであり、私はそれを買うつもりでした。しかし、私は統計モデル:理論と実践(B)について知りました。2冊の本は似ているようだ(私が言えること:Amazonは私が完全なToCを読むことさえ制限している...理由は分からない)。公開日は非常に近いです。しかしながら: Bはかなり安いです。ただし、Aを使用することができます。したがって、AがBより明らかに優れている場合は、Aを選択します。 Aはより長いですが、Bに欠けている主要な章は確率に関連しているように思えます。私はその部分は必要ないので、それが唯一の違いまたは主な違いである場合、私はむしろ安くて持ち運び可能なBを買いたいです:) どの本を買うといいですか?
16 references 

5
平均の信頼区間の近似誤差
ましょう{Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^nの値を取る確率変数IIDのファミリーである[0,1][0,1][0,1]平均を有する、μμ\mu及び分散σ2σ2\sigma^2。平均、使用するためのシンプルな信頼区間σσ\sigmaそれが知られるたびに、によって与えられ、 P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). また、理由X¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}}は、標準正規確率変数として漸近的に分布します。正規分布は、近似信頼区間を「構築」するために使用される場合があります。 複数の選択肢の回答の統計試験では、私はこの近似を使用する代わりにしなければならなかった(1)(1)(1)いつでもn≥30n≥30n \geq 30。近似誤差が定量化されていないため、私は常にこれを非常に不快に思っています(想像以上です)。 なぜではなく、正規近似を使用(1)(1)(1)? 私は盲目的にルール適用するには、二度と、したくないn≥30n≥30n \geq 30。そうすることを拒否し、適切な代替手段を提供するのに役立つ良い参考文献はありますか?((1)(1)(1)は、私が適切な代替案と考えるものの例です。) ここで、σσ\sigmaとE[|X|3]E[|X|3]E[ |X|^3]は不明であり、簡単に制限されます。 私の質問は特に信頼区間に関する参照要求であるので、こことここで部分的な複製として提案された質問とは異なることに注意してください。そこでは答えられません。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
どの統計的手法は古風で、教科書から省くべきですか?[閉まっている]
現在のところ、この質問はQ&A形式には適していません。回答は、事実、参考文献、または専門知識によってサポートされると予想されますが、この質問は、議論、議論、世論調査、または詳細な議論を求める可能性があります。この質問を改善し、おそらく再開できると思われる場合は、ヘルプセンターをご覧ください。 6年前に閉鎖されました。 二項比率の信頼区間についての質問に答える際に、私は正規近似が古風で信頼できない方法であるという事実を指摘しました。メソッドとして教えるべきではありませんが、何が適切なメソッドを作るのかについてのレッスンの一部として含まれるという議論があるかもしれません。 使用期限を過ぎており、教科書の将来の版から省略されるべきである(それにより有用なアイデアのためのスペースを作る)他の「標準的な」統計的アプローチは何ですか?

4
ロジット関数は、バイナリデータの回帰モデリングに常に最適ですか?
私はこの問題について考えてきました。バイナリデータをモデル化するための通常のロジスティック関数は次のとおりです しかしであるロジット関数は、S字カーブ、データをモデル化するため、常に最良のですか?たぶん、あなたはあなたのデータは、通常のS字カーブが、ドメインの曲線の異なる種類従わないと信じるに足る理由持っている(0、1)。log(p1−p)=β0+β1X1+β2X2+…log⁡(p1−p)=β0+β1X1+β2X2+… \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots (0,1)(0,1)(0,1) これに関する研究はありますか?プロビット関数または類似のものとしてモデル化できますが、それがまったく別のものである場合はどうでしょうか?これにより、効果をより正確に推定できますか?ただ考えただけで、これに関する研究はあるのだろうか。


5
異なる分類子の長所と短所の比較を含む優れたリソースとは何ですか?
すぐに使える最高の2クラス分類器とは何ですか?はい、私はそれが百万ドルの質問だと思います、そして、はい、私は知っています無料の昼食定理ないいます、そして私は前の質問も読んでいます: ご使用のアプリケーションに最適な、すぐに使用可能な2クラス分類子とは何ですか? そして 最悪の分類器 それでも、私はこの主題についてもっと読むことに興味があります。 さまざまな分類器の特性、利点、機能の一般的な比較を含む、良い情報源は何ですか?

2
「メッセージパッシングメソッド」とは何ですか?
私は、メッセージパッシングメソッドとは何かという漠然とした感覚を持っています。他のすべての要因のすべての近似を条件として、分布の各要因の近似を繰り返し構築することにより、分布の近似を構築するアルゴリズムです。 私は両方が変分メッセージの受け渡しと期待の伝播の例であると信じています。メッセージパッシングアルゴリズムとは、より明示的/正確に何ですか?参照は大歓迎です。

3
時系列の適切な紹介(Rを使用)
私は現在、痛みの経験に関連する心理社会的特性の実験のためのデータを収集しています。その一環として、私は参加者からGSRおよびBPの測定値を、さまざまな自己報告および暗黙の測定とともに電子的に収集しています。私は心理学的なバックグラウンドを持ち、因子分析、線形モデル、実験分析に慣れています。 私の質問は、時系列分析について学ぶために利用できる優れた(できれば無料の)リソースです。私はこの分野に関してはまったくの初心者ですので、どんな助けでも大歓迎です。練習用のパイロットデータがいくつかありますが、データの収集を完了する前に、分析計画を詳細に解決してもらいたいと思います。 提供された参考文献もR関連である場合、それは素晴らしいでしょう。 編集済み:文法を変更し、「自己報告と暗黙の測定」を追加する

9
コンピュータサイエンスに適用される計算統計の概要を提供している書籍は何ですか?
ソフトウェアエンジニアとして、統計アルゴリズム、データマイニング、機械学習、ベイジアンネットワーク、分類アルゴリズム、ニューラルネットワーク、マルコフ連鎖、モンテカルロ法、乱数生成などのトピックに興味があります。 私は個人的にこれらのテクニックのいずれかを実際に操作する喜びを持っていませんでしたが、私は内部でそれらを使用し、それらについてより高いレベルで知りたいソフトウェアで作業しなければなりませんでした。私は広い範囲をカバーする本を探しています-この時点で大きな深さは必要ありません。採用されているアルゴリズムと技術の背後にある数学的基礎を理解できれば、ソフトウェア開発について多くを学ぶことができると思います。 統計分析コミュニティは、ソフトウェアにさまざまな統計要素を実装する方法の詳細を学ぶために使用できる書籍を推奨できますか?

3
ロバスト平均推定のクラッシュコース
私にはたくさんの(約1000)の推定値があり、それらはすべて長期的な弾力性の推定値であると想定されています。もう少しこれらの半分以上が、私は、メソッドBが何か推計だと思う」のようなB.どこかに私が何かを読む方法使用方法Aと休息を用いて推定される非常に見積もりが高い(50から60パーセント)くらいあるので、方法Aとは異なるが「。堅牢な統計に関する私の知識はほとんどないため、両方のサンプルのサンプル平均と中央値のみを計算しました...すぐに違いがわかりました。方法Aは非常に集中しており、中央値と平均値の差はほとんどありませんが、方法Bのサンプルは大きく異なります。 外れ値と測定誤差がメソッドBのサンプルを歪めると結論付けたので、理論と非常に矛盾する約50の値(約15%)を捨てました...そして突然、両方のサンプル(CIを含む)の平均は非常に似ていました。密度もプロットします。 (外れ値を排除するために、サンプルAの範囲を調べ、その範囲外にあるBのすべてのサンプルポイントを削除しました。)手段の堅牢な推定の基本を見つけることができる場所を教えてくださいこの状況をより厳密に判断させてください。そして、いくつかの参照があります。さまざまな手法を深く理解する必要はありませんが、堅牢な推定の方法論に関する包括的な調査を読んでください。 外れ値を削除した後の平均差の有意性についてt検定を行い、p値は0.0559(t約1.9)であり、完全なサンプルの場合、t statは約4.5でした。しかし、それは実際にはポイントではありません。平均は少し異なる可能性がありますが、上記のように50〜60%異なることはありません。そして、彼らはそうは思わない。

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …


3
応用科学者とのコラボレーションに関するアドバイス
私は統計学の大学院生であり、応用科学者(経済学者、森林学者など)とのいくつかの共同研究に関与しています。これらのコラボレーションは(ほとんどの場合)楽しいものであり、私は多くのことを学びますが、たとえば次のような複雑な問題もあります。 良い統計モデルが何であるかについての私の見解は、私の協力者の背景や彼らの分野での一般的な慣行と異なる場合があります。そのため、モデルを理解するのに苦労するか、習慣を変えることに消極的であるため、新しいことを試してみるように説得することは困難です。 さまざまな統計的手法の使用を提案するとき、共同研究者がこれを彼らの「標準」手法に対する批判だと考える印象をしばしば受けます。しかし、統計的な知識や習慣について誰かを批判するつもりは決してありません そして最後に、もう1つの極端な例があります。一部の人々は期待しすぎています。彼らは、私が彼らの助けなしで奇跡的に彼らのデータから興味深い情報を抽出できると思います。もちろん、これは当てはまりません。特に、主題固有の背景を見逃した場合 おそらくもっと多くのポイントを考えることができますが、これらは私の頭に浮かんだ最初のものです。 私があなたに尋ねている質問は: コラボレーションで同じまたは同様の困難を経験していますか?どのように彼らに立ち向かいますか?一般的に、あなたは良い統計協力者になるために何をしますか? このトピックに関するサードパーティのリソース、つまり、統計学者と応用科学者とのコラボレーションに必要なソフトスキルはありますか? 注:この質問は、多かれ少なかれ逆で、この1。
14 references 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.