統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
異なる距離と方法で得られた階層的クラスタリング樹状図の比較
[最初のタイトル「階層的クラスタリングツリーの類似性の測定」は、トピックをよりよく反映するために@ttnphnsによって後に変更されました] 私は患者記録のデータフレームでいくつかの階層的クラスター分析を実行しています(例:http ://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=yに類似) 私は、さまざまな距離測定、さまざまなパラメーターの重み、さまざまな階層的手法を試し、最終的なクラスター/構造/ビューのツリー(樹形図)への影響を理解しています。異なる階層ツリー間の差を計算する標準的な計算/尺度があるかどうか、およびRでこれを実装する方法(たとえば、一部のツリーがほぼ同一で、一部が大幅に異なることを定量化する)


2
glmnet ridge回帰が手動計算とは異なる答えを与えるのはなぜですか?
glmnetを使用して、リッジ回帰推定値を計算しています。glmnetが本当に思っていることを実際に行っているという点で、私は疑わしい結果になりました。これを確認するために、簡単なRスクリプトを作成し、solveとglmnetで行われたリッジ回帰の結果を比較しました。違いは重要です。 n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 違いの標準は通常20前後であり、これは数値的に異なるアルゴリズムが原因ではないため、何か間違ったことをしているに違いありません。glmnetridgeと同じ結果を得るために設定する必要がある設定は何ですか?

3
「独立した観測」とはどういう意味ですか?
私は、独立した観測の仮定が意味するものを理解しようとしています。いくつかの定義は次のとおりです。 「2つのイベントは、場合にのみ独立しています。」(統計用語辞書)P(a∩b)=P(a)∗P(b)P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) 「あるイベントが発生しても、別のイベントの確率は変わりません」(ウィキペディア)。 「1つの観測値のサンプリングは、2番目の観測値の選択に影響しません」(David M. Lane)。 しばしば与えられる従属的な観察の例は、以下のように教師内にネストされた学生です。教師は生徒に影響を与えますが、生徒はお互いに影響を与えないと仮定しましょう。 では、これらのデータの定義はどのように違反されますか?[student = 1]のサンプリング[grade = 7]は、次にサンプリングされるグレードの確率分布に影響しません。(または、もしそうなら、観測1は次の観測に関して何を予測しますか?) gender 代わりに 測定した場合、観測はなぜ独立しているのteacher_idでしょうか?同じように観測に影響しませんか? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9


5
一般的な分布の実際の例
私は統計に興味を持っている大学院生です。私は素材全体が好きですが、実際の生活への応用について考えるのに苦労することがあります。具体的には、私の質問は一般的に使用される統計分布(通常-ベータガンマなど)についてです。場合によっては、分布を非常に良くする特定のプロパティ、たとえば指数関数のメモリレスプロパティを取得すると思います。しかし、他の多くの場合、私は教科書に見られる一般的な分布の重要性と応用分野の両方について直観を持っていません。 おそらく、私の懸念に対処する多くの優れた情報源があります。それらを共有していただければ幸いです。現実の例と関連付けることができれば、私はこの資料にもっとや​​る気が出ます。

1
切り捨てられた分布の最尤推定量
検討NNNの独立した試料SSSランダム変数から得られたXXX(例えばA切り捨て分布に従うと仮定される正規分布を切り捨て既知の(有限の)最小値と最大値の)およびBが、未知パラメータのμ及びσ 2。場合Xは非切り捨て分布に従って、最尤推定量は、μ及びσ 2のためのμ及びσ 2からSは試料の平均であろうμaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i及び試料分散 σ 2=1σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2。しかし、切り捨て分布のために、このように定義されたサンプル分散はで囲まれている(b−a)2(b−a)2(b-a)^2、それは必ずしも一致推定量ではないのでための:σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2、それに対して確率で収束することができませんσ2σ2\sigma^2としてNNN無限大になります。そのようですので、 μ及び σ 2は、の最尤推定量ではありませんμμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muそして、切り捨て配布するため。もちろん、これは以来、予想されるμとσ 2つの切断正規分布のパラメータは、その平均と分散ではありません。σ2σ2\sigma^2μμ\muσ2σ2\sigma^2 それでは、既知の最小値と最大値の切り捨てられた分布のおよびσパラメーターの最尤推定量は何ですか?μμ\muσσ\sigma

7
Rパッケージを作成する理由と時期
私はこの質問が非常に広範なものであることを理解していますが、Rの新しいパッケージを作成する(またはしない)ことを決定する際の決定的なポイントは何だろうと思います。具体的には、この質問は、さまざまなスクリプトをコンパイルし、それらを新しいパッケージに統合する決定について、R自体を使用します。 これらの決定につながる可能性のあるポイントの中で、私は(非常に網羅的ではない)次のことを考えました: 同じサブフィールドに他のパッケージが存在しない。 他の研究者と交換し、実験の再現性を可能にする必要性; そして、反対の決定につながる可能性のあるポイントの中で: 既に使用されているメソッドの一部は、他のいくつかのパッケージに既に存在します。 新しい独立したパッケージを作成するのに十分ではない新しい関数の数。 どちらのリストにも載る可能性のある多くのポイントを忘れていたかもしれません。また、これらの基準は部分的に主観的なようです。それで、文書化されて広く利用可能な新しいパッケージにさまざまな機能とデータを統合することを開始する正当な理由は何ですか?
28 r  software 

3
ランダムなサンプルが明らかに代表的でない場合はどうなりますか?
ランダムなサンプルを取り、それが明らかに最近の質問のように代表ではないことがわかる場合はどうでしょう。たとえば、人口分布が0を中心に対称であると仮定し、ランダムに描画するサンプルに不均衡な正と負の観測値があり、不均衡が統計的に有意である場合、どうなりますか?バイアスされたサンプルに基づいて、母集団についてどのような合理的な説明をすることができますか?そのような状況での合理的な行動方針は何ですか?私たちの研究でこの不均衡に気づいたとき、それは重要ですか?

3
ガウス比分布:およびの基礎となるデリバティブ
平均と、分散と 2つの独立した正規分布とます。XXXYYYμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y それらの比率の分布に興味があります。どちらやので、ゼロの平均値を有し、Zはコーシーとして配布されていません。Z=X/YZ=X/YZ=X/YXXXYYYZZZ ZのCDFを見つけてZZZから、μxμx\mu_x、μyμy\mu_y、σ2xσx2\sigma^2_xおよび\ sigma ^ 2_yに関するCDFの導関数を取得する必要がありますσ2yσy2\sigma^2_y。 これらがすでに計算されている論文を知っている人はいますか?または、これを自分で行う方法は? 1969年の論文でCDFの式を見つけましたが、これらの派生物を取得することは間違いなく大きな苦痛です。誰かがすでにそれを行っているか、簡単に行う方法を知っているのでしょうか?私は主にこれらのデリバティブの兆候を知る必要があります。 このペーパーには、YYYがほとんど正の場合の分析的に単純な近似も含まれています。私はその制限を持つことはできません。ただし、パラメータ範囲外であっても、近似値は真の導関数と同じ符号を持つ可能性がありますか?

3
ブースティングでは、なぜ学習者は「弱い」のですか?
stats.SEに関する同様の質問も参照してください。 高めるようなアルゴリズムのAdaBoostとLPBoostを「弱い」学習者が唯一のウィキペディアから、有用であることがより良いチャンスよりも実行する必要が合成されることが知られています: 使用する分類器は弱い(つまり、かなりのエラー率を表示する)場合がありますが、パフォーマンスがランダムでない限り(バイナリ分類のエラー率が0.5になる場合)、最終モデルが改善されます。ランダムな分類器から予想されるエラー率よりも高いエラー率の分類器でさえ、分類器の最終線形結合に負の係数を持ち、したがってその逆のように動作するため、有用です。 強い学習者ではなく、弱い学習者を使用する利点は何ですか?(たとえば、「強力な」学習方法でブーストしない理由-過剰適合しやすいのでしょうか?) 弱い学習者にとってある種の「最適な」強さはありますか?そして、これはアンサンブルの学習者の数に関連していますか? これらの質問に対する答えを裏付ける理論はありますか?

5
方程式よりも多くの画像を使用することを説明する統計書
統計に興味を持つようになりましたが、数学を真剣に使ってから長い時間がかかったことを認めなければなりません。方程式の意味を理解することもあれば、追跡できないこともあります。 私は、矢印付きの画像を使用するここで与えられた答えが好きです:二乗平均平方根誤差と平均バイアス偏差の概念的な理解。 方程式よりも数値を使用するモデリング、PCA、シミュレーションなどに関する深刻な統計書籍に関するアドバイスはありますか?私は「ダミーの統計」の本のようなものを望んでいます。これは、誰もが統計にアクセスできるようにする本ですか?。
28 references 

5
線形回帰の等分散性の仮定に違反する危険性は何ですか?
例として、ChickWeightRのデータセットを考えてみましょう。分散は明らかに時間とともに増大するため、次のような単純な線形回帰を使用すると、 m <- lm(weight ~ Time*Diet, data=ChickWeight) 私の質問: モデルのどの側面に疑問があるか? 問題はTime範囲外の外挿に限定されていますか? この仮定の違反に対する線形回帰の許容度(つまり、問題を引き起こすためにはどの程度異分散が必要か)。

4
自習vs教えられた教育?
Programmers.SEにも同様の意図を持つ質問があります。その質問にはかなり良い答えがありますが、一般的なテーマは自習なしではどこにも行かないということです。 プログラミングと統計の間には明らかに大きな違いがあります-プログラミングでは、基本的なロジックを学習し、繰り返し適用するだけです。新しい言語はすべて同じ基本概念を使用しています。自己学習により、より高度な概念を学び、より効率的になります。この種のものは教えるのが非常に難しいです。 統計はまったく異なります。関係するロジックを適用するのは簡単です-通常、他の誰かが方法論をレイアウトしているからです。実際、方法論は通常、大学で教えられているもののほとんどです。しかし、統計はそれよりもはるかに深く、いくつかの非常に高度な概念を伴います。あなたが教えられているのが統計を適用することだけであり、それらを理解することはおろか、それらの概念を探すことさえ難しいです(これはフィールドの専門用語によるものかもしれませんが)。また、プログラミングの自己学習には、新しい概念を紹介するために多くの短い記事/ブログを読む必要がありますが、統計に関するアクセス可能な記事はほとんどの場合初心者向けであり、したがって、私自身。 質問は次のとおりです。統計については、自習は大学教育よりも多かれ少なかれ適切ですか?自己学習の方法論はありますか?以前に人々のために働いたことの例は歓迎されます。 (これはおそらくコミュニティwikiであるべきですが、チェックボックスは表示されません)

1
混合効果モデルで変量効果の分散と相関を解釈する方法は?
皆さんがこの質問を気にしないことを願っていますが、Rでやろうとしている線形混合効果モデル出力の出力を解釈するのに助けが必要です。私は、時間予測子として週に適合したモデルを持ち、私の結果として雇用コースで得点します。スコアを数週間(時間)といくつかの固定効果、性別、人種でモデル化しました。私のモデルにはランダム効果が含まれています。分散と相関関係の意味を理解する助けが必要です。出力は次のとおりです。 Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 相関は.231です。 相関関係は、週とスコアの間に正の関係があるため、解釈できますが、「23%の...」の観点からそれを言いたいと思います。 本当に感謝しています。 返信してくれた「ゲスト」とマクロに感謝します。申し訳ありませんが、返信しないため、私は会議に出ていたので、追いついています。出力とコンテキストは次のとおりです。 以下は、私が実行したLMERモデルの概要です。 >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ Weeks + (1 + Weeks | EmpID) Data: emp.LMER4 AIC BIC logLik deviance REMLdev 1815 1834 -732.6 1693 1685 Random effects: …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.