統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

8
ベイジアン:尤度関数の奴隷?
Larry Wasserman教授は、彼の著書「統計のすべて」で、次の例を示しています(11.10、188ページ)。ような密度があり、は既知の(非負の積分可能な)関数であり、正規化定数は不明であるとします。ffff(x)=cg(x)f(x)=cg(x)f(x)=c\,g(x)c > 0gggc>0c>0c>0 計算できない場合に興味があります。たとえば、が非常に高次元のサンプル空間でのpdfである場合があります。c=1/∫g(x)dxc=1/∫g(x)dxc=1/\int g(x)\,dxfff が未知であってもからサンプリングできるシミュレーション手法があることはよく知られています。したがって、パズルは次のとおりです。このようなサンプルからをどのように推定できますか。fffcccccc 教授ワッサーマンは、次のベイズソリューションについて説明します聞かせてのためのいくつかの前にである。尤度は したがって、事後 はサンプル値依存しません。したがって、ベイジアンはサンプルに含まれる情報を使用してに関する推論を行うことはできません。ππ\picccπ (C | X )αのC nは π (Cは)xは1、... 、X nは CをLx(c)=∏i=1nf(xi)=∏i=1n(cg(xi))=cn∏i=1ng(xi)∝cn.Lx(c)=∏i=1nf(xi)=∏i=1n(cg(xi))=cn∏i=1ng(xi)∝cn. L_x(c) = \prod_{i=1}^n f(x_i) = \prod_{i=1}^n \left(c\,g(x_i)\right) = c^n \prod_{i=1}^n g(x_i) \propto c^n \, . π(c∣x)∝cnπ(c)π(c∣x)∝cnπ(c) \pi(c\mid x) \propto c^n \pi(c) x1,…,xnx1,…,xnx_1,\dots,x_nccc Wasserman教授は、「ベイジアンは尤度関数の奴隷です。尤度がおかしくなると、ベイジアン推論もそうなります」と指摘しています。 私の仲間のスタッカーに対する私の質問は、この特定の例に関して、ベイズの方法論で何が間違っていたのか(もしあれば)? PSワッサーマン教授が答えで親切に説明したように、この例はエドジョージによるものです。

3
ロジスティック回帰の残差はどういう意味ですか?
この質問に答える際に、 John Christieは、残差を評価することによりロジスティック回帰モデルの適合性を評価することを提案しました。OLSで残差を解釈する方法に精通しています。それらはDVと同じスケールであり、yとモデルによって予測されたyの差は非常に明確です。ただし、ロジスティック回帰では、残差がロジスティック回帰で何を意味するのかわからなかったため、過去にAICなどのモデル近似の推定値を調べてきました。見た後Rのヘルプファイル、私はRで利用できるGLM残差の5種類があることがわかり少しc("deviance", "pearson", "working","response", "partial")。ヘルプファイルは以下を参照します。 Davison、ACおよびSnell、EJ(1991)残差および診断。In:統計理論とモデリング。デイビッド・コックスS、FRS編 ヒンクリー、DV、リード、N。、スネル、EJ、チャップマン&ホール。 私はそのコピーを持っていません。これらの各タイプの解釈方法を説明する簡単な方法はありますか?ロジスティックコンテキストでは、残差の二乗和がモデルの適合性の有意義な尺度を提供しますか、それとも情報量基準の方が良いでしょうか?


3
最初の標準標準テーブルを作成したのは誰ですか?
はじめに統計クラスで標準の標準テーブルを導入しようとしていますが、だれが最初の標準標準テーブルを作成したのでしょうか?コンピューターが登場する前に、彼らはどのようにそれをしましたか?誰かが総当たりでリーマン合計を手で計算することを考えるとぞっとする。


10
「科学者は統計的有意性に反する」とはどういう意味ですか?(自然の中でのコメント)
Nature ScientistsのCommentのタイトルは、統計的有意性に反して始まります。 バレンティン・アムライン、サンダー・グリーンランド、ブレイク・マクシェーン、および800人以上の署名者は、誇大広告の主張の終了と、おそらく重大な影響の却下を求めています。 その後、次のようなステートメントが含まれます。 繰り返しますが、P値、信頼区間、またはその他の統計的手段の禁止を提唱するのではなく、それらをカテゴリ的に扱うべきではありません。これには、統計的に有意であるかどうかの二分法と、ベイズ因子などの他の統計的尺度に基づく分類が含まれます。 下の画像は、一方の効果が「除外」され、もう一方の研究がそうではないため、2つの研究が一致しないとは言っていないことを理解できると思います。しかし、この記事は私が理解できる以上に深く掘り下げているようです。 終わりに向かって、4つのポイントで要約があるようです。統計を書くのではなく読む人にとって、これらをさらに簡単な言葉で要約することは可能ですか? 互換性の間隔について話すときは、4つのことを念頭に置いてください。 最初に、間隔がデータと最も互換性のある値を与えるという仮定が与えられているからといって、それ以外の値が互換性がないということではありません。互換性が低いだけです... 第二に、仮定を考えると、内部のすべての値がデータと等しく互換性があるわけではありません 第三に、0.05のしきい値のように、間隔の計算に使用されるデフォルトの95%はそれ自体が任意の規則です... 最後に、そして最も重要なことは、謙虚であることです。互換性評価は、間隔の計算に使用される統計的仮定の正確さにかかっています...

2
尤度比とベイズ係数
特定の現象に対する/に対する客観的な証拠を表すための尤度比の使用に関しては、むしろ伝道的です。しかし、最近、ベイズ因子がベイジアン手法のコンテキストで同様の機能を果たすことを学びました(つまり、主観的な事前確率を客観的なベイズ因子と組み合わせて、客観的に更新された主観的な信念状態を生成します)。私は現在、尤度比とベイズ因子の計算上の違いと哲学的な違いを理解しようとしています。 計算レベルでは、尤度比は通常、各モデルのそれぞれのパラメーター化の最大尤度を表す尤度を使用して計算されますが(相互検証によって推定されるか、AICを使用してモデルの複雑さに応じてペナルティが課される)、明らかにベイズ因子は(MLEだけでなく)パラメーター空間全体で統合された各モデルの尤度を表す尤度。この統合は、通常どのように実際に達成されますか パラメーター空間から数千(数百万)のランダムサンプルのそれぞれで尤度を計算しようとするだけですか、それともパラメーター空間全体で尤度を統合するための分析方法がありますか?さらに、ベイズ係数を計算するとき、 また、尤度比とベイズ因子の哲学的違いは何ですか(nb尤度比とベイズ法一般の哲学的違いについては質問していませんが、具体的に客観的証拠の表現としてのベイズ因子です)。尤度比と比較して、ベイズ因子の意味をどのように特徴付けることができますか?

2
なぜ3つのパーティションしかないのですか?(トレーニング、検証、テスト)
モデルを大規模なデータセットに適合させようとする場合、一般的なアドバイスは、データを3つの部分(トレーニング、検証、テストデータセット)に分割することです。 これは、通常、モデルには3つの「レベル」のパラメーターがあるためです。最初の「パラメーター」はモデルクラス(SVM、ニューラルネットワーク、ランダムフォレストなど)、2番目のパラメーターセットは「正規化」パラメーターまたは「ハイパーパラメーター」(たとえば、投げ縄ペナルティ係数、カーネルの選択、ニューラルネットワーク構造)および3番目のセットは、通常「パラメーター」と見なされるものです(共変量の係数など)。 モデルクラスとハイパーパラメーターの選択が与えられると、トレーニングセットのエラーを最小化するパラメーターを選択してパラメーターを選択します。モデルクラスが与えられると、検証セットのエラーを最小化することでハイパーパラメーターを調整します。テストセットのパフォーマンスによってモデルクラスを選択します。 しかし、なぜこれ以上パーティションがないのですか?多くの場合、ハイパーパラメータを2つのグループに分割し、「検証1」を使用して最初に適合させ、「検証2」を使用して2番目に適合させることができます。または、トレーニングデータ/検証データのサイズを調整するハイパーパラメーターとして扱うこともできます。 これは一部のアプリケーションですでに一般的な慣行ですか?データの最適な分割に関する理論的な作業はありますか?

5
収縮法はどのような問題を解決しますか?
ホリデーシーズンは、統計学習の要素で火のそばで丸まる機会を私に与えました。(頻度論)計量経済学の観点から言えば、リッジ回帰、なげなわ、最小角度回帰(LAR)などの収縮方法の使用法を把握するのに苦労しています。通常、パラメーターの推定自体と、不偏性または少なくとも一貫性の達成に興味があります。収縮方法はそれを行いません。 統計学者が回帰関数が予測子に反応しすぎると心配しているときにこれらの方法が使用されているように思われ、予測子が実際よりも重要であると考えられます(係数の大きさで測定)。言い換えれば、過剰適合です。 しかし、OLSは通常、公平で一貫した推定値を提供します。(脚注)選択プロセスが考慮されていないため、推定値が大きすぎるのではなく、信頼区間が小さすぎるという過適合の問題を常に見てきました( ESLはこの後者の点に言及しています)。 偏りのない/一貫した係数推定は、結果の公平で一貫した予測につながります。収縮法は、OLSよりも予測を平均結果に近づけ、一見情報をテーブルに残します。 繰り返しますが、収縮方法が解決しようとしている問題はわかりません。何か不足していますか? 脚注:係数を識別するには、完全な列ランク条件が必要です。誤差の外因性/ゼロ条件付き平均仮定と線形条件付き期待仮定は、係数に与えることができる解釈を決定しますが、これらの仮定が正しくない場合でも、偏りのない一貫した推定値を取得します。

6
「ネストされた」モデルと「ネストされていない」モデルの違いは何ですか?
階層/マルチレベルモデルに関する文献では、「ネストされたモデル」と「ネストされていないモデル」についてよく読んでいますが、これはどういう意味ですか?誰かが私にいくつかの例を与えるか、このフレージングの数学的な意味について教えてもらえますか?

9
正規化と機能のスケーリングはどのようにそしてなぜ機能しますか?
多くの機械学習アルゴリズムは、平均相殺と共分散等化でより良く機能することがわかります。たとえば、ニューラルネットワークはより速く収束する傾向があり、K-Meansは通常、前処理された機能を使用してより良いクラスタリングを提供します。これらの前処理ステップの背後にある直感がパフォーマンスの向上につながるとは思いません。誰かがこれを私に説明できますか?

7
複数の従属変数を使用した回帰?
2つ以上の従属変数を持つ(多重)回帰式を持つことは可能ですか?もちろん、DVごとに2つの別々の回帰式を実行できますが、2つのDV間の関係をキャプチャするようには見えませんか?
61 regression 

6
樹状図をどこでカットしますか?
階層的なクラスタリングは、樹状図で表すことができます。樹状図を特定のレベルで切断すると、クラスターのセットが得られます。別のレベルでカットすると、クラスターの別のセットが得られます。樹状図をカットする場所をどのように選択しますか?最適なポイントを検討できるものはありますか?樹状図を時間とともに変化させて見た場合、同じポイントでカットする必要がありますか?

5
k-meansクラスタリングとPCAの関係は何ですか?
クラスタリングアルゴリズム(k-meansなど)の前にPCA(主成分分析)を適用するのが一般的な方法です。これにより、実際のクラスタリング結果が改善されると考えられています(ノイズ低減)。 しかし、PCAとk-meansの関係の比較と詳細な研究に興味があります。たとえば、Chris Ding and Xiaofeng He、2004、K-means Clustering by Principal Component Analysisは、「主成分がK-meansクラスタリングの離散クラスターメンバーシップインジケーターに対する連続的なソリューションである」ことを示しました。しかし、私はこの論文を理解するのに苦労しており、ウィキペディアは実際には間違っていると主張しています。 また、2つの方法の結果は、PCAが分散を維持しながら「機能」の数を減らすのに役立つという意味でやや異なります。一方、クラスタリングは、期待値/手段によっていくつかの点を要約することで「データ点」の数を減らします(k-meansの場合)。したがって、データセットがそれぞれ特徴を持つポイントで構成される場合、PCAはT個の特徴を圧縮することを目的とし、クラスタリングはN個のデータポイントを圧縮することを目的とします。NNNTTTNTTTNNN 私は、これらの2つの手法の関係についての素人の説明と、2つの手法に関するいくつかの技術論文を探しています。

6
Rを使用した投げ縄予測の標準誤差
予測にLASSOモデルを使用しようとしていますが、標準誤差を推定する必要があります。きっと誰かがこれを行うためのパッケージをすでに書いています。しかし、私が見る限り、LASSOを使用して予測を行うCRANのパッケージはいずれも、それらの予測の標準エラーを返しません。 だから私の質問は次のとおりです。LASSO予測の標準エラーを計算するために利用可能なパッケージまたはRコードはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.