統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

6
2016年に本当に必要な予測モデリングの変数選択?
この質問はCVで数年前に尋ねられました。1)より優れたコンピューティングテクノロジー(例:並列コンピューティング、HPCなど)と2)新しいテクニック、たとえば[3]を考慮すると、再投稿する価値があるようです。 まず、いくつかのコンテキスト。目標が仮説のテストではなく、効果の推定ではなく、見えないテストセットの予測であると仮定しましょう。したがって、解釈可能な利益に重みは与えられません。第二に、主題の検討における予測子の関連性を排除できないとしましょう。それらはすべて個別に、または他の予測因子と組み合わせてもっともらしいようです。第三に、数百(数百)の予測子に直面しています。第4に、AWSに無制限の予算でアクセスできるため、計算能力が制約にならないとします。 変数選択の通常の理由は、1)効率です。より小さなモデルをより速く適合させ、より少ない予測変数をより安価に収集する、2)解釈; 「重要な」変数を知ることで、基礎となるプロセスの洞察が得られます[1]。 現在、多くの変数選択方法が効果的でなく、しばしば完全に危険であることが広く知られています(例えば、前方段階的回帰)[2]。 次に、選択したモデルが適切であれば、予測子のリストをまったく削減する必要はありません。モデルはあなたのためにそれを行う必要があります。良い例は、すべての無関係な変数にゼロ係数を割り当てるなげなわです。 一部の人々は「象」モデルの使用を支持していることを知っています。考えられるすべての予測変数を適合に投げ込み、それで実行します[2]。 目標が予測精度である場合、変数選択を行う根本的な理由はありますか? [1] Reunanen、J.(2003)。変数選択方法を比較する際の過剰適合。Journal of Machine Learning Research、3、1371-1382。 [2] Harrell、F.(2015)。回帰モデリング戦略:線形モデル、ロジスティックおよび順序回帰、および生存分析への応用。スプリンガー。 [3] Taylor、J。、およびTibshirani、RJ(2015)。統計的学習と選択的推論。国立科学アカデミー論文集、112(25)、7629-7634。 [4] Zhou、J.、Foster、D.、Stine、R.、&Ungar、L.(2005、August)。アルファ投資を使用したスト​​リーミング機能の選択。データマイニングにおける知識の発見に関する第11回ACM SIGKDD国際会議の議事録(pp。384-393)。ACM。

10
ベイジアン対頻繁な議論の*数学的な*根拠はありますか?
ウィキペディアでは次のように述べています: [確率の]数学は、確率の解釈とはほとんど無関係です。 質問:私たちは数学的に正しいことをしたい場合はその後、我々は禁止すべきではない任意の確率の解釈を?すなわち、ベイジアンと頻度の両方が数学的に間違っていますか? 私は哲学が好きではありませんが、数学は好きです。コルモゴロフの公理の枠組みの中で独占的に働きたいです。これが私の目標である場合、ウィキペディアでベイジアン主義と頻度主義の両方を拒否すべきであると言っていることに従うべきでしょうか?概念が純粋に哲学的であり、数学的なものではない場合、最初に統計に表示されるのはなぜですか? 背景/コンテキスト: このブログ投稿ではまったく同じことを言っていませんが、テクニックを「ベイジアン」または「フリークエンシー」に分類しようとすることは、実際的な観点からは逆効果であると主張しています。 ウィキペディアからの引用が真である場合、哲学的観点から統計的方法を分類しようとすることも逆効果であるように思われます-方法が数学的に正しい場合、基礎となる数学の仮定の際に方法を使用することは有効ですそうでなければ、数学的に正しくない場合、または仮定が成り立たない場合、それを使用することは無効です。 一方、多くの人が確率論(つまりコルモゴロフの公理)で「ベイジアン推論」を特定しているように見えますが、その理由はよくわかりません。いくつかの例は、ジェームズ・ストーンの本「ベイズ・ルール」と同様に、「確率」と呼ばれるベイズ推論に関するジェインズの論文です。したがって、これらの主張を額面どおりに受けた場合、それはベイジアン主義を好むべきであることを意味します。 しかし、Casella and Bergerの本は、最尤推定量について説明しているが、最大事後推定量を無視しているため、頻繁に使用されているように見えますが、その中のすべてが数学的に正しいようにも見えます。 それでは、統計的に数学的に正しいバージョンのみが、ベイジアン主義と頻度主義に関して完全に不可知ではないことを拒否するということになるのではないでしょうか?両方の分類のメソッドが数学的に正しい場合、正確で明確に定義された数学よりも曖昧で不明確な哲学を優先するため、他のものよりもいくつかを好むのは不適切な実践ではありませんか? 要約:要するに、ベイジアン対頻繁な議論の数学的根拠が理解できず、議論の数学的根拠がない場合(これはウィキペディアが主張するものです)、なぜそれが容認されるのか分かりませんすべてが学術的な談話です。

3
時系列分析にリカレントニューラルネットワークを使用する適切な方法
リカレントニューラルネットワークは、「通常の」ニューラルネットワークとは、「メモリ」層を持っているという事実によって異なります。この層のため、リカレントNNは時系列モデリングに役立つと思われます。ただし、それらの使用方法を正しく理解しているかどうかはわかりません。 :のは、(左から右に)私は、次の時系列を持っているとしましょう[0, 1, 2, 3, 4, 5, 6, 7]、私の目標は、予測することでiポイントを使用して番目のポイントをi-1してi-2(それぞれの入力などi>2)。「通常の」非定期的なANNでは、次のようにデータを処理します。 target| input 2| 1 0 3| 2 1 4| 3 2 5| 4 3 6| 5 4 7| 6 5 次に、2つの入力ノードと1つの出力ノードを持つネットを作成し、上記のデータでトレーニングします。 リカレントネットワークの場合、このプロセスを(もしあれば)変更する必要がありますか?

2
独立成分分析と因子分析の関係は何ですか?
私は独立成分分析(ICA)を初めて使用し、メソッドの基本的な理解しかありません。ICAは、1つの例外を除いて、因子分析(FA)に似ているように思われます:ICAは、観測されたランダム変数が非ガウスの独立成分/因子の線形結合であると仮定しますが、従来のFAモデルは、観測されたランダム変数相関のあるガウス成分/因子の線形結合です。 上記は正確ですか?

6
確率の収束とほぼ確実な収束
これら2つの収束の尺度の違いを実際に見たことはありません。(または、実際には、さまざまなタイプの収束のいずれかですが、特にこれらの2つは、多数の弱法則と強力な法則のために言及しています。) 確かに、私はそれぞれの定義を引用し、それらが異なる場合の例を与えることができますが、それでもまだよくわかりません。 違いを理解する良い方法は何ですか?なぜ違いが重要なのですか?それらが異なる特に記憶に残る例はありますか?

8
順序データに使用する適切な基本統計とは何ですか?
私はいくつか持っている順序データの調査の質問から得られたし。私の場合、それらはリッカートスタイルの応答です(強く同意しない、同意しない、中立、同意する、強く同意します)。私のデータでは、それらは1-5としてコード化されています。 ここで手段が意味することはあまりないと思うので、どのような基本的な要約統計量が役に立つと考えられますか?

5
統計学者は、シミュレーションなしで母分散の不偏推定量として(n-1)を使用することにどの程度同意しましたか?
分散を計算する式の分母にはがあります。(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} なぜだろうといつも思っていました。しかし、「」が「なぜ」であるかについてのいくつかの優れたビデオを読んで見ることは、人口分散の優れた公平な推定量であるようです。一方、母分散を過小評価し、過大評価します。n (n − 2 )(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) 私が知りたいのは、コンピューターが存在しない時代に、この選択がどれほど正確に行われたかということです。これを証明する実際の数学的証明はありますか、またはこの純粋に経験的かつ統計学者は当時の「最良の説明」を思いつくために多くの計算を手作業で行いましたか? 統計学者は、19世紀初頭にコンピューターの助けを借りてどのようにしてこの公式を思いついたのでしょうか?マニュアルまたはそれは目に会う以上のものですか?


5
PCAでのローディングと固有ベクトル:いつ使用するか?
主成分分析(PCA)では、固有ベクトル(単位ベクトル)と固有値を取得します。今、私たちのように負荷を定義してみましょうLoadings=Eigenvectors⋅Eigenvalues−−−−−−−−−−√.Loadings=Eigenvectors⋅Eigenvalues.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. 固有ベクトルは単なる方向であり、負荷(上記で定義)にはこれらの方向に沿った分散も含まれることがわかっています。しかし、理解を深めるために、固有ベクトルの代わりにロードを使用する場所を知りたいのですが?例は完璧でしょう! 一般に、固有ベクトルを使用している人しか見ていませんが、時々(上記で定義したように)負荷を使用するため、その違いを本当に理解していないと感じています。
67 pca 

4
GaussianカーネルがPCAにとって魔法のようになっているのはなぜですか?
私は、カーネルPCA(約読んでいた1、2、3)ガウスと多項式カーネルを持ちます。 ガウスカーネルは、どのような種類の非線形データも例外的にどのように分離するのですか?直感的な分析と、可能であれば数学的に複雑な分析を提供してください。 他のカーネルにはないガウスカーネル(理想的なσσ\sigma)のプロパティとは何ですか?ニューラルネットワーク、SVM、およびRBFネットワークが思い浮かびます。 たとえば、Cauchy PDFを基準にして、同じ結果を期待してみませんか?

1
どの相関関係が行列を特異にし、特異点またはほぼ特異点の意味は何ですか?
私はさまざまな行列(主にロジスティック回帰)でいくつかの計算を行っていますが、一般的に「行列は特異です」というエラーが表示されます。ここでの私の質問は、「高度な」相関行列とは何だと思いますか?この単語を表す相関のしきい値はありますか?変数が別の変数と相関している0.97のように、これは行列を特異にするのに十分な「高」ですか? 質問が非常に基本的なものである場合、おthisび申し上げますが、この問題について言及している参考資料を見つけることができませんでした(参考資料へのヒントは大きなプラスになります!)。

9
このチャートは、テロ攻撃の可能性を統計的に示していますか?
私はこの画像が頻繁に渡されるのを見ています。 私はこの方法で提供された情報が何らかの形で不完全である、または誤っていることさえあるという直感を持っていますが、私は応答するのに十分な統計に精通していません。このxkcdコミックについて考えると、確かな履歴データがあっても、状況によって予測方法が変わることがあります。 提示されたこのチャートは、難民からの脅威レベルを正確に示すのに役立ちますか?このチャートを多かれ少なかれ有用にする必要な統計的コンテキストはありますか? 注:素人の言葉でそれを保つようにしてください:)

4
見て、あなたは見つける(相関関係)
数百の測定値があります。今、私は何らかのソフトウェアを利用して、すべてのメジャーをすべてのメジャーに関連付けることを検討しています。これは、数千の相関があることを意味します。これらの中には、データが完全にランダムである場合でも(統計的に)高い相関があります(各メジャーには約100個のデータポイントしかありません)。 相関関係を見つけた場合、相関関係を探したときの情報をどのように含めることができますか? 私は統計のレベルが高いわけではありませんので、ご容赦ください。

7
いくら支払う?実用的な問題
これは在宅での質問ではなく、当社が直面している本当の問題です。 ごく最近(2日前)、10000個の製品ラベルの製造をディーラーに注文しました。ディーラーは独立した人です。彼はラベルを外部から製造し、会社はディーラーに支払いをします。各ラベルの費用は会社にとって1ドルです。 昨日、ディーラーにはラベルが付属していましたが、ラベルはそれぞれ100ラベルのパケットにバンドルされていました。このように、合計100個のパケットがあり、各パケットには10​​0個のラベルが含まれていたため、合計10000個のラベルがありました。ディーラーに10000ドルの支払いを行う前に、数個のパケットをカウントして、各パケットに100個のラベルが正確に含まれるようにしました。ラベルを数えると、100ラベルに満たないパケットが見つかりました(97ラベルが見つかりました)。これが偶然ではなく意図的に行われたことを確認するために、さらに5つのパケットをカウントし、各パケット(最初のパケットを含む)で次の数のラベルを見つけました。 Packet Number Number of labels 1 97 2 98 3 96 4 100 5 95 6 97 すべてのパケットを数えることは不可能だったため、平均ベースで支払いを行うことにしました。したがって、6つのパケットのラベルの平均数は97.166であるため、合計支払い額は9716ドルでした。 統計学者がそのようなタイプの問題にどのように対処しなければならないかを知りたいだけです。 さらに、ラベル全体の実際の数を超えて支払われていないことを95%保証するために、いくら支払うべきかを知りたいと思います。 追加情報: P(100個を超えるラベルを含むパケット)= 0 P(90個未満のラベルを含むパケット)= 0 = {パケットの重みが小さいため、パケットのカウント中に90未満のラベルが簡単に検出されます} 編集: ディーラーはそのような不正行為を単に否定した。これらのディーラーは、会社が支払っている金額についてメーカーから受け取る特定のコミッションに基づいて機能していることがわかりました。メーカーに直接連絡したところ、メーカーでもディーラーの欠陥でもないことがわかりました。製造業者は、「シートのサイズが標準化されていないためラベルが短くなり、1枚のシートから何枚でも切り取ってパケットにまとめます」と述べています。 さらに、追加の情報で与えられた最初のアサーションが検証されます。これは、製造業者がシートのサイズのわずかな増加から、追加のラベルをカットできないこと、また、シートのサイズのわずかな縮小からはカットできないことを認めたためですまったく同じサイズの100個のラベル。

7
確率ではなく最大対数確率を最適化する理由
最大化する必要がある確率を定式化できるほとんどの機械学習タスクでは、いくつかのパラメーター確率の代わりに、実際に対数確率最適化します。たとえば、最尤トレーニングでは、通常対数尤度です。勾配法を使用してこれを行う場合、これには要因が含まれます。ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot \frac{\partial p}{\partial \theta} いくつかの例については、こちらまたはこちらをご覧ください。 もちろん、最適化は同等ですが、勾配は異なりますので、勾配ベースの方法は異なる動作をします(特に確率勾配法)。任意の正当性があることがある勾配がより良い作品勾配?logplog⁡p\log pppp

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.