統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
L1正則化による回帰はLassoと同じであり、L2正則化による回帰はリッジ回帰と同じですか?そして、「投げ縄」の書き方は?
私は、特にAndrew Ngの機械学習コースを通じて機械学習を学習するソフトウェアエンジニアです。正則化で線形回帰を研究していると、混乱する用語が見つかりました。 L1正則化またはL2正則化による回帰 ラソ リッジ回帰 だから私の質問: L1正則化による回帰はLASSOとまったく同じですか? L2正則化による回帰は、リッジ回帰とまったく同じですか? 「LASSO」は書面でどのように使用されますか?それは「LASSO回帰」でしょうか?「投げ縄がより適切である」などの使用法を見てきました。 上記の1と2の答えが「はい」の場合、なぜこれら2つの用語に異なる名前があるのですか?「L1」と「L2」はコンピューターサイエンス/数学から、「LASSO」と「リッジ」は統計から来ていますか? これらの用語の使用は、次のような投稿を見たときに混乱を招きます。 「L1とL2の正則化の違いは何ですか?」(quora.com) 「なげなわとリッジのどちらを使用すべきですか?」(stats.stackexchange.com)


1
ブースティングの相対的な変数の重要性
Gradient Boosted Treesで相対的な変数の重要度がどのように計算されるかについての説明を探しています。 メジャーは、変数が分割用に選択された回数に基づいており、各分割の結果としてモデルに対する2乗改善によって重み付けされ、すべてのツリーで平均されます。[ Elith et al。2008年、回帰ツリーをブーストするためのワーキングガイド ] そして、それは以下よりも抽象的ではありません: I2j^(T)=∑t=1J−1i2t^1(vt=j)Ij2^(T)=∑t=1J−1it2^1(vt=j)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 合計がJ末端ノードツリーTの非末端ノードに対するものであり、v tはノードtに関連付けられた分割変数であり、^ i 2 tは、定義された分割の結果としての二乗誤差の対応する経験的改善ですas i 2(R l、R r)= w l w rtttJJJTTTvtvtv_{t}ttti2t^it2^\hat{i_{t}^2}、 ¯ のY L、 ¯ Y Rはそれぞれ左右娘応答手段であり、WL、WR重みの対応する和です。i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2yl¯,yr¯yl¯,yr¯\bar{y_{l}}, \bar{y_{r}}wl,wrwl,wrw_{l}, w_{r}[フリードマン2001、グリーディ関数近似:勾配ブースティングマシン] 最後に、関連するセクション(10.13.1ページ367)が上記の2番目のリファレンス(説明される可能性がある)と非常に似ているため、統計学習の要素(Hastie et al。2008)がここで非常に役立つとは思いませんでした。フリードマンが本の共著者であるという事実によって)。 PS:相対変数の重要度の測定値は、gbm Rパッケージのsummary.gbmによって提供されることを知っています。ソースコードを調べようとしましたが、実際の計算がどこで行われているのか見つけることができないようです。 ブラウニーポイント:これらのプロットをRで取得する方法を知りたい


2
線形回帰の信頼帯の形状と計算の理解
OLS線形回帰に関連付けられた曲線の信頼帯の形の起源と、回帰パラメーター(勾配と切片)の信頼区間との関係を理解し​​ようとしています。たとえば(Rを使用): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) バンドは、2.5%インターセプト、97.5%勾配、および97.5%インターセプト、2.5%勾配(完全ではありませんが)で計算された線の限界に関連しているようです。 xnew <- seq(0,400) int <- confint(fit) lines(xnew, (int[1,2]+int[2,1]*xnew)) lines(xnew, (int[1,1]+int[2,2]*xnew)) 私が理解していないのは2つのことです: 2.5%の勾配と2.5%の切片、および97.5%の勾配と97.5%の切片の組み合わせはどうですか?これらは、明らかにプロットされたバンドの外側にある線を与えます。信頼区間の意味が理解できないかもしれませんが、95%のケースで私の推定が信頼区間内にある場合、これらは可能な結果のように見えますか? 上限と下限の間の最小距離(つまり、2本の線が交差する点の近く)を決定するものは何ですか? これらのバンドが実際にどのように計算されるかわからないので、両方の疑問が生じると思います。 回帰パラメーターの信頼区間を使用して(predict()または同様の関数に手作業で依存せずに)上限と下限を計算するにはどうすればよいですか?Rのpredict.lm関数を解読しようとしましたが、コーディングは私を超えています。関連する文献や統計の初心者に適した説明へのポインタをいただければ幸いです。 ありがとう。

3
ランダムフォレストはどのように外れ値に敏感ではないのですか?
これを含むいくつかの情報源で、ランダムフォレストは外れ値の影響を受けないことを読みました(たとえば、ロジスティック回帰や他のMLメソッドのように)。 ただし、2つの直観がそれ以外のことを教えてくれます。 決定木が作成されるたびに、すべてのポイントを分類する必要があります。これは、外れ値でも分類されるため、ブースティング中に選択された決定木に影響を与えることを意味します。 ブートストラップは、RandomForestがサブサンプリングを行う方法の一部です。ブートストラップは外れ値の影響を受けやすくなっています。 異論のある情報源で、外れ値に対する感度に関する私の直感を調整する方法はありますか?

3
隠れマルコフモデルと条件付きランダムフィールドの直感的な違い
HMM(Hidden Markov Models)は生成モデルであり、CRFは識別モデルであることを理解しています。また、CRF(条件付きランダムフィールド)がどのように設計され使用されているかも理解しています。私が理解していないのは、それらがHMMとどのように異なるかです。HMMの場合、前のノード、現在のノード、および遷移確率でのみ次の状態をモデル化できますが、CRFの場合はこれを実行でき、任意の数のノードを接続して依存関係を形成できますまたはコンテキスト?私はここで正しいですか?

2
ブートストラップ法に必要なサンプルサイズの決定/提案法
これは、誰も実際に簡単な答えを出すことができない、かなりホットなトピックであることを知っています。それにもかかわらず、次のアプローチが役に立たないのではないかと思っています。 ブートストラップ法は、サンプルが元の母集団とほぼ同じ分布をたどる(正確に読む)場合にのみ役立ちます。これを確実にするには、サンプルサイズを十分に大きくする必要があります。しかし、十分な大きさは何ですか? 私の前提が正しければ、中央限界定理を使用して母平均を決定するときに同じ問題が生じます。サンプルサイズが十分に大きい場合にのみ、サンプル平均の母集団が正規分布(母集団平均付近)であることを確認できます。言い換えると、サンプルは母集団(分布)を十分に表す必要があります。しかし、再び、何が十分な大きさですか? 私の場合(管理プロセス:需要を完了するのに必要な時間対需要の量)私はマルチモーダル分布(2011年に終了するすべての需要)のある人口を持っています。人口よりも通常分布している(現在の日と過去の日の間で終了するすべての要求、理想的にはこのタイムスパンはできるだけ小さい)研究したい。 2011年の人口は、サンプルサイズサンプルを作成するのに十分な単位ではありません。値を選択し、 ()と仮定します。ここで、試行錯誤を行って適切なサンプルサイズを決定します。を取り、サンプル平均母集団がKolmogorov-Smirnovを使用して正規分布しているかどうかを確認します。そうであれば、サンプルサイズで同じ手順を繰り返しますが、サンプルサイズ(など)で繰り返しません。バツバツxnnnバツバツx101010x = 10バツ=10x=10n = 50n=50n=50404040606060 しばらくして、2011年の母集団を多かれ少なかれ適切に表現するために、が絶対最小サンプルサイズであると結論付けました。関心のある母集団(現在の日と過去の日の間に終了するすべての要求)のばらつきが少ないことがわかっているため、ブートストラップにサンプルサイズを安全に使用できます。(間接的に、はタイムスパンのサイズを決定します:要求を完了するのに必要な時間。)n = 45n=45n=45n = 45n=45n=45n = 45n=45n=45454545 要するに、これは私の考えです。しかし、私は統計学者ではなく、統計学の授業がその先の日に行われたエンジニアなので、多くのゴミを生成した可能性を排除することはできません:-)。皆さんはどう思いますか?私の前提が理にかなっている場合、より大きいを選択する必要がありますか?あなたの答え次第です(恥ずかしいと思う必要がありますか?:-)さらにディスカッションのアイデアを投稿します。バツバツx101010 最初の回答に対する回答返信いただきありがとうございます。あなたの回答は、特に本のリンクに関して非常に役に立ちました。 しかし、私は情報を提供しようとして、質問を完全に曇らせたことに不満を感じています。ブートストラップサンプルが母集団サンプルの分布を引き継ぐことを知っています。私は完全にあなたに従いますが... 元の母集団サンプルは、母集団サンプルの分布が母集団の「実際の」分布に対応する(等しい)ことをある程度確実にするのに十分な大きさである必要があります。 これは、サンプル分布が母集団分布と一致することを合理的に確認するために、元のサンプルサイズがどれだけ大きくする必要があるかを判断する方法に関する単なるアイデアです。 二峰性の人口分布があり、一方の頂点が他方の頂点よりもはるかに大きいとします。サンプルサイズが5の場合、5つのユニットすべてが大きなトップに非常に近い値を持つ可能性が高くなります(ユニットをランダムに描画する広告のチャンスは最大です)。この場合、サンプル分布はモノモーダルになります。 サンプルサイズが100の場合、サンプル分布もバイモーダルである可能性ははるかに大きくなります!! ブートストラップの問題は、サンプルが1つしかないことです(そして、そのサンプルをさらにビルドします)。サンプル分布が実際に母集団分布と一致しない場合、問題が発生しています。これは、サンプルサイズを無限に大きくすることなく、「悪いサンプル分布」の可能性をできるだけ低くするためのアイデアです。

5
離散変数と連続変数の両方を使用したデータセットのクラスタリング
10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。 これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません(実際、実際には定義されていません)。 私の質問は: 離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム(たとえば、K-Means、次にGaussian Mixture(GMM))を適用することをお勧めしますか? そうでない場合: 離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか? 連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか?

5
情報獲得、相互情報および関連する措置
アンドリューモア は、情報ゲインを次のように定義しています。 私G (Y| バツ)= H(Y)− H(Y| バツ)私G(Y|バツ)=H(Y)−H(Y|バツ)IG(Y|X) = H(Y) - H(Y|X) ここで、は条件付きエントロピーです。ただし、ウィキペディアは上記の量の相互情報を呼び出します。H(Y| バツ)H(Y|バツ)H(Y|X) 一方、ウィキペディアは、情報ゲインを、2つのランダム変数間のカルバック-ライブラー発散(別名情報発散または相対エントロピー)として定義します。 DKL(P| | Q)=H(P、Q )− H(P)DKL(P||Q)=H(P、Q)−H(P)D_{KL}(P||Q) = H(P,Q) - H(P) ここで、はクロスエントロピーとして定義されます。H(P、Q )H(P、Q)H(P,Q) これら2つの定義は互いに矛盾しているようです。 また、他の著者が、2つの追加の関連概念、すなわち微分エントロピーと相対情報ゲインについて話しているのを見ました。 これらの数量間の正確な定義または関係は何ですか?それらすべてを網羅した優れたテキスト本はありますか? 情報獲得 相互情報 クロスエントロピー 条件付きエントロピー 微分エントロピー 相対情報ゲイン


7
平面上のサンプルの中央値、またはより高い順序のスペースについて受け入れられている定義はありますか?
もしそうなら、何?そうでない場合は、なぜですか? ライン上のサンプルの場合、中央値は合計絶対偏差を最小化します。定義をR2などに拡張するのは自然に思えますが、私はそれを見たことがありません。しかし、その後、私は長い間左のフィールドに出てきました。

4
活性化関数としてtanhがシグモイドよりも常に優れているのはなぜですか?
Andrew NgのCourseraのニューラルネットワークとディープラーニングコースでは、tanhtanhtanhを使用することはを使用するよりもほぼ常に好ましいと述べていsigmoidsigmoidsigmoidます。 彼が与える理由は、を使用する出力tanhtanhtanhはsigmoidsigmoidsigmoidの0.5 ではなく0を中心とし、これにより「次の層の学習が少し簡単になる」からです。 アクティベーションの出力速度を中心に学習するのはなぜですか?バックプロップ中に学習が行われると、彼は前のレイヤーを参照していると思いますか? tanhtanhtanh推奨する他の機能はありますか?より急な勾配は、消失する勾配を遅らせますか? sigmoidsigmoidsigmoidが望ましい状況はありますか? 数学的に軽く、直感的な回答が望ましい。

2
部分最小二乗回帰の背後にある理論
SVDとPCAを理解している人のために、部分最小二乗回帰(オンラインで入手可能)の背後にある理論の説明をお勧めできますか?私は多くのソースをオンラインで見てきましたが、厳密さとアクセシビリティの適切な組み合わせを備えたものは見つかりませんでした。 統計的学習の要素を調べました。これは、相互検証、QLS(部分最小二乗法)回帰とは何か、OLSとはどう違うのかという質問に対するコメントで提案されました。、しかし、私はこの参照がトピックの正義を行うとは思わない(そうするのは簡単すぎて、主題に関する多くの理論を提供しない)。私が読んだから、PLS、予測変数の線形結合を利用その最大化共分散制約を受けるとz_i ^ Tz_j = 0であれば、私\ NEQ j、ここで\ varphi_iz私= Xφ私zi=Xφiz_i=X \varphi_iyTz私yTzi y^Tz_i Z T I Z 、J = 0 、I ≠ jは、φ I∥はφ私∥ = 1‖φi‖=1\|\varphi_i\|=1zT私zj= 0ziTzj=0z_i^Tz_j=0i ≠ ji≠ji \neq jφ私φi\varphi_i共分散を最大化する順序で繰り返し選択されます。しかし、私が読んだ後でも、それが本当かどうか、もしそうなら、メソッドがどのように実行されるかはまだわかりません。

1
事後予測チェックとは何ですか?また、それらを有用にするものは何ですか?
事後予測分布が何であるかを理解し、事後予測チェックについて読んでいますが、それが何をするのかはまだ明確ではありません。 事後予測チェックとは正確には何ですか? 一部の著者は、事後予測チェックの実行は「データを2回使用する」ため、悪用すべきではないと言うのはなぜですか?(または、それがベイジアンではないこともあります)?(例:thisまたはthisを参照) このチェックは、まさに何の役に立つのですか?モデル選択に本当に使用できますか?(たとえば、フィットネスとモデルの複雑さの両方を考慮しますか?)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.