統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
PCAの線形性
ただし、PCAは線形手順と見なされます。 PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), ここで 。これは、データ行列 PCAによって取得された固有ベクトルが、データ行列合計でPCAによって取得された固有ベクトルに等しくならないということです。しかし、線形関数定義は次のことではありません。X=X1+X2+…+XnX=X1+X2+…+XnX=X_1+X_2+\ldots+X_nXiXiX_iXiXiX_ifff f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)? では、PCAがこの非常に基本的な線形性の条件を満たさない場合、なぜ「線形」と見なされるのでしょうか。
35 pca  linear 

3
クラスタリング方法を選択する方法は?クラスターソリューションを検証する方法(メソッドの選択を保証するため)
クラスター分析の最大の問題の1つは、使用するさまざまなクラスタリング手法(階層的クラスタリングのさまざまなリンケージ手法を含む)に基づいて異なる結論を導き出さなければならない場合があることです。 これについてのあなたの意見を知りたい- どの方法を選択し、どのようにするか。「クラスタリングの最良の方法は、正しい答えを与えることです」と言う人もいるかもしれません。しかし、クラスター分析は教師なしの手法であると考えられているのではないかと疑問に思うかもしれません。どのメソッドまたはリンケージが正しい答えであるかをどのように知ることができますか? 一般的に:クラスタリングだけで十分に堅牢であるか?または、2つ目のメソッドが必要で、両方に基づいて共有結果を取得しますか? 私の質問は、クラスタリングのパフォーマンスを検証/評価する方法についてだけでなく、より広範なものです- ある基準に基づいて、あるクラスタリング方法/アルゴリズムを選択/優先しますか?また、データをクラスター化する方法を選択する際に注意すべき一般的な警告はありますか? 私はそれが非常に一般的な質問であり、答えるのが非常に難しいことを知っています。これについての詳細を知るためのコメント、アドバイス、提案があれば教えてください。

2
線形回帰の勾配ブースティング-なぜ機能しないのですか?
勾配ブースティングについて学習している間、このメソッドがモデルの構築とアンサンブルに使用する「弱い分類器」のプロパティに関する制約について聞いたことがありません。しかし、線形回帰を使用するGBのアプリケーションを想像することはできませんでした。実際、いくつかのテストを実行したとき、それは機能しません。私は、残差の平方和の勾配で最も標準的なアプローチをテストし、後続のモデルを一緒に追加していました。 明らかな問題は、最初のモデルからの残差が、もはや適合する回帰線が実際に存在しないような方法で取り込まれることです。私の別の観察では、後続の線形回帰モデルの合計も単一の回帰モデルとして表現できるため(すべての切片と対応する係数を追加)、モデルをどのように改善できるか想像できません。最後の観察結果は、線形回帰(最も一般的なアプローチ)は損失関数として二乗残差の合計を使用していることです-GBが使用しているものと同じです。 また、学習率を下げるか、各反復で予測子のサブセットのみを使用することも考えましたが、それでも最終的には単一のモデル表現にまとめることができるため、改善はないと思います。 ここで何が欠けていますか?Gradient Boostingで使用するのに線形回帰は何らかの形で不適切ですか?それは、線形回帰が損失関数として残差の二乗和を使用しているからでしょうか?グラディエントブースティングに適用できるように、弱い予測子には特定の制約がありますか?

5
ベイジアンのように考え、頻度の高い人のように確認してください。それはどういう意味ですか?
ここにあるデータサイエンスコースの講義スライドをいくつか見ています。 https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf 残念ながら、この講義のビデオを見ることができず、スライドのある時点で、プレゼンターには次のテキストがあります。 いくつかの重要な原則 ベイジアンのように考え、周波数主義者のように確認する(和解) 誰がそれが実際に何を意味するか知っていますか?これから集められるべきこれらの2つの考え方について、良い洞察があると感じています。

11
8個のランダムビットを(0、255)で均一に生成するのはなぜですか?
8つのランダムビット(0または1)を生成し、それらを連結して8ビット数を形成しています。単純なPythonシミュレーションでは、離散セット[0、255]で均一な分布が得られます。 これが私の頭の中で理にかなっている理由を正当化しようとしています。これを8枚のコインのフリッピングと比較した場合、期待値は4頭/ 4尾のどこかにありませんか?だから私にとって、私の結果は範囲の中央のスパイクを反映するはずです。言い換えると、8個のゼロまたは8個のシーケンスが、4と4、または5と3などのシーケンスと同じくらい可能性が高いように見えるのはなぜですか?ここで何が欠けていますか?


4
LSTMは消失勾配の問題をどのように防止しますか?
LSTMは、消失勾配の問題を回避するために特に発明されました。これは、以下の図で(Greffらによる)Constant cell Carousel(CEC)を使用してcellの周りのループに対応するものと想定されています。 (ソース:deeplearning4j.org) そして、その部分は一種の恒等関数として見ることができるので、導関数は1であり、勾配は一定のままであることを理解しています。 私が理解していないのは、他のアクティベーション機能のためにどのように消えないのですか?入力、出力、および忘却ゲートはシグモイドを使用します。この微分は最大で0.25で、gとhは伝統的にtanhでした。それらを逆伝播すると、勾配が消えないのはどうしてですか?



4
分布はどのようにして無限の平均と分散を持つことができますか?
以下の例を挙げることができれば幸いです。 無限平均と無限分散のある分布。 無限の平均と有限の分散を持つ分布。 有限平均と無限分散の分布。 有限平均と有限分散を持つ分布。 Wilmottフォーラム/ウェブサイトでスレッドを読んで、グーグルで、読んでいる記事で使用されているこれらのなじみのない用語(無限平均、無限分散)を見て、十分に明確な説明を見つけられなかったからです。また、自分の教科書には説明がありません。

6
短い時系列に最適な方法
短い時系列のモデリングに関連する質問があります。それらをモデル化するかどうかは問題ではなく、どのようにモデル化するかです。(非常に)短い時系列(長さ)をモデル化するには、どのような方法をお勧めしますか?「最高」とは、ここでは最も堅牢なものを意味します。つまり、観測数が限られているという事実によるエラーが最も起こりにくいものです。短いシリーズでは、単一の観測が予測に影響を与える可能性があるため、この方法は、予測に関連するエラーと可能性のある変動の慎重な推定値を提供する必要があります。私は一般に単変量時系列に興味がありますが、他の方法について知ることも興味深いでしょう。T≤20T≤20T \leq 20


2
重回帰または偏相関係数?そして2つの関係
この質問が理にかなっているかさえわかりませんが、重回帰と偏相関の違いは何ですか(相関と回帰の明らかな違いは別として、私が目指しているものではありません)? 次のことを理解したいと 思います。2つの独立変数(、)と1つの従属変数()があります。現在、個別の独立変数は従属変数と相関していません。ただし、が減少すると、所定の減少します。だから私は重回帰または偏相関によってそれを分析しますか?バツ1x1x_1バツ2x2x_2yyyバツ1x1x_1 yyyバツ2x2x_2 うまくいけば私の質問を改善するために編集します。 私は重回帰と偏相関の違いを理解しようとしています。ときに、与えられたために減少減少、すなわちの複合効果によるものでおよびに(重回帰)またはそれが原因の影響の除去である(部分的な相関)を?yyyバツ1x1x_1バツ2x2x_2バツ1x1x_1バツ2x2x_2yyyバツ1x1x_1

3
PCAとトレイン/テストの分割
複数のバイナリラベルセットがあるデータセットがあります。ラベルのセットごとに、分類器をトレーニングし、相互検証によって評価します。主成分分析(PCA)を使用して次元を減らしたい。私の質問は: データセット全体に対して PCAを一度実行してから、上記のように相互検証に低次元の新しいデータセットを使用することは可能ですか?または、すべてのトレーニングセットに対して個別のPCAを実行する必要がありますか(つまり、すべての分類子およびすべての相互検証フォールドに対して個別のPCAを実行することを意味します)。 一方では、PCAはラベルを使用しません。一方、テストデータを使用して変換を行うため、結果に偏りが生じる可能性があります。 作業を節約することに加えて、データセット全体でPCAを1回実行すると、すべてのラベルセットのデータセットを一度に視覚化できることに注意してください。ラベルセットごとに異なるPCAがある場合、各ラベルセットを個別に視覚化する必要があります。

5
自己相関のテスト:Ljung-Box対Breusch-Godfrey
生データまたはモデル残差の自己相関をテストするために非常に頻繁に使用されるLjung-Boxテストを見るのに慣れています。自己相関のための別のテスト、つまりBreusch-Godfreyテストがあることを忘れていました。 質問: Ljung-BoxとBreusch-Godfreyのテストの主な違いと類似点は何ですか? (参考文献は歓迎されている。どういうわけか、私はどの見つけることができませんでした比較私はの説明を見つけることができた。私は、いくつかの教科書に見て、材料をオンラインで検索が二つの試験のを個別に各テストを、しかし、私は、ISに興味を持っています2つの比較。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.