統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
モデルの検証前または検証内で機能の正規化を実行しますか?
機械学習の一般的なグッドプラクティスは、予測変数の特徴の正規化またはデータの標準化を行うことです。つまり、データを中心に減算し、平均値を分散(または標準偏差)で割って正規化します。自己封じ込めと私の理解のために、これを行って主に2つのことを達成します。 数値の安定性のために、余分な小さなモデルの重みを避けます。 共役勾配などの最適化アルゴリズムの迅速な収束を確保し、1つの予測子次元の大きさが他の予測子次元よりも大きい場合、収束が遅くならないようにします。 通常、データはトレーニング、検証、テストセットに分割されます。文献では、通常、特徴の正規化を行うには、予測変数のセット全体の平均と分散(または標準偏差)を使用することがわかります。ここで見た大きな欠点は、それを行うと、実際にはトレーニング予測変数に将来の情報、つまり平均と分散に含まれる将来の情報が導入されることです。 したがって、トレーニングデータの正規化を行い、平均と分散を保存します。次に、トレーニング平均と分散を使用して、検証およびテストデータセットの予測変数に特徴の正規化を適用します。これに根本的な欠陥はありますか?誰もがより良い代替案を推奨できますか?

4
Cumming(2008)は、複製で得られたp値の分布は元のp値にのみ依存すると主張しています。どうしてそれが本当ですか?
私はGeoff Cummingの2008年の論文Replication and Intervalsをpppppp p p読んでいます:値は漠然と未来を予測しますが、信頼区間ははるかに優れています[Google Scholarでの200回の引用] -そしてその中心的な主張の1つに混乱しています。これは、カミングが値に反対し、信頼区間を支持する一連の論文の1つです。しかし、私の質問はこの議論に関するものではなく、値に関する特定の主張にのみ関係します。pppppp 要約から引用させてください: この記事は、最初の実験の結果が両側である場合、複製からの 片側値が間隔に可能性があることを示しています。確率その、完全に確率その。注目すべきことに、間隔(間隔と呼ばれる)は、サンプルサイズが大きくてもこの幅です。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p&lt;.00008p&lt;.00008p < .0000810%10%10\%p&gt;.44p&gt;.44p > .44ppp カミングは、この「間隔」、および実際に元の実験(同じ固定サンプルサイズ)を複製するときに取得する値の全体分布は、元の値のみに依存するとそして、真のエフェクトサイズ、パワー、サンプルサイズなどに依存しません。pppp p o b tpppppppobtpobtp_\mathrm{obt} [...]の確率分布は、(またはpower)の値を知らない、または仮定せずに導出できます。[...]についての事前知識を前提とせず、 [グループ間差異の観測]がについて与える情報のみを、特定の計算の基礎として使用します。および間隔の分布の 。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 私はこれに混乱しています。なぜなら、値の分布はパワーに強く依存しているように見えますが、元の自体はそれに関する情報を何も与えていないからです。真の効果サイズはあり、分布は均一である可能性があります。または、本当の効果のサイズが巨大である場合、ほとんどの場合、非常に小さい値を期待する必要があります。もちろん、可能性のある効果の大きさよりも事前にいくつかを仮定して開始することができますが、カミングはこれが彼がやっていることではないと主張しているようです。P O のB T δ = 0 Pppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 質問:ここで何が起こっているのでしょうか? このトピックはこの質問に関連していることに注意してください。最初の実験の95%信頼区間内で、繰り返し実験のどの部分が効果サイズを持ちますか?@whuberによる優れた答えがあります。Cummingには、このトピックに関する次のような論文があります:Cumming&Maillardet、2006、Confidence Intervals and Replication:Where the Next Mean Fall?-しかし、それは明確で問題ありません。 私もカミングの請求が2015年の自然法論文で数回繰り返されることに注意してください気まぐれ値は再現不可能な結果を生成し、PPPあなた方のうちの何人かは全体来ているかもしれない(それは既にGoogle Scholarの中で〜100の引用を持っています): [...] 繰り返される実験の値にはかなりのばらつきがあります。実際には、実験はめったに繰り返されません。次のがどの程度異なるかはわかりません。しかし、非常に異なる可能性があります。単一の複製が返された場合、例えば、にかかわらず、実験の統計的検出力の、値、存在する反復実験が戻ってくる可能性間の値をと(及び変化が[原文のまま]はさらに大きくなります)。P P 0.05 80 …


2
閉じた形のなげなわ解の導出
投げ縄の問題については そのように\ベータ\ | | \ _1 \当量トン。ソフトしきい値の結果が頻繁に表示されます \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn}(\ beta ^ {\ text {LS}} _ j)(| \ beta_j ^ {\ text {LS}} | -\ gamma)^ + 正規直交Xの場合。ソリューションがそのように「簡単に示される」ことができると主張されていますが、有効なソリューションを見たことはありません。誰かが1つを見た、またはおそらく派生させたことがありますか?minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta)∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq tβlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ XXX
52 lasso 

6
ランダムフォレストモデルの予測には予測間​​隔がありますか?
randomForestモデルを実行すると、モデルに基づいて予測を行うことができます。各予測の予測間隔を取得する方法はありますか。その結果、モデルがその答えをどの程度「保証」しているのかがわかります。これが可能である場合、単にモデル全体の従属変数の変動性に基づいているのでしょうか、それとも特定の予測に従ってた特定の決定木に応じて、より広い間隔とより狭い間隔を持っていますか?

5
ニューラルネットワークとサポートベクターマシン:2番目は間違いなく優れていますか?
私が読んだ論文の多くの著者は、SVMが回帰/分類の問題に直面するための優れた手法であり、NNを介して同様の結果を得ることができないことを認識しています。多くの場合、比較では NNではなくSVM 強力な創立理論を持っている 二次計画法によるグローバル最適化に到達 適切な数のパラメーターを選択しても問題ありません 過剰適合の傾向が少ない 予測モデルを保存するために必要なメモリが少ない より読みやすい結果と幾何学的解釈をもたらす それは真剣に広く受け入れられた考えですか?ノーフリーランチ定理や同様の記述を引用しないでください。私の質問は、これらのテクニックの実用的な使用法です。 反対に、NNが直面する抽象的な問題はどのようなものですか?

3
ANOVA仮定の正規性/残差の正規分布
ANOVAのウィキペディアのページには、次の3つの仮定がリストされています。 ケースの独立性-これは、統計分析を簡素化するモデルの仮定です。 正規性-残差の分布は正規です。 等分散性と呼ばれる分散の平等(または「均一性」)... ここで重要な点は、2番目の仮定です。いくつかのソースは、仮定を異なってリストしています。生データの正常性、残差の主張などがあります。 いくつかの質問が表示されます: 残差の正規性と正規分布は同じ人ですか(Wikipediaのエントリに基づいて、正規性はプロパティであり、残差に直接関係しないと主張します(しかし、残差のプロパティ(括弧内の深くネストされたテキスト、気紛れ)))? そうでない場合、どの仮定を保持する必要がありますか?1?両方? 正規分布の残差の仮定が正しい場合、生の値のヒストグラムのみの正規性をチェックすることで重大な間違いを犯していますか?

2
カイ二乗検定と等比率検定の関係は何ですか?
相互に排他的な4つの特性を持つ3つの母集団があるとします。各母集団からランダムサンプルを取得し、測定する特性のクロス集計表または頻度表を作成します。私はそれを言って正しいですか: 母集団と特性の間に関係があるかどうかをテストしたい場合(たとえば、ある母集団が特性のいずれかの頻度が高いかどうか)、カイ2乗検定を実行して、結果が有意であるかどうかを確認します。 カイ2乗検定が重要な場合、母集団と特性の間に何らかの関係があることのみが示されますが、それらの関係は示されません。 さらに、すべての特性を母集団に関連付ける必要はありません。たとえば、異なる母集団の特性AとBの分布が有意に異なるが、CとDの分布が異なる場合、カイ2乗検定は再び有意である可能性があります。 特定の特性が母集団の影響を受けているかどうかを測定したい場合は、その特性だけで等しい比率のテストを実行できます(これはz検定と呼ばれprop.test()ていますR)。 言い換えるとprop.test()、カイ二乗検定で有意な関係があると言われたときに、2つのカテゴリセット間の関係の性質をより正確に判断するためにを使用するのが適切でしょうか?

8
統計ワークベンチとしてのExcel
多くの人々(私を含む)がExcelで探索的データ分析を行うことを好むようです。スプレッドシートで許可されている行数などの制限は苦痛ですが、ほとんどの場合、Excelを使用してデータを操作することは不可能ではありません。 しかし、McCulloughとHeiserの論文は、Excelを使用しようとすると、結果がすべて間違っていること、そしておそらく地獄で燃え上がることを実際に叫んでいます。 この論文は正しいですか、それとも偏っていますか?著者は、彼らがマイクロソフトを嫌うように聞こえます。

14
ガウス(正規)分布の最も驚くべき特徴は何ですか?
の標準化されたガウス分布は、密度を明示的に指定することで定義できます。 RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} またはその特徴的な機能。 この質問で想起されたように、それはサンプル平均と分散が独立している唯一の分布でもあります。 あなたが知っているガウス尺度の他の驚くべき代替の特徴は何ですか?最も驚くべき答えを受け入れます

10
距離行列を使用したクラスタリング
Mノードの各ペア間の距離を表す(対称)マトリックスがあります。例えば、 ABCDEFGHIJKL A 0 20 20 20 40 60 60 60100120120120 B 20 0 20 20 60 80 80 80 120140140140 C 20 20 0 20 60 80 80 80 120140140140 D 20 20 20 0 60 80 80 80 120140140140 E 40 60 60 60 0 20 20 20 …
52 clustering 

2
教師なしクラスタリングに人工ニューラルネットワークANNを使用するにはどうすればよいですか?
artificial neural network (ANN)予測の誤差を減らすことでフィッティングを改善するために、逆伝播を使用して教師付き方法でをトレーニングする方法を理解しています。ANNは教師なし学習に使用できると聞いたことがありますが、最適化段階を導くための何らかのコスト関数なしでこれを行うにはどうすればよいですか?k-meansまたはEMアルゴリズムでは、各反復が増加するように検索する関数があります。 ANNを使用してクラスタリングを実行するにはどうすればよいですか?また、同じ場所でデータポイントをグループ化するためにどのメカニズムを使用しますか? (さらにレイヤーを追加するとどのような追加機能がもたらされますか?)

6
強く不均衡なクラスを持つバイナリ分類
私は(機能、バイナリ出力0または1)の形式のデータセットを持っていますが、1はほとんど発生しないため、常に0を予測するだけで、70%と90%の間の精度が得られます(見ている特定のデータに応じて)。MLメソッドは、ほぼ同じ精度を与えてくれます。この状況に適用する標準的なメソッドがいくつかあるべきだと思います。これにより、明白な予測ルールよりも精度が向上します。



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.