統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
一般的なデータセットのデータ増強技術?
多くの機械学習アプリケーションでは、いわゆるデータ増強方法により、より良いモデルを構築できます。たとえば、猫と犬の枚の画像のトレーニングセットを想定します。回転、ミラーリング、コントラスト調整などにより、元の画像から追加の画像を生成できます。100100100 画像の場合、データの増加は比較的簡単です。ただし、(たとえば)サンプルのトレーニングセットと、さまざまなものを表す数百個の連続変数があるとします。データ拡張は、もはやそれほど直感的ではないようです。そのような場合に何ができますか?100100100

2
正規化された推定による信頼区間のカバレッジ
何らかの正規化された推定を使用して、高次元のデータから多数のパラメーターを推定しようとしているとします。レギュラライザーは推定値にある程度のバイアスを導入しますが、分散の減少はそれを補う以上のものでなければならないため、依然として良いトレードオフになる可能性があります。 問題は、信頼区間を推定するときに発生します(たとえば、ラプラス近似またはブートストラップを使用)。具体的には、推定値の偏りにより、信頼区間のカバレッジが悪くなり、推定量の頻度特性を判断することが難しくなります。 この問題について議論している論文をいくつか見つけました(例:「エッジワース展開に基づくリッジ回帰の漸近信頼区間」)が、数学はほとんど私の頭の上にあります。リンクされた論文では、方程式92-93がリッジ回帰によって正則化された推定値の補正係数を提供しているように見えますが、さまざまな正則化器で機能する適切な手順があるかどうか疑問に思っていました。 一次補正でさえ非常に役立ちます。

2
なぜ残差の正規性は、回帰直線を推定するために「非常に重要」なのですか?
Gelman and Hill(2006)はp46に次のように書いています。 一般的に最も重要でない回帰の仮定は、エラーが正規分布しているということです。実際、(個々のデータポイントの予測と比較して)回帰直線を推定する目的では、正規性の仮定はほとんど重要ではありません。したがって、多くの回帰テキストとは対照的に、回帰残差の正常性の診断はお勧めしません。 ゲルマンとヒルはこの点についてこれ以上説明していないようです。 ゲルマンとヒルは正しいですか?その場合、次に: なぜ「まったく重要」なのですか?なぜ重要でもまったく無関係でもないのですか? 個々のデータポイントを予測するときに残差の正規性が重要なのはなぜですか? ゲルマン、A。、&ヒル、J。(2006)。回帰およびマルチレベル/階層モデルを使用したデータ分析。ケンブリッジ大学出版局

2
この離散分布には名前がありますか?
この離散分布には名前がありますか?以下のためのi∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} この分布に出くわしたのは次のとおりです。ユーティリティ機能によってランク付けされたアイテムのリストがあります。リストの先頭にバイアスをかけながら、アイテムの1つをランダムに選択します。そこで、最初に1とNの間のインデックスjを一様に選択します。次に、インデックス1とjの間のアイテムを選択します。このプロセスにより上記の分布が得られると思います。NNNjjjNNNjjj

3
壊れたスティックの最大の断片の分布(間隔)
長さ1のスティックを、ランダムに一様に断片に分割します。最も長いフラグメントの長さの分布は何ですか?k + 1k+1k+1 より正式には、をIIDとし、関連する順序統計、つまり単純に順序付けします。そのような方法で試料。ましょう。(U1、… Uk)(うん1、…うんk)(U_1, \ldots U_k)うん(0 、1 )うん(0、1)U(0,1)(U(1 )、… 、U(k ))(うん(1)、…、うん(k))(U_{(1)}, \ldots, U_{(k)})うん(1 )≤ U(2 )≤,…,≤U(k)U(1)≤U(2)≤,…,≤U(k)U_{(1)} \leq U_{(2)} \leq, \ldots , \leq U_{(k)}Zk= 最大(U(1 )、U(2 )− U(1 )、… 、U(k )− U(k − 1 )、1 − U(k ))Zk=最大(うん(1)、うん(2)−うん(1)、…、うん(k)−うん(k−1)、1−うん(k))Z_k = \max \left(U_{(1)}, U_{(2)}-U_{(1)}, \ldots, U_{(k)} - U_{(k-1)}, 1-U_{(k)}\right) Z_kの分布に興味がありますZkZkZ_k。モーメント、漸近結果、またはk \ uparrow …

2
グレンジャーとパールの因果関係フレームワークの主な違いは何ですか?
最近、グレンジャーの因果関係について言及しているいくつかの論文やオンラインリソースに出会いました。対応するWikipediaの記事を簡単に参照すると、この用語が時系列(または、より一般的には確率過程)の文脈における因果関係を指すという印象を受けました。さらに、この素敵なブログ投稿を読むと、このアプローチの見方にさらなる混乱が生じました。 概念の私のファジー理解が一部常識、で構成されていて、私は、因果関係についての人物知識が豊富でないことだ常識、といくつかの暴露潜在変数モデル化と構造方程式モデリング(SEM)とユダヤパールの仕事から少し上を読んで因果関係-彼の本ではなく、Pearl(2009)の興味深い概要論文に沿ったもので、なんらかの理由で、驚いたことに、グレンジャーの因果関係についてまったく言及していません。 この文脈では、グレンジャーの因果関係が時系列(確率的)フレームワークよりも一般的なものであるかどうか、そしてもしそうであれば、構造的因果モデルに基づいてパールの因果関係フレームワークとの関係(共通性と差異)は何ですか?私が理解している限りでは、SCM)は、直接非巡回グラフ(DAG)と反事実に基づいています。それは、グレンジャーの因果関係は次のように分類することができているようです一般的なアプローチに因果推論のための動的システムの存在を考慮すると、ダイナミックな因果モデリング(DCM)アプローチ(Chicharro&Panzeri、2014)。しかし、私の懸念は、確率的プロセス分析に基づいたものとそうでないものの2つのアプローチを比較することが可能かどうか(もしそうなら)についてです。 より一般的に、単一の包括的な因果関係フレームワーク内で現在存在するすべての因果関係理論を(異なる視点として)検討するための、理にかなった高レベルのアプローチ(可能であれば)とはどう思いますか?この質問は、主にChicharro and Panzeri(2014)による優れた包括的な論文を読み、カリフォルニア大学バークレー校(Petersen&Balzer、2014)の興味深い因果推論コースをレビューしようとする試みによって引き起こされます。 参照資料 Chicharro、D.、&Panzeri、S.(2014)。脳領域間の効果的な接続性の分析のための因果推論のアルゴリズム。ニューロインフォマティクスのフロンティア、8(64)。doi:10.3389 / fninf.2014.00064 http://journal.frontiersin.org/article/10.3389/fninf.2014.00064/pdfから取得 パール、J。(2009)。統計における因果推論:概要。統計調査、 3、96–146。doi:10.1214 / 09-SS057 http://projecteuclid.org/download/pdfview_1/euclid.ssu/1255440554から取得 Petersen、M.、&Balzer、L.(2014)。因果推論の紹介。カリフォルニア大学バークレー校。[ウェブサイト] http://www.ucbbiostat.comから取得

2
分位点回帰におけるR二乗
変位値回帰を使用して、データの90パーセンタイルの予測変数を見つけています。これをRでquantregパッケージを使用して行っています。予測変数によってどの程度の変動が説明されているかを示す変位値回帰のを決定するにはどうすればよいですか?r2r2r^2 私が本当に知りたいこと:「どの程度の変動性が説明されているかを見つけるために使用できる方法は?」P値による有意水準は、コマンドの出力で使用可能です:summary(rq(formula,tau,data))。どうすればフィット感を得ることができますか?

3
パーセプトロン規則から勾配降下へ:シグモイド活性化関数を持つパーセプトロンはロジスティック回帰とどのように異なりますか?
本質的に、私の質問は、多層パーセプトロンにおいて、パーセプトロンがシグモイド活性化機能とともに使用されるということです。更新ルールでは、は次のように計算されます。y^y^\hat{y} y^= 11 + exp(− wTバツ私)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} この「シグモイド」パーセプトロンは、ロジスティック回帰とどのように違いますか? 単一層のシグモイドパーセプトロンは、両方とも更新ルールの。また、両方とも予測でをます。ただし、多層パーセプトロンでは、シグモイド活性化関数を使用して、ロジスティック回帰と単層パーセプトロンとは対照的に、オンオフ信号ではなく確率を返します。記号( Y =1y^= 11 + exp(− wTバツ私)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}符号(y^= 11 + exp(− wTバツ私))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}) 「パーセプトロン」という用語の使用法は少し曖昧かもしれないと思うので、単層パーセプトロンについての私の現在の理解に基づいて背景を説明しましょう。 古典的なパーセプトロン規則 まず、ステップ関数があるF. Rosenblattによる古典的なパーセプトロン: Δのワットd= η(y私− y私^)xI Dy私、y私^∈ { - 1 、1 }Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 重みを更新するには wk:= wk+ …

1
cloglogロジスティック回帰の推定値の解釈
cloglogリンクを使用してロジスティック回帰からの推定値を解釈する方法について誰かにアドバイスしてもらえますか? 私は次のモデルを装着しましたlme4: glm(cbind(dead, live) ~ time + factor(temp) * biomass, data=mussel, family=binomial(link=cloglog)) たとえば、時間の推定値は0.015です。単位時間あたりの死亡率にexp(0.015)= 1.015113(単位時間あたり〜1.5%増加)を掛けると言うのは正しいですか? 言い換えれば、loglogロジスティック回帰の場合と同様に、loglogで得られた推定値はlogオッズで表されますか?

3
ネイマン・ピアソンの補題
Mood、Graybill、Boes の著書「Introduction to the Theory of Statistics」から ネイマン・ピアソンの補題を読みました。しかし、私は補題を理解していません。 誰でも私に補題をわかりやすい言葉で説明してもらえますか?それは何を述べていますか? ネイマン・ピアソンの補題:レッツからのランダムサンプルである、二つの既知の値のいずれかであると、およびlet固定します。X1,…,XnX1,…,XnX_1,\ldots,X_nf(x;θ)f(x;θ)f(x;\theta)θθ\thetaθ0θ0\theta_0θ1θ1\theta_10&lt;α&lt;10&lt;α&lt;10<\alpha<1 ましょう 正の定数とすることのサブセットでれる満たすクリティカル領域C ^ *に対応する テスト\ gamma ^ *は、サイズ\ alphaの\ mathscr H_0:\ theta = \ theta_0対\ mathscr H_1:\ theta = \ theta_1の最も強力なテストです。k∗k∗k^*λ = L (θ 0、X 1、··· 、XのN)C∗C∗C^*XX\mathscr XPθ0[(X1,…,Xn)∈C∗]=α(1)(1)Pθ0[(X1,…,Xn)∈C∗]=α \tag 1 P_{\theta_0}[(X_1,\ldots,X_n)\in C^*] = \alpha λ = L (θ0; バツ1、… 、xn)L …


8
3つのカテゴリ変数間の関係をどのように視覚化できますか?
3つのカテゴリ変数を含むデータセットがあり、3つすべての関係を1つのグラフで視覚化したい。何か案は? 現在、次の3つのグラフを使用しています。 各グラフは、ベースライン低下のレベル(軽度、中度、重度)に対応しています。次に、各グラフ内で、治療(0,1)とうつ病の改善(なし、中程度、実質)の関係を調べます。 これらの3つのグラフは3方向の関係を確認するために機能しますが、1つのグラフでこれを行う既知の方法はありますか?


3
ACFおよびPACFプロットを分析する
ACFプロットとPACFプロットを分析して正しい軌道に乗っているかどうかを確認したい: 背景:(Reff:Philip Hans Franses、1998) ACFとPACFの両方が重要な値を示しているので、ARMAモデルが私のニーズを満たすと思います ACFはMA部分、つまりq値を推定するために使用でき、PACFはAR部分、すなわちp値を推定するために使用できます。 モデル次数を推定するために、a。)ACF値が十分に消滅するかどうか、b。)ACFが過差分信号を送るかどうか、c。)ACFとPACFが特定のラグで有意かつ容易に解釈可能なピークを示すかどうかを調べます ACFとPACFは、1つのモデルだけでなく、他の診断ツールを検討した後に選択する必要のある多くのモデルを提案する場合があります それを念頭に置いて、ACF値がラグ4で消滅し、PACFが1と2でスパイクを示すため、最も明白なモデルはARMA(4,2)であると考えます。 別の分析方法としては、PACFに2つの大きなスパイクがあり、ACFに1つの大きなスパイクがあるため、ARMA(2,1)になります(その後、はるかに低いポイント(0.4)から値が消えます)。 サンプル内の予測結果を見ると(単純な平均絶対誤差を使用)、ARMA(2,1)はARMA(4,2)よりもはるかに優れた結果を提供します。そこで、ARMA(2,1)を使用します! ACFプロットとPACFプロットの分析方法と結果を確認できますか? 感謝します! 編集: 記述統計: count 252.000000 mean 29.576151 std 7.817171 min -0.920000 25% 26.877500 50% 30.910000 75% 34.915000 max 47.430000 Skewness of endog_var: [-1.35798399] Kurtsosis of endog_var: [ 5.4917757] Augmented Dickey-Fuller Test for endog_var: (-3.76140904255411, 0.0033277703768345287, {'5%': -2.8696473721448728, '1%': …

4
どのような状況でMAプロセスまたはARプロセスが適切ですか?
プロセスがそれ自体の以前の値に依存する場合、それはARプロセスであることを理解しています。以前のエラーに依存する場合、MAプロセスです。 これら2つの状況のいずれかが発生するのはいつですか?プロセスがMA vs ARとして最適にモデル化されることの意味に関する根本的な問題を明らかにする堅実な例はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.