統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
RNN(LSTM)を使用して時系列ベクトルを予測する(Theano)
私は非常に単純な問題を抱えていますが、それを解決する適切なツールを見つけることができません。 同じ長さのベクトルのシーケンスがいくつかあります。ここで、これらのシーケンスのトレーニングサンプルでLSTM RNNをトレーニングし、いくつかのプライミングベクトルに基づいて長さのベクトルの新しいシーケンスを予測するようにします。nnn これを行う簡単な実装は見つかりません。私の基本言語はPythonですが、何日間もインストールされないものはすべて保持されます。 Lasagneを使用しようとしましたが、RNNの実装はまだ準備ができておらず、別個のパッケージnntoolsにあります。とにかく、私は後者を試しましたが、それを訓練する方法を理解できず、いくつかのテストベクトルでそれを準備し、新しい人を予測させることができません。ブロックも同じ問題です-LSTM RNNのドキュメントはありませんが、動作する可能性のあるクラスと関数がいくつかあるようです(例:)blocks.bricks.recurrent。 そこいくつかのTheanoにおけるRNN LSTMの実装、などがあるGroundHog、theano-rnn、theano_lstmおよびいくつかの論文のためのコードは、しかし、それらの非は私がやりたいことがどのようにチュートリアルやガイドを持っています。 私が見つけた唯一の使用可能な解決策は、Pybrainを使用することでした。しかし、残念なことに、Theanoの機能(主にGPU計算)が欠けており、孤立しています(新しい機能やサポートはありません)。 誰が私が求めているものを見つけることができる場所を知っていますか?ベクトルのシーケンスを予測するためにRNN LSTMを使いやすいですか? 編集: 私はこのようにケラスを試しました: from keras.models import Sequential from keras.layers.core import Dense, Dropout, Activation from keras.layers.embeddings import Embedding from keras.layers.recurrent import LSTM model = Sequential() model.add(Embedding(12, 256)) model.regularizers = [] model(LSTM(256, 128, activation='sigmoid', inner_activation='hard_sigmoid')) model.add(Dropout(0.5)) model.add(Dense(128, 12)) model.add(Activation('sigmoid')) model.compile(loss='mean_squared_error', optimizer='rmsprop') しかし、フィットしようとするとこのエラーが発生します …

3
まれなイベントロジスティック回帰バイアス:最小限の例で過小評価されたpをシミュレートする方法は?
CrossValidatedには、King and Zeng(2001)によるまれなイベントバイアス修正をいつ、どのように適用するかに関するいくつかの質問があります。私は別の何かを探しています。バイアスが存在するという最小限のシミュレーションベースのデモンストレーションです。 特に、王とZenの状態 「...まれなイベントデータでは、確率のバイアスはサンプルサイズが数千単位で実質的に意味があり、予測可能な方向にあります。推定イベント確率は小さすぎます。」 Rのこのようなバイアスをシミュレートする私の試みは次のとおりです。 # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not …

5
相関データシミュレーションにコレスキー分解または代替を使用する方法
コレスキー分解を使用して、相関行列が与えられた相関ランダム変数をシミュレートします。事は、結果は与えられた相関構造を決して再現しないということです。以下に、状況を説明するためのPythonの小さな例を示します。 import numpy as np n_obs = 10000 means = [1, 2, 3] sds = [1, 2, 3] # standard deviations # generating random independent variables observations = np.vstack([np.random.normal(loc=mean, scale=sd, size=n_obs) for mean, sd in zip(means, sds)]) # observations, a row per variable cor_matrix = np.array([[1.0, 0.6, 0.9], [0.6, 1.0, …

3
ジュリア:過去の状況を把握する
この投稿は、急速に変化するイベントに関連しています。 さまざまな種類の統計作業のためのR / Pythonの代替としてのジュリアについて非常に良い議論があった2012年の質問に出会いました。 これは、ジュリアの約束に関する2012年の最初の質問です。 残念ながら、ジュリアは当時非常に新しく、統計作業に必要なツールキットはやや原始的でした。バグは解決されていました。ディストリビューションのインストールは困難でした。など。 誰かがその質問に対して非常に適切なコメントを持っています: これは、この質問に後から答えが出る可能性があるのは5年後だということです。現時点では、ジュリアには日常のユーザーのためにRと競合する可能性のある統計プログラミングシステムの次の重要な側面が欠けています。 それは2012年でした。2015年になり、3年が経ちましたが、ジュリアはどのように考えたのでしょうか。 言語自体およびJuliaエコシステム全体に関する豊富な経験がありますか?知りたいです。 具体的には: 統計ツールの新しいユーザーに、Rを介してJuliaを学習することを勧めますか? どのような統計のユースケースでジュリアを使用するように誰かにアドバイスしますか? 特定のタスクでRが遅い場合、ジュリアまたはPythonに切り替えるのは理にかなっていますか? 注:2015年6月14日に最初に投稿されました。
19 r  python  computing  julia 


3
ピアソンがパラメトリックでスピアマンがノンパラメトリックである理由
どうやらピアソンの相関係数はパラメトリックであり、スピアマンのローはノンパラメトリックです。 これを理解するのに苦労しています。私が理解しているように、ピアソンはr x y = c o v (X 、Y )として計算されます と我々は彼らのランクですべての値を代入以外スピアマンは、同じ方法で計算されます。rx y= c o v (X、Y)σバツσyrバツy=cov(バツ、Y)σバツσy r_{xy} = \frac{cov(X,Y)}{\sigma_x\sigma_y} ウィキペディアによると パラメトリックモデルとノンパラメトリックモデルの違いは、前者には固定数のパラメーターがあり、後者にはトレーニングデータの量に応じてパラメーターの数が増えることです。 しかし、サンプル自体以外のパラメーターは表示されません。いくつかの発言パラメトリック検定は、正規分布を仮定し、するために行くことを言うピアソンは、通常の分散データを前提としないことが、私はピアソンはそれを必要とする理由を見ることができません。 だから私の質問は、統計の文脈でパラメトリックとノンパラメトリックが何を意味するのですか?そして、ピアソンとスピアマンはどうやってそこに収まるのでしょうか?

1
このなげなわプロット(glmnet)の結論
以下は、mtcarsRのデータセットをmpgDVとして、その他を予測子変数として使用して、デフォルトのalpha(1、したがってlasso)を使用したglmnetのプロットです。 glmnet(as.matrix(mtcars[-1]), mtcars[,1]) さまざまな変数、特にam、cylおよびwt(赤、黒、水色の線)に関するこのプロットから何を結論付けることができますか?公開するレポートの出力をどのように表現しますか? 私は次のことを考えました: wtはの最も重要な予測因子ですmpg。に悪影響を及ぼしていmpgます。 cylは弱い負の予測因子ですmpg。 amはの正の予測因子である可能性がありmpgます。 他の変数は、のロバストな予測子ではありませんmpg。 これについてのあなたの考えをありがとう。 (注:cyl非常に近いまで0に到達しない黒い線です。) 編集:以下はplot(mod、xvar = 'lambda')であり、x軸を上記のプロットの逆順に表示します。 (PS:この質問がおもしろい/重要だと思う場合は、賛成してください。)

1
交差検定(CV)に基づく予測間隔
教科書やyoutubeの講義では、ブースティングなどの反復モデルについて多くのことを学びましたが、予測間隔の導出については何も見ませんでした。 クロス検証は次の目的で使用されます。 モデルの選択:さまざまなモデルを試して、最適なモデルを選択します。ブーストの場合、CVを使用してチューニングパラメーターを選択します。 モデル評価:選択したモデルのパフォーマンスを推定します モデル評価にはいくつかのパラメーターが重要です。そのうちの1つは予想される予測エラーです。クロス検証は、本「統計的学習の要素」で詳しく説明されているように、予測誤差の適切な推定値を提供します。 しかし、予測間隔を構築するために予想される予測誤差をどのように使用するのでしょうか? たとえば、家の価格を予測する場合、200.000€の家に比べて500.000€の家の予測間隔は長くなります。相互検証を使用してこれらの予測間隔を推定するにはどうすればよいですか?

3
誤発見率と複数のテストとの混同(Colquhoun 2014)
David Colquhounによるこの素晴らしい論文を読んでいます:偽発見率とp値の誤解の調査(2014)。本質的に、彼はでタイプIのエラーを制御しているにもかかわらず、偽発見率(FDR)が達する理由を説明しています。30%30%30\%α = 0.05α=0.05\alpha=0.05 ただし、複数のテストの場合にFDR制御を適用するとどうなるかについて、まだ混乱しています。 たとえば、多くの変数のそれぞれについてテストを実行し、Benjamini-Hochberg手順を使用して値を計算しました。重要な変数を1つ取得しました。この発見のFDRとは何ですか?qqqq= 0.049q=0.049q=0.049 長期的に、このような分析を定期的に行うと、FDRはではなくであると安全に仮定できますか?Benjamini-Hochbergを使用したためです。それは間違っていると思いますが、値はColquhounの論文の値に対応しており、彼の推論もここに適用されるため、しきい値を使用すると、 Colquhounはそれをケースのに入れています。しかし、私はそれをより正式に説明しようとして失敗しました。5 %30 %30%30\%5 %5%5\%qqqpppqqq0.050.050.0530 %30%30\%

2
弾性/尾根/なげなわ分析、それでは何ですか?
予測子の収縮/選択のためのエラスティックネット手順に本当に興味を持っています。非常に強力なようです。 しかし、科学的な観点からは、係数を取得したらどうすればよいかわかりません。どんな質問に答えていますか?これらはその結果に最も影響を与える変数であり、これらは検証中に最良の分散/バイアス比を与える係数ですか? これはもちろん、古典的なp値/信頼区間アプローチと比較して非常に記述的/予測的なアプローチです。推論推定は現在Tibshirani&Co.によって研究されていますが、まだ実験的です。 一部の人々は、エラスティックネットによって選択された変数を使用して古典的な推論分析を実行していますが、これにより、手法によってもたらされる分散の制限がなくなります。 もう1つの問題は、エラスティックネットのラムダおよびアルファパラメーターが相互検証によって選択されるため、ランダムな変動の影響を受けることです。したがって、cv.glmnet()を実行するたびに、常に異なる係数を持つ予測子のわずかに異なるサブセットを選択します。 正しいラムダとアルファをランダム変数として考慮してこれを解決し、クロス検証ステップをn回再実行して、これらのパラメータの分布を取得することについて考えました。このように、すべての予測子に対して発生回数があり、すべての係数に対して結果の分布があります。これにより、範囲統計(係数のsdなど)でより一般化可能な結果が得られるはずです。ラムダとアルファがこのように選んだ分布が漸近的に近似するかどうかを確認することも興味深いでしょう。完全に理解していない)。 最後に私の質問は次のとおりです。アルファとラムダに基づいた相互検証を使用してエラスティックネットから予測子と係数を取得したら、これらの結果をどのように表示する必要がありますか。それらについてどのように議論すべきですか?何を学びましたか?私たちはどの仮説/一般化を確信していますか?

5
ストリーミングデータ用のt-SNEのバージョンはありますか?
t-SNEとBarnes-Hut近似の私の理解は、すべての力の相互作用を同時に計算し、各ポイントを2d(または低次元)マップで調整できるように、すべてのデータポイントが必要であるということです。 ストリーミングデータを効率的に処理できるt-sneのバージョンはありますか?したがって、私の観測が一度に1つずつ到着している場合、新しい観測を配置するのに最適な2Dマップ上の位置を見つけるか、2Dマップ上のすべてのポイントを継続的に更新して新しい観測を考慮します。 これは理にかなっていますか、それともt-sneの設定に反しますか?



4
データが正規分布する理由
実世界のデータが正規分布することが期待される理由を説明する(つまり、生成する)可能性のある定理は何ですか? 私が知っている2つがあります: (もちろん)中央極限定理。これは、平均および分散をもついくつかの独立したランダム変数の合計が(それらが同一に分布していない場合でも)正規分布に向かう傾向があることを示します。 XとYを、それらの結合密度が +のみに依存するように、微分可能な密度を持つ独立した連続RVとします。XとYは正常です。y 2バツ2バツ2x^2y2y2y^2 (mathexchangeからのクロスポスト) 編集: 明確にするために、私は実際のデータがどれだけ正規分布しているかについては何も主張していません。どのようなプロセスが正規分布データにつながる可能性があるかについての洞察を与えることができる定理について質問しています。

4
モーメントとは何ですか?それらはどのように導出されますか?
通常、母集団のすべてのパラメーターを推定するまで「母集団のモーメントを対応するサンプルに等しくする」ことにより、モーメントの推定量の方法を紹介しています。そのため、正規分布の場合、これらの分布が完全に記述されているため、1番目と2番目の瞬間のみが必要になります。 E(X)= μ⟹∑ni = 1バツ私/ n= X¯E(バツ)=μ⟹∑私=1nバツ私/n=バツ¯E(X) = \mu \implies \sum_{i=1}^n X_i/n = \bar{X} E(X2)= μ2+ σ2⟹∑ni = 1バツ2私/ nE(バツ2)=μ2+σ2⟹∑私=1nバツ私2/nE(X^2) = \mu^2 + \sigma^2 \implies \sum_{i=1}^n X_i^2/n そして、理論的に最大追加モーメントを次のように計算できます。nnn E(Xr)⟹∑ni = 1バツr私/ nE(バツr)⟹∑私=1nバツ私r/nE(X^r) \implies \sum_{i=1}^nX_i^r /n どのような瞬間に本当に直観を構築できますか?私はそれらが物理学と数学の概念として存在することを知っていますが、特に質量概念からデータポイントまで抽象化する方法がわからないため、直接適用することはできません。この用語は統計で特定の方法で使用されるようで、他の分野での使用とは異なります。 データのどの特性が、全体で何()のモーメントがあるかを決定しますか?rrr

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.