統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
イタリア人の息子が小学校に通うことで、クラスに出席するイタリア人の子供の予想人数が変わりますか?
これは現実の状況に起因する質問であり、その答えについて私は本当に困惑しています。 私の息子はロンドンで小学校を始める予定です。私たちはイタリア人なので、すでに何人のイタリアの子供たちが学校に通っているのか知りたいと思いました。入学審査官に申請中にこれを尋ねると、クラスあたり平均2人のイタリア人の子供(30人)がいると彼女は言った。 私は今、自分の子供が受け入れられたことを知っている時点にいますが、他の子供に関する他の情報はありません。入場基準は距離に基づいていますが、この質問の目的のために、それは応募者の大規模なサンプルからのランダムな割り当てに基づいていると仮定できると思います。 息子のクラスには何人のイタリアの子供がいると予想されますか?2または3に近いでしょうか?


3
分割交差検証推定値のとしての分散:「安定性」の役割は何ですか?
TL、DR:それは、反対しばしば反復するアドバイス、リーブワンアウトクロスバリデーション(LOO-CV)が表示さ-であり、でCVを倍(折り目の数)に等しい(数トレーニング観測値)-モデル/アルゴリズム、データセット、またはその両方の特定の安定性条件を仮定して、最大変数ではなく、最小変数である一般化誤差の推定値を生成します(どちらがわからない私はこの安定条件を本当に理解していないので正しいです)。K N KKKKKKKNNNKKK 誰かがこの安定条件が何であるかを正確に説明できますか? 線形回帰はそのような「安定した」アルゴリズムの1つであり、その文脈では、LOO-CVが一般化誤差の推定値のバイアスと分散に関する限り、厳密にCVの最良の選択であることを意味しますか? 従来の知恵は、選択することであるにおける倍CVはバイアス分散トレードオフを、以下のような低い値高い値つつ、より悲観的なバイアスを有する汎化誤差の推定につながるが、より低い分散、(2に近づきます)(接近)以下バイアスされたが、より大きな分散を有するされる推定値をもたらします。とともに増加するこの分散現象の従来の説明は、おそらく「統計的学習の要素(セクション7.10.1)」で最も顕著に示されています。K K K N KKKKKKKKKKKKKNNNKKK K = Nの場合、クロス検証推定器は真の(予想される)予測誤差に対してほぼバイアスをかけられませんが、N個の「トレーニングセット」は互いに非常に類似しているため、分散が大きくなります。 意味は、検証エラーはより高度に相関しているため、それらの合計はより可変的です。推論のこのラインは(例えば、このサイトで多くの回答で繰り返されているここで、ここでは、ここでは、ここでは、ここでは、ここでは、とここではその代わり、)などなど、様々なブログにし、しかし、詳細な分析が事実上与えれることはありません分析がどのように見えるかについての直感または簡単なスケッチのみ。NNN ただし、通常、私が実際に理解していない特定の「安定性」条件を引用して、矛盾するステートメントを見つけることができます。たとえば、この矛盾する答えは、「低不安定性のモデル/モデリング手順では、LOOの変動性が最小であることが多い」という2015年の論文のいくつかの段落を引用しています(強調を追加)。このペーパー(セクション5.2)は、モデル/アルゴリズムが「安定」である限り、LOOが最小変数選択を表すことに同意するようです。この問題に対する別のスタンスをとると、この論文(結果2)もあります。これは、「倍交差検証の分散[...]は依存しないk kKKKkkkkkk、」再び特定の「安定性」条件を引用しています。 LOOが最も可変的な折り畳みCVである理由についての説明は十分に直感的ですが、反直感があります。平均二乗誤差(MSE)の最終的なCV推定値は、各フォールドのMSE推定値の平均です。したがって、がまで増加すると、CV推定値は増加するランダム変数の平均になります。そして、平均の分散は変数の数が平均化されるにつれて減少することを知っています。そのため、LOOが最も可変のフォールドCVになるためには、MSE推定値間の相関の増加による分散の増加が、平均化されるフォールドの数が多いことによる分散の減少を上回ることを確認する必要があります。K N KKKKKKKNNNKKK。そして、これが真実であることはまったく明らかではありません。 これらすべてについて完全に混乱して考えるようになったので、線形回帰の場合について少しシミュレーションを実行することにしました。 = 50および3つの無相関予測子を使用して10,000個のデータセットをシミュレートし、そのたびに = 2、5、10 、または50 =フォールドCVを使用して一般化誤差を推定しました。Rコードはこちらです。10,000個のすべてのデータセット(MSE単位)でのCV推定の結果の平均と分散は次のとおりです。K K NNNNKKKKKKNNN k = 2 k = 5 k = 10 k = n = 50 mean 1.187 1.108 1.094 1.087 variance 0.094 0.058 …

2
Rのlmer()混合効果モデルの予測間隔
lmer()モデルからの予測の周りの予測区間を取得したい。これに関する議論を見つけました。 http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq しかし、それらはランダム効果の不確実性を考慮していないようです。 以下に具体例を示します。私は金の魚をレースしています。過去100レースのデータがあります。RE推定値とFE推定値の不確実性を考慮して、101番目を予測したい。魚のランダムインターセプト(10種類の魚があります)と、重量の固定効果(重い魚が少ないほど速い)を含めています。 library("lme4") fish <- as.factor(rep(letters[1:10], each=100)) race <- as.factor(rep(900:999, 10)) oz <- round(1 + rnorm(1000)/10, 3) sec <- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat <- data.frame(fishID = fish, raceID = race, fishWt = oz, time = sec) head(fishDat) plot(fishDat$fishID, fishDat$time) lme1 <- lmer(time …

6
2つの二項分布が互いに統計的に異なるかどうかをテストします
データには3つのグループがあり、それぞれに二項分布があります(つまり、各グループには成功または失敗の要素があります)。成功の予測確率はありませんが、真の成功率の近似として、それぞれの成功率にのみ頼ることができます。私はこの質問を見つけましたが、これは近いですが、このシナリオに正確に対処していないようです。 テストを簡略化するために、2つのグループがあるとしましょう(このベースケースから3つのグループを拡張できます)。 グループ1の試行: = 2455n1n1n_1 グループ2試験: = 2730n2n2n_2 グループ1の成功:k1k1k_1 = 1556 グループ2の成功:k2k2k_2 = 1671 予想される成功確率はありません。サンプルから知っていることだけです。したがって、2つのグループの成功率は次のとおりです。 グループ1の成功率:p1p1p_1 = 1556/2455 = 63.4% グループ2の成功率: p2p2p_2 = 1671/2730 = 61.2% 各サンプルの成功率はかなり近いです。しかし、私のサンプルサイズも非常に大きいです。二項分布のC​​DFを調べて、最初の分布との違いを確認すると(最初はヌルテストであると仮定します)、2番目の分布が達成される可能性は非常に小さくなります。 Excelの場合: 1-BINOM.DIST(1556,2455,61.2%、TRUE)= 0.012 ただし、これは最初の結果の分散を考慮せず、最初の結果がテスト確率であると見なします。 これらの2つのデータサンプルが実際に互いに統計的に異なるかどうかをテストするより良い方法はありますか?

1
glmerが最尤を達成しないのはなぜですか(さらに一般的な最適化を適用することにより検証されます)?
数値的に導出MLE SのGLMMは実際には、困難であると、私は知っている、我々は(使用して、例えばブルートフォース最適化を使用しないでくださいoptimシンプルな方法で)。しかし、私自身の教育目的のために、モデルを正しく理解するために試してみたいと思います(以下のコードを参照)。私はいつも矛盾した結果を得ることがわかったglmer()。 特に、MLE glmerを初期値として使用しても、記述した尤度関数に従って(negloglik)、MLEではありません(opt1$valueより小さいopt2)。次の2つの理由が考えられます。 negloglik うまく記述されていないため、数値エラーが多すぎます。 モデルの仕様が間違っています。モデル仕様の場合、対象モデルは次のとおりです。 fは二項PMFであり、Gは正常PDFです。a、 b、および sを推定しようとしています。特に、モデルの仕様が間違っているかどうか、正しい仕様は何かを知りたい。L = ∏i = 1n(∫∞- ∞f(y私| N、a 、b 、r私)g(r私| s)dr私)L=∏私=1n(∫−∞∞f(y私|N、a、b、r私)g(r私|s)dr私)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation}fffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 # random effect (intercept) N <- 8 …

3
SVMとロジスティック回帰の比較
誰かがいつSVMまたはLRを選択するかについて直観を教えてもらえますか?私は、2つの超平面を学習する最適化基準の違いは何かという背後にある直感を理解したいと思います。それぞれの目的は次のとおりです。 SVM:最も近いサポートベクトル間のマージンを最大化してください LR:事後クラス確率を最大化する SVMとLRの両方の線形特徴空間を考えてみましょう。 私がすでに知っているいくつかの違い: SVMは決定論的ですが(確率スコアにはプラッツモデルを使用できます)、LRは確率論的です。 カーネルスペースの場合、SVMの方が高速です(サポートベクターのみが格納されます)

6
多くのカテゴリ変数を使用して分類を改善する
私は200,000以上のサンプルとサンプルあたり約50の特徴を持つデータセットに取り組んでいます:10の連続変数と他の〜40はカテゴリ変数(国、言語、科学分野など)です。これらのカテゴリ変数には、たとえば150か国、50の言語、50の科学分野などがあります。 これまでの私のアプローチは次のとおりです。 多くの可能な値を持つカテゴリ変数ごとに、この値を取得する10000個を超えるサンプルを持つ変数のみを取得します。これにより、150ではなく5〜10のカテゴリに減少します。 カテゴリカル変数ごとにダミー変数を作成します(10か国の場合、サンプルごとにサイズ10のバイナリベクトルを追加します)。 このデータをランダムフォレスト分類器(パラメーターのクロス検証など)にフィードします。 現在、このアプローチでは、65%の精度しか得られず、さらに多くのことができるように感じています。特に、1)に満足していません。サンプルの数に応じて「最も関連性の低い値」を勝手に削除してはいけないように感じるからです。一方、RAMには、可能なすべての値を保持することで、データに500列* 200000行を追加する余裕がありません。 この多くのカテゴリ変数に対処するための提案はありますか?

4
数学の強力なバックグラウンドはMLの必須条件ですか?
私は自分のスキルセットを向上させたいと考え始めており、私は常に機械学習に魅了されてきました。しかし、6年前にこれを追求する代わりに、コンピューターサイエンスとはまったく関係のない学位を取ることにしました。 私は約8〜10年間ソフトウェアとアプリケーションを開発してきたので、私は良いハンドルを持っていますが、機械学習/確率/統計学の数学の側面に侵入することはできないようです。 私は学習教材に目を向けると、最初のページには混乱を招き、すぐに学習に障害を引き起こすものが含まれている可能性があります。 数学の強力なバックグラウンドはMLの必須条件ですか?MLを続行する前に、数学の空白を埋めてみる必要がありますか?自己学習は、ハードコンピュータサイエンスのバックグラウンドがなくても、開発者だけで本当に機能しますか? 関連する質問: 統計学習の要素の前に読むための本?

3
SVM、オーバーフィット、次元の呪い
私のデータセットは小さい(120サンプル)が、特徴の数は(1000-200,000)と大きく異なる。機能のサブセットを選択するために機能の選択を行っていますが、それでも過剰に機能する可能性があります。 私の最初の質問は、SVMが過剰適合をどのように処理するかということです。 第二に、分類の場合の過剰適合についてさらに研究するにつれて、少数の特徴を持つデータセットでさえ過剰適合できるという結論に達しました。クラスラベルに関連付けられたフィーチャがない場合、とにかくオーバーフィットが行われます。クラスラベルに適した機能が見つからない場合、自動分類のポイントは何なのかと思っています。文書分類の場合、これはラベルに関連する単語のシソーラスを手動で作成することを意味し、非常に時間がかかります。私が言いたいことは、適切な機能を手で選ぶことなく、一般化モデルを構築することは非常に難しいと思いますか? また、実験結果で結果のオーバーフィッティングが低/無であることを示さない場合、意味がなくなります。それを測定する方法はありますか?

2
Rの半正弦波モデルに適したものを見つける方法は?
バルト海の海面温度は毎年同じであると仮定し、関数/線形モデルで説明します。私が考えていたのは、年を10進数(またはnum_months / 12)として入力し、その時間についての温度を取得することでした。Rのlm()関数にそれを投げると、正弦データを認識しないため、直線を生成します。そこで、sin()関数をI()ブラケットに入れて、いくつかの値を試して関数を手動でフィットさせました。しかし、海は夏には早く暖まり、秋にはゆっくりと冷却します...ですから、最初の年はモデルが間違っていて、数年後にはより正確になり、将来的にはより多くなると思いますそしてさらに間違っています。 モデルを推定するためにRを取得するにはどうすればよいですか?したがって、自分で数値を推測する必要はありませんか?ここで重要なのは、1年間だけでなく、毎年同じ値を生成することです。数学についてもっと知っていれば、sin()の代わりにポアソンやガウスのようなものと推測できるかもしれませんが、その方法もわかりません。良い答えに近づくための助けをいただければ幸いです。 ここに私が使用するデータと、これまでの結果を表示するコードを示します。 # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- data.frame(ToY, Degrees) SSTlm <- lm(SST$Degrees ~ I(sin(pi*2.07*SST$ToY))) summary(SSTlm) plot(SST,xlim=c(0,4),ylim=c(0,17)) par(new=T) plot(data.frame(ToY=SST$ToY,Degrees=8.4418-6.9431*sin(2.07*pi*SST$ToY)),type="l",xlim=c(0,4),ylim=c(0,17))
37 r  regression  time-series  lm 

8
私の結婚式に何人が来るのか計算してください!各人に割合を割り当てて追加できますか?
結婚式を計画しています。私の結婚式に何人の人が来るかを見積もりたいと思います。私は人々のリストと彼らがパーセンテージで参加する可能性を作成しました。例えば Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% パーセンテージのある約230人のリストがあります。私の結婚式に何人の人が出席するかを見積もるにはどうすればよいですか?パーセンテージを合計して100で割ることはできますか?たとえば、それぞれ10%の確率で10人を招待した場合、1人を期待できますか?50%の確率で20人を招待した場合、10人を期待できますか? 更新:140人が私の結婚式に来ました:)。以下で説明する手法を使用して、約150を予測しました。


2
PCAが分散を説明する一方で、因子分析はどのように共分散を説明しますか?
ビショップの「パターン認識と機械学習」の本のセクション12.2.4「因子分析」からの引用です。 ハイライトされた部分によると、因子分析は行列変数間の共分散をキャプチャしWWW。私は不思議どのように? ここに私がそれを理解する方法があります。たとえば、は観測された次元変数、は因子負荷行列、は因子スコアベクトルです。次につまり および各列は、ベクトルを読み込む因子 ここに書いたように、はxxxpppWWWzzzx=μ+Wz+ϵ,x=μ+Wz+ϵ,x=\mu+Wz+\epsilon,⎛⎝⎜⎜x1⋮xp⎞⎠⎟⎟=⎛⎝⎜⎜μ1⋮μp⎞⎠⎟⎟+⎛⎝⎜|w1|…|wm|⎞⎠⎟⎛⎝⎜⎜z1⋮zm⎞⎠⎟⎟+ϵ,(x1⋮xp)=(μ1⋮μp)+(||w1…wm||)(z1⋮zm)+ϵ,\begin{align*} \begin{pmatrix} x_1\\ \vdots\\ x_p \end{pmatrix} = \begin{pmatrix} \mu_1\\ \vdots\\ \mu_p \end{pmatrix} + \begin{pmatrix} \vert & & \vert\\ w_1 & \ldots & w_m\\ \vert & & \vert \end{pmatrix} \begin{pmatrix} z_1\\ \vdots\\ z_m \end{pmatrix} +\epsilon, \end{align*}WWWwi=⎛⎝⎜⎜wi1⋮wip⎞⎠⎟⎟.wi=(wi1⋮wip).w_i=\begin{pmatrix}w_{i1}\\ \vdots\\ w_{ip}\end{pmatrix}.WWWmmm検討中の要因がことを意味する列。mmm ハイライトされた部分によると、ここにポイントがあります。各列w_iの負荷wiwiw_iは、観測されたデータの共分散を説明すると思いますか? 例えば、まずはローディングベクトルを見てみましょうw1w1w_1ため、1≤i,j,k≤p1≤i,j,k≤p1\le i,j,k\le p場合、w1i=10w1i=10w_{1i}=10、w1j=11w1j=11w_{1j}=11およびw1k=0.1w1k=0.1w_{1k}=0.1次に、xixix_iとxjxjx_jは非常に相関しているとxkxkx_k思いますが、x_kはそれらとは無相関のようですが、そうですか? そして、これが因子分析が観測された特徴間の共分散を説明する方法である場合、PCAも共分散を説明すると思いますよね?

10
経済学データの最も有用な情報源は何ですか?
経済学で研究を行う場合、実際のデータに関する理論的結論を検証する必要が頻繁にあります。使用および引用する信頼できるデータソースは何ですか?主に、GDP、人口、CPI、PPIなどのさまざまな統計データを提供するソースに興味があります。 編集: このスレッドに表示されるリンクの集合と、私が思い出したいくつかのリンクを次に示します。 汎用: - トムソン・ロイター・データストリーム(非常に包括的な、無料ではない) - 世界銀行のデータ - 国連データ - IMFデータ - ADBデータ - WTOの統計 - Infochimps -大規模な公共および民間(商用)データソースの多種多様のリソース-プラス彼らAPI - Freebaseは(今Googleが所有) -オープンデータリソース - DBpediaの - WikipediaのAPIを使用してのアプローチ - ウィキペディアAPI-または直接アクセスウィキペディア直接行く - CIAワールド・ファクトブック - OECD統計 - ウルフラムアルファ -知識の検索エンジン - Zanran -数値&統計検索エンジン - 政治・社会調査のための大学間コンソーシアム 国家: - 英国政府データプロジェクト - 米国政府データプロジェクト - 米国FRED:連邦準備制度経済データ - 米国労働統計局 - …
37 references 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.