統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
多項ロジスティック回帰対1対残りのバイナリロジスティック回帰
いくつかのカテゴリと独立変数のセットを持つ従属変数とします。 YYY バイナリロジスティック回帰のセット(すなわち、1対レストスキーム)に対する多項ロジスティック回帰の利点は何ですか?バイナリロジスティック回帰のセットにより、各カテゴリに対して、場合はtarget = 1、それ以外の場合は0の個別のバイナリロジスティック回帰モデルを構築します。Y = Y Iy私∈ Yyi∈Yy_{i} \in YY= y私Y=yiY=y_{i}

3
線形回帰で係数の分散共分散行列を導き出す方法
私は線形回帰に関する本を読んでいて、分散共分散行列を理解するのに苦労していますbb\mathbf{b}: 対角線の項目は簡単ですが、非対角線の項目はもう少し難しいです。私が困惑しているのは、 σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 ただし、ここにはと痕跡はありません。β0β0\beta_0β1β1\beta_1
36 regression 

6
金額をランダムに分割すると指数分布(収入と富など)になることを分析的に証明するにはどうすればよいですか?
SCIENCEのこの現在の記事では、以下が提案されています。 10,000人の人々の間で5億の収入をランダムに分割するとします。全員に平等な50,000株を与える唯一の方法があります。したがって、収益をランダムに分配する場合、平等は非常にありそうにありません。しかし、少数の人々に多くの現金を与え、多くの人々に少しか何も与えない無数の方法があります。実際、収入を分配することができるすべての方法を考えると、それらのほとんどは収入の指数関数的な分布を生み出します。 結果を再確認したと思われる次のRコードでこれを行いました。 library(MASS) w <- 500000000 #wealth p <- 10000 #people d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99))) fit <- fitdistr(d,"exponential") curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE) 私の質問 結果の分布が実際に指数関数的であることを分析的に証明するにはどうすればよいですか? …

3
Lassoの収縮パラメータまたは50Kを超える変数を持つリッジ回帰を推定する方法は?
50,000個を超える変数を持つモデルにLassoまたはリッジ回帰を使用したい。Rのソフトウェアパッケージを使用してこれを行います。収縮パラメーター()を推定するにはどうすればよいですか?λλ\lambda 編集: ここに私が立ち上がったポイントがあります: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 私の質問は次のとおりです。どのが私のモデルに最適であるかをどのように知ることができますか?λλ\lambda

4
Rの非負変数の密度プロットの良い方法は?
plot(density(rexp(100)) 明らかに、ゼロの左側のすべての密度はバイアスを表します。 私は非統計学者のためにいくつかのデータを要約したいと思っています。そして、非負データがゼロの左側の密度を持っている理由についての質問を避けたいです。プロットはランダム化チェック用です。治療グループと対照グループごとの変数の分布を示したい。分布はしばしば指数関数的です。ヒストグラムにはさまざまな理由で注意が必要です。 グーグルで簡単に検索すると、非負のカーネルに関する統計学者の研究が得られます。 例: this しかし、Rに実装されているものはありますか?実装されたメソッドのうち、記述統計に関して何らかの方法で「最良」のメソッドはありますか? 編集:fromコマンドが現在の問題を解決できる場合でも、非負の密度推定に関する文献に基づいて誰かがカーネルを実装しているかどうかを知ることは素晴らしいことです

3
統計学における修士プログラムについて考慮すべきこと
大学院の入学シーズンです。私(および私のような多くの学生)は現在、どの統計プログラムを選択するかを決定しようとしています。 統計学を研究している皆さんが、統計学の修士課程について検討することを示唆していることは何ですか? (おそらく学校の評判に関して)学生が犯すよくある落とし穴や間違いはありますか? 雇用に関しては、応用統計に焦点を当てるべきか、応用統計と理論統計の組み合わせに注目すべきでしょうか? 編集:ここに私の個人的な状況に関するいくつかの追加情報があります:私が現在検討しているすべてのプログラムは米国にあります。より応用的な側面に焦点を合わせ、「応用統計学」の修士号を授与する者もいれば、「統計学」の理論コースとグラント学位を授与する者もいます。私は個人的に、ある業界で別の業界で働くつもりはありません。私はプログラミングのバックグラウンドがあり、たとえば、ゲノミクスやバイオインフォマティクス業界よりもテクノロジー業界を少しよく知っています。しかし、私は主に興味深い問題のあるキャリアを探しています。 編集:質問をより一般的に適用できるようにしました。

6
「離れて説明する」ことが直感的な意味をなすのはなぜですか?
私は最近、「説明する距離」と呼ばれる確率論的推論の原理について学び、それに対する直観をつかもうとしています。 シナリオを設定しましょう。してみましょう地震が発生しているイベントです。イベント を、ジョリーグリーンの巨人が町を散策しているイベントとします。してみましょう地面が揺れていることをイベントで。ましょう。ご覧のとおり、またはいずれかがを引き起こす可能性があります。AAABBBCCCA⊥⊥BA⊥⊥BA \perp\!\!\!\perp BAAABBBCCC 「explain away」推論を使用しますが発生した場合、またはいずれかが増加しますが、が発生した理由を説明する別の理由は必要ないため、他は減少します。しかし、私の現在の直感では、両方のことを私に語っおよびあれば増加すべきあるために発生、それは可能性が高い原因のいずれかのことを行い発生した発生しました。CCCP(A)P(A)P(A)P(B)P(B)P(B)CCCP(A)P(A)P(A)P(B)P(B)P(B)CCCCCCCCC 私の現在の直観と説明するという考えをどのように調和させるのですか?とが条件付きで依存していることを正当化するために、説明を離れて使用するにはどうすればよいですか?AAABBBCCC

4
ここでない中心極限定理(CLT)でから来ますか?
以下のような中央限定定理の非常に単純なバージョン これはLindeberg–Lévy CLTです。左側にがある理由がわかりません。そして、リアプノフCLTはと言い が、なぜない?やなど、これらの要因について教えてください。定理でそれらをどのように取得しますか?n−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) n−−√n\sqrt{n}1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) sn−−√sn\sqrt{s_n}n−−√n\sqrt{n}1sn1sn\frac{1}{s_n}


5
データマイニングのリフトメジャー
私は多くのウェブサイトを検索して、リフトが正確に何をするのかを知りましたか?私が見つけたすべての結果は、それ自体ではなくアプリケーションでそれを使用することに関するものでした。 サポートと信頼機能について知っています。ウィキペディアのデータマイニングでは、リフトはケースの予測または分類におけるモデルのパフォーマンスの尺度であり、ランダム選択モデルに対して測定されます。しかし、どのように?信頼度*サポートはリフトの値です別の数式も検索しましたが、リフトチャートが予測値の精度で重要である理由を理解できませんリフトの背後にあるポリシーと理由を知りたいですか?

3
ランダムフォレストの投票から「確実性スコア」を作成しますか?
私は、約10,000個のオブジェクトの適度に大きなトレーニングセットでオブジェクトType AとType Bオブジェクトを区別する分類子をトレーニングしようType AとしていますType B。データセットは、セルの物理的特性(サイズ、平均半径など)を詳述する100個の連続したフィーチャで構成されています。ペアワイズ散布図と密度プロットでデータを視覚化すると、多くの特徴で癌細胞と正常細胞の分布にかなりの重複があることがわかります。 現在、このデータセットの分類方法としてランダムフォレストを調査しており、いくつかの良い結果が得られています。Rを使用すると、ランダムフォレストはオブジェクトの約90%を正しく分類できます。 試してみたいことの1つは、オブジェクトの分類に対する自信の程度を定量化する一種の「確実性スコア」を作成することです。私たちは、分類器が100%正確になることはありませんことを知っている、との予測では、高い精度が達成された場合でも、私たちは訓練を受けた技術が真にであるオブジェクトを識別することになるでしょうType AとType B。そのため、Type Aまたはの妥協のない予測を提供する代わりにType B、各オブジェクトの方法AまたはBオブジェクトがどのようであるかを説明するスコアを提示したいと思います。たとえば、0〜10の範囲のスコアを考案した場合、スコア0はオブジェクトがオブジェクトに非常に似ていることを示し、スコア10はオブジェクトが非常に似ているType Aことを示しますType B。 ランダムフォレスト内の投票を使用して、このようなスコアを考案できると考えていました。ランダムフォレストの分類は、生成されたツリーのフォレスト内の多数決によって行われるため、ツリーの100%によって投票さType Aれたオブジェクトは、たとえばツリーの51%によって投票されたオブジェクトとは異なると想定しますであるType A。 現在、オブジェクトをType AまたはType Bに分類するために受け取る必要がある投票の割合に任意のしきい値を設定しようとしましたが、しきい値を超えていない場合はに分類されUncertainます。たとえば、80%以上のツリーが分類の合格に同意する必要があるという条件を強制すると、クラス予測の99%は正しいが、オブジェクトの約40%がとしてビン化されることがわかりますUncertain。 それでは、投票情報を利用して予測の確実性をスコアリングすることは理にかなっていますか?または、私は自分の考えで間違った方向に向かっていますか?

4
係数total = 1になるようにRの制約付き回帰をどのように適合させるのですか?
同様の制約付き回帰がここにあります: 指定された点を通る制約付き線形回帰 しかし、私の要件は少し異なります。合計1の係数が必要です。具体的には、1つの外国為替シリーズのリターンを他の3つの外国為替シリーズに対して回帰しています。現金支出は変化してはならず、できれば(ただしこれは必須ではありません)、係数は正でなければなりません。 RとGoogleで制約付き回帰を検索しようとしましたが、ほとんど運がありません。
36 r  regression 

5
Rのタイミング関数[終了]
関数の実行を繰り返すのにかかる時間を測定したいと思います。あるreplicate()と同等のループに使用して?例えば: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); どちらが好ましい方法です。 の出力でsystem.time()はsys+user、プログラムを実行するための実際のCPU時間ですか?あるelapsed番組の時間性能の良い測定?
36 r 

2
非iidガウス変量の合計の分布は何ですか?
場合分配される、 分布している と、私はそれを知っている分配される XとYが独立している場合。XXXY N (μ Y、σ 2 Y)Z = X + Y Z N (μ X + μ Y、σ 2 X + σ 2 Y)N(μX,σ2X)N(μX,σX2)N(\mu_X, \sigma^2_X)YYYN(μY,σ2Y)N(μY,σY2)N(\mu_Y, \sigma^2_Y)Z=X+YZ=X+YZ = X + YZZZN(μX+μY,σ2X+σ2Y)N(μX+μY,σX2+σY2)N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) しかし、XとYが独立していない場合、つまり (X,Y)≈N((μXμY),(σ2XσX,YσX,Yσ2Y))(X,Y)≈N((μXμY),(σX2σX,YσX,YσY2))(X, Y) \approx N\big( (\begin{smallmatrix} \mu_X\\\mu_Y \end{smallmatrix}) , (\begin{smallmatrix} \sigma^2_X && \sigma_{X,Y}\\ …

8
どのような条件下で、マルチレベル/階層分析を使用する必要がありますか?
より基本的な分析や従来の分析(ANOVA、OLS回帰など)とは対照的に、マルチレベル分析や階層分析の使用を検討すべき条件はどれですか?これが必須と見なされる状況はありますか?マルチレベル/階層分析の使用が不適切な状況はありますか?最後に、初心者がマルチレベル/階層分析を学ぶのに役立つリソースは何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.