統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
なぜ他の代わりにシグモイド関数なのか?
事実上の標準シグモイド関数が(非深層)ニューラルネットワークとロジスティック回帰で非常に人気があるのはなぜですか?11+e−x11+e−x\frac{1}{1+e^{-x}} 他の多くの派生関数を使用して、計算時間を短縮するか、減衰を遅くします(勾配の消失が少なくなります)。シグモイド関数に関するいくつかの例がウィキペディアにあります。減衰が遅く計算が速い私のお気に入りの1つはです。x1+|x|x1+|x|\frac{x}{1+|x|} 編集 この質問は、シグモイドの「なぜ」にのみ興味があるので、賛否両論のニューラルネットワークの活性化関数の包括的なリストとは異なります。

6
シミュレーションを使用する場合
ですから、これは非常にシンプルで愚かな質問です。しかし、私が学校にいたとき、私はクラスでのシミュレーションの概念全体にほとんど注意を払わなかったので、そのプロセスに少し恐怖を感じました。 素人の言葉でシミュレーションプロセスを説明できますか?(データ、回帰係数などを生成するためのものです) シミュレーションを使用する実際の状況/問題は何ですか? 私はRにあるように与えられた例を好むでしょう
40 simulation 

5
Rの警告-カイ2乗近似が正しくない可能性があります
消防士入学試験の結果を示すデータがあります。私は、試験結果と民族性が相互に独立していないという仮説を検証しています。これをテストするために、RでPearsonのカイ2乗検定を実行しました。結果は期待したことを示していますが、「」という警告が表示されましたIn chisq.test(a) : Chi-squared approximation may be incorrect。 > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 Warning message: In chisq.test(a) : …

4
分類の想起と精度
情報検索のコンテキストでは毎回ですが、想起と精度の定義をいくつか読みました。私は誰かがこれを分類の文脈でもう少し説明し、おそらくいくつかの例を説明できるかどうか疑問に思っていました。たとえば、60%の精度と95%のリコールを提供するバイナリ分類器があるとします。これは良い分類器ですか? 私の目標をもう少し助けるために、あなたによる最高の分類器は何ですか?(データセットは不均衡です。マジョリティクラスにはマイノリティクラスの2倍の例があります) 個人的には、レシーバーオペレーターカーブの下の面積のために5と言います。 (ここでわかるように、モデル8の精度は低く、再現率は非常に高くなっていますが、AUC_ROCが最も低いモデルの1つであるため、良いモデルですか?それとも悪いモデルですか?) 編集: 詳細情報を含むExcelファイルがあります:https : //www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx このドキュメントでは、レシーバーオペレーターカーブの下の領域と精密リコールカーブの下の領域を見つけることができます。プロットと一緒に。


3
glmnetを使用して投げ縄の結果を表示する方法
30個の独立変数のセットから連続従属変数の予測子を見つけたいです。R のglmnetパッケージに実装されているLasso回帰を使用しています。ダミーコードを次に示します。 # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …

3
または上の一様分布の合計を考えます。でのPDFのカスプが消えるのはなぜですか?
私はしばらくこのことについて疑問に思っていました。私はそれがどのように突然起こるか少し奇妙だと思います。基本的に、がそれを滑らかにするために3つのユニフォームだけが必要なのはなぜですか?そして、なぜスムージングアウトがそれほど速く起こるのですか?ZnZnZ_n Z2Z2Z_2: Z3Z3Z_3: (ジョン・D・クックのブログから恥知らずに盗まれた画像:http : //www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/) なぜ、たとえば4つの制服が必要なのでしょうか?それとも5?それとも...?


3
隠れマルコフモデルとニューラルネットワークの違いは何ですか?
私は統計に足を踏み入れたばかりなので、この質問が意味をなさない場合は申し訳ありません。私はマルコフモデルを使用して、隠れた状態(不公平なカジノ、サイコロロールなど)とニューラルネットワークを予測し、検索エンジンでのユーザークリックを調べました。どちらも、観測を使用して把握しようとしている隠された状態がありました。 私の理解では、それらは両方とも隠れ状態を予測するので、ニューラルネットワークでマルコフモデルをいつ使用するのだろうか?それらは、同様の問題に対する異なるアプローチですか? (私は学習に興味がありますが、別の動機もあります。隠れたマルコフモデルを使用して解決しようとしている問題があります。

1
ブートストラップまたはモンテカルロアプローチを使用して重要な主成分を決定する方法は?
主成分分析(PCA)または経験的直交関数(EOF)分析から得られる重要なパターンの数を特定することに興味があります。この方法を気候データに適用することに特に興味があります。データフィールドはMxN行列で、Mは時間次元(例:日)、Nは空間次元(例:経度/緯度)です。重要なPCを判別するための可能なブートストラップ方法を読みましたが、より詳細な説明を見つけることができませんでした。これまで、私はこのカットオフを決定するために、Northの経験則(North et al。 例として: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal patterns …
40 r  pca  bootstrap  monte-carlo 


13
モンティホールの問題-私たちの直観はどこで失敗しますか?
ウィキペディアから: ゲームショーに参加していて、3つのドアを選択できるとします。1つのドアの後ろは車です。他の山羊の後ろに。1番と言うドアを選び、ドアの後ろに何があるかを知っているホストが、ヤギがいる3番と言う別のドアを開きます。彼はあなたに、「2番のドアを選びたいですか?」と言います。あなたの選択を切り替えることはあなたにとって有利ですか? もちろん、答えはイエスです-しかし、それは信じられないほど非直感的です。ほとんどの人は、私たちが頭をかきむしにつながる確率について、どのような誤解を持っていますか?直観をよりよく訓練するために、このパズルからどのような一般的な規則を取り除くことができますか?

5
動的タイムワーピングクラスタリング
動的タイムワーピング(DTW)を使用して時系列のクラスタリングを実行する方法は何ですか? DTWを2つの時系列間の類似性を見つける方法として読みましたが、それらは時間的にシフトする可能性があります。この方法を、k-meansのようなクラスタリングアルゴリズムの類似性尺度として使用できますか?

4
線形活性化関数は、ニューラルネットワークの消失勾配問題をどのように解決しますか?
ニューラルネットワークの消失勾配問題の解決策として、いくつかの場所で称賛された整流線形ユニット(ReLU)が見つかりました。つまり、アクティベーション関数としてmax(0、x)を使用します。活性化が正の場合、その派生は大きなxの任意の小さな値ではなく常に1であるため、これがたとえばシグモイド活性化関数よりも優れていることは明らかです。一方、xが0より小さい場合、導出は正確に0です。最悪の場合、ユニットがアクティブ化されない場合、このユニットの重みも変更されず、ユニットは永久に使用できなくなります。消失するほど小さい勾配よりもはるかに悪い。ReLUを使用する場合、学習アルゴリズムはその問題にどのように対処しますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.