統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
リカレントニューラルネットワークと再帰的ニューラルネットワーク:NLPのどちらが良いですか?
リカレントニューラルネットワークと再帰ニューラルネットワークがあります。通常、両方とも同じ頭字語RNNで示されます。ウィキペディアによると、リカレントNNは実際には再帰NNですが、説明は本当にわかりません。 さらに、私はどちらが自然言語処理のために優れているか(例などを使って)見つけることができないようです。事実、SocherはチュートリアルでNLPにRecursive NNを使用していますが、再帰ニューラルネットワークの適切な実装を見つけることができず、Googleで検索すると、ほとんどの回答がRecurrent NNに関するものです。 それに加えて、NLPにより適した別のDNNがありますか、それともNLPタスクに依存しますか?Deep Belief NetsまたはStacked Autoencoders?(私はNLPでConvNetsの特定のユーティリティを見つけていないようで、ほとんどの実装はマシンビジョンを念頭に置いています)。 最後に、PythonやMatlab / Octaveではなく、C ++(GPUサポートがある場合はさらに良い)またはScala(Sparkサポートがある場合は良い)のDNN実装を本当に好むでしょう。 Deeplearning4jを試しましたが、絶えず開発されており、ドキュメントは少し時代遅れであり、動作させることができないようです。残念なことに、それは物事のやり方のような「ブラックボックス」を持っているので、scikit-learnやWekaにとてもよく似ています。

7
2つの連続変数が独立していることをテストするにはどうすればよいですか?
XとYの共同分布からのサンプルがあるとします。XとYは独立しているという仮説をどのように検証しますか?(Xn,Yn),n=1..N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXYYYXXXYYY XXXとYの結合または周辺分布の法則については仮定されていませんYYY(すべての結合の正規性の中で、独立性は相関が0であるため同一です000) XXXとYの間の可能な関係の性質については想定されていませんYYY。非線形である可能性があるため、変数は無相関(r=0r=0r=0)ですが、高度に共依存(I=HI=HI=H)です。 私は2つのアプローチを見ることができます: 両方の変数をビンし、フィッシャーの正確検定またはG 検定を使用します。 プロ:定評のある統計検定を使用する 短所:ビニングに依存 推定依存性のと:(これはの独立のためにととそれらは互いに完全に決定)。XXXYYYI(X;Y)H(X,Y)I(X;Y)H(X,Y)\frac{I(X;Y)}{H(X,Y)}000XXXYYY111 プロ:明確な理論的意味を持つ数字を生成します Con:おおよそのエントロピー計算に依存します(つまり、再びビニングします) これらのアプローチは理にかなっていますか? 人々が使用する他の方法は何ですか?

7
カイ2乗は常に片側検定ですか?
公開された記事(pdf)には、次の2つの文が含まれています。 さらに、誤った報告は、誤ったルールの適用または統計的テストの知識不足によって引き起こされる可能性があります。たとえば、ANOVAの合計dfは、検定のレポートのエラーdfであると見なされるか、研究者がまたは検定の報告されたp値をで除算するワンサイド値は、一方の値やテスト既に片側検定です。χ 2 Fのp個のP χ 2 FFFFχ2χ2\chi^2FFFppppppχ2χ2\chi^2FFF なぜ彼らはそれを言ったのでしょうか?カイ二乗検定は、両側検定です。(著者の一人に尋ねましたが、返事はありませんでした。) 私は何かを見落としていますか?

4
バイモーダル分布を識別する方法は?
値をグラフとしてプロットしたら、双峰を観察することで二峰性分布を特定できることを理解していますが、プログラムでどのように見つけるのですか?(アルゴリズムを探しています。)

5
NaNとNAの違いは何ですか?
Rのような一部の言語にNAとNaNの両方がある理由を知りたいです。違いは何ですか、それとも等しく同じですか?NAは本当に必要ですか?
48 r 

17
お気に入りのデータ視覚化ブログは何ですか?
データの視覚化に関する最高のブログは何ですか? この質問は非常に主観的であるため、コミュニティWikiにしています。各回答を1つのリンクに制限してください。 提案された回答については、次の基準に注意してください。 [A]このような質問に対する受け入れられる答え...適切な説明と理由付けを提供する必要があります。単なるハイパーリンクではできません。... [A]将来の返信は... [これら]の基準を満たす必要があります。そうでない場合、コメントなしで削除されます。

7
単純な線形回帰におけるスイッチング応答と説明変数の効果
レッツは、間にいくつかの「真」の関係が存在することを言いyyy及びxxxようにy=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilon、ここで及びbは定数であり、εは、 IID正常ノイズです。そのRコードからランダムにデータを生成し、次にのようなモデルに適合させると、明らかにaとbのかなり良い推定値が得られます。aaabbbϵϵ\epsilonx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xaaabbb (x ~ y)ただし、変数の役割をinのように切り替えてから、の結果をxのyyy関数に書き換えると、結果の勾配は常に回帰で推定される勾配よりも急(負または正)になります。私はそれがなぜなのかを正確に理解しようとしているので、そこで何が起こっているのかについて誰かが私に直観を与えることができれば感謝しています。xxxy ~ x
48 regression 

4
運動量ベースの勾配降下とNesterovの加速勾配降下の違いは何ですか?
したがって、運動量ベースの勾配降下は次のように機能します。 v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g ここで、は以前の重みの更新、はパラメーターに関する現在の勾配、は学習率、は定数です。g p l r s e l f 。M O のM E N T U Mmmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + v = p + self.momentum * m - lr * g また、Nesterovの加速勾配降下は次のように機能します。 pnew=p+self.momentum∗v−lr∗gpnew=p+self.momentum∗v−lr∗gp_{new} = p + self.momentum * v - lr * g 次と同等です: pnew=p+self.momentum∗(self.momentum∗m−lr∗g)−lr∗gpnew=p+self.momentum∗(self.momentum∗m−lr∗g)−lr∗gp_{new} = p + …

2
Gradient Boosting Trees(GBM)とAdaboostの違いの直感的な説明
GBMとAdaboostの違いを理解しようとしています。 これらは私がこれまでに理解したことです: 前のモデルのエラーから学習し、最終的にモデルの加重和を作成するブースティングアルゴリズムがあります。 GBMとAdaboostは、損失関数を除いてかなり似ています。 しかし、それでも私はそれらの間の違いのアイデアをつかむことは困難です。誰かが直感的な説明をくれますか?
48 boosting  gbm  adaboost 


10
巨大な読み取り1回のデータセットの中央値を推定するための優れたアルゴリズムは何ですか?
格納するには大きすぎるデータセットの中央値を推定するための優れたアルゴリズム(最小限の計算、最​​小限のストレージ要件を意味する)を探しています。想定できるデータに制限はありません。 精度がわかっている限り、近似は問題ありません。 ポインタはありますか?

5
Kullback-Leibler(KL)発散に関する直観
モデル分布関数がデータの理論的/真の分布とどれだけ異なるかということから、KL発散の背後にある直感について学びました。私が読んでいるソースは、これらの2つの分布間の「距離」の直感的な理解が役立つと言い続けていますが、2つの分布PPPとQQQではKL発散はPPPとQQQ対称ではないため、文字通り解釈すべきではありません。 私は最後の声明を理解する方法がわかりません、またはこれは「距離」の直感が壊れるところですか? シンプルだが洞察に満ちた例に感謝します。

1
予測が目標である場合、標準化/正規化をトレーニングおよびテストセットに適用する方法は?
すべてのデータまたはフォールド(CVが適用されている場合)を同時に変換しますか?例えば (allData - mean(allData)) / sd(allData) trainsetとtestsetを別々に変換しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) または、トレインセットを変換し、テストセットで計算を使用しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 3は正しい方法だと思います。3が正しい場合、平均が0でないこと、または範囲が[0;の間にないことを心配する必要があります。1]または[-1; 1]テストセットの(正規化)?

7
経験豊富な開発者向けの統計情報をどこから始めるか
2015年の前半に、機械学習のコースコースを受講しました(Andrew Ng、素晴らしいコースによる)。機械学習の基礎を学びました(線形回帰、ロジスティック回帰、SVM、ニューラルネットワーク...) また、私は10年間開発者でしたので、新しいプログラミング言語を習得しても問題はありません。 最近、機械学習アルゴリズムを実装するためにRの学習を開始しました。 しかし、学習を続けたい場合は統計のより正式な知識が必要であり、現在は非公式の知識が必要であることに気付きましたが、たとえば、いくつかの線形モデルのどれを適切に決定することができなかったのかより良いでしょう(通常、私はR平方を使用する傾向がありますが、明らかにそれはあまり良い考えではありません)。 だから私には統計の基礎を学ぶ必要があることはかなり明白です(私は大学でそれを勉強しましたが、ほとんどのことを忘れました)、どこで学ぶべきか、私は本当に完全に包括的なコースを必要としないことに注意してください1か月以内に十分な知識が得られるので、熱心になり、さらに学ぶことができます:)。 これまでに「涙のない統計」について読んだことがありますか?

11
プロットと線形代数を使用せずに単純な線形回帰を実行できますか?
私は完全に盲目で、プログラミングの経験があります。 私がやろうとしているのは、機械学習を学ぶことです。これを行うには、まず線形回帰について学ぶ必要があります。この主題について私が見つけているインターネット上のすべての説明は、最初にデータをプロットします。グラフやプロットに依存しない線形回帰の実用的な説明を探しています。 単純な線形回帰の目的についての私の理解は次のとおりです。 単純な線形回帰は、一度与えれXば、の最も近い推定値を提供する式を見つけようとしていますY。 したがって、私が理解しているように、予測変数(たとえば、平方フィートの家の面積)を独立変数(価格)と比較する必要があります。私の例では、おそらくその地域から家の価格を計算するための最良の式を取得する非視覚的な方法を作成できます。たとえば、近所の1000軒の住宅の面積と価格を取得し、価格をその面積に分割するとしますか?結果(少なくとも私の住んでいるイランでは)は非常にわずかな変動しかありません。したがって、おそらく次のようなものが得られます。 Price = 2333 Rials * Area of the house もちろん、データセット内の1000の家すべてを調べ、上記の式に面積を入れ、推定値を実際の価格と比較し、結果を2乗する必要があります(分散が互いに相殺されないようにするためです)そして、数字を取得2333し、エラーを減らすためにをいじり続けます。 もちろん、これはブルートフォースオプションであり、おそらくエラーを計算して最適なオプションに到達するまでに時間がかかりますが、私が言っていることはわかりますか?グラフ、線、プロット上の点、または既存のデータに線を当てはめる最良の方法については何も言いませんでした。 では、なぜ散布図と線形代数が必要なのでしょうか?非視覚的な方法はありませんか? 最初に、私は自分の仮定に正しいですか?そうでない場合は、修正したいと思います。しかし、私がそうであるかどうかにかかわらず、線形代数をいじることなく式を思いつく方法はありますか? 説明とともに例を得ることができれば、それを本当に感謝します。そうすれば、テキストと一緒にそれを理解できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.