統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
0〜1の結果(比率または分数)の回帰
私は、比率の予測モデルの構築を考えています、≤ B及び> 0及びB > 0を。だから、比率が間になる0と1。a / ba/ba/b≤ Ba≤ba \le ba > 0a>0a > 0b > 0b>0b > 0000111 線形回帰を使用できますが、自然に0.1に制限されるわけではありません。関係が線形であると信じる理由はありませんが、もちろん、とにかく、単純な最初のモデルとしてしばしば使用されます。 ロジスティック回帰を使用できますが、通常は2状態の結果の確率を予測するために使用され、範囲0.1からの連続値を予測するためではありません。 これ以上何も知らない場合、線形回帰、ロジスティック回帰、または非表示オプションcを使用しますか?

4
困惑とは何ですか?
見えないデータの対数平均された逆確率を指す用語「perplexity」に出会いました。困惑に関するウィキペディアの記事は、そのための直感的な意味を与えません。 この困惑度の尺度は、pLSAの論文で使用されました。 誰もが困惑度の必要性と直感的な意味を説明できますか?

6
CNNでのローカル応答の正規化の重要性
Imagenetやその他の大規模なCNNは、ローカル応答の正規化レイヤーを利用していることがわかりました。しかし、私はそれらに関する多くの情報を見つけることができません。それらはどのくらい重要で、いつ使用する必要がありますか? http://caffe.berkeleyvision.org/tutorial/layers.html#data-layersから: 「ローカル応答正規化レイヤーは、ローカル入力領域を正規化することにより、一種の「横方向抑制」を実行します。ACROSS_CHANNELSモードでは、ローカル領域は近くのチャネルに広がりますが、空間範囲はありません(つまり、local_size x 1 x 1の形状を持ちます) WITHIN_CHANNELモードでは、ローカル領域は空間的に拡張されますが、別々のチャネルにあります(つまり、形状は1 x local_size x local_sizeの形状です)。各入力値は(1+(α/ n)∑ix2i)βで除算されます。は各ローカル領域のサイズであり、合計はその値を中心とする領域で取得されます(必要に応じてゼロパディングが追加されます)。 編集: これらの種類のレイヤーの影響は最小限で、使用されなくなったようです。基本的に、それらの役割は、他の正則化技術(ドロップアウトやバッチ正規化など)、より良い初期化、およびトレーニング方法によって実現されています。詳細については、以下の回答を参照してください。

10
1000のうち600が10のうち6よりも説得力があるのはなぜですか?
「スタディスキルハンドブック」、Palgrave、2012年、Stella Cottrell著、155ページからのこの抜粋をご覧ください。 パーセンテージパーセンテージが与えられると通知します。 代わりに、上記のステートメントが次のようになっているとします: 60%の人がオレンジを好んだ。40%がリンゴを好むと答えました。 これは説得力があるように見えます:数値が与えられています。しかし、60%と40%の違いは重要ですか?ここでは、何人の人が尋ねられたかを知る必要があります。1000人が600人のオレンジを好む人を尋ねられた場合、その数は説得力があるでしょう。ただし、10人だけが質問された場合、60%は6人がオレンジを好んだことを意味します。「60%」は、「10のうち6」ではできない方法で説得力があるように聞こえます。重要な読者として、不十分なデータを印象的に見えるようにするために使用されているパーセンテージを監視する必要があります。 統計でこの特性は何と呼ばれますか?私はそれについてもっと読みたいです。

9
相関は因果関係を意味するものではありません。しかし、変数の1つが時間である場合はどうでしょうか。
私はこの質問が10億回も聞かれたことを知っているので、オンラインで調べた後、2つの変数間の相関は因果関係を意味しないと完全に確信しています。今日の統計講義の1つで、物理学における統計的手法の重要性について、物理学者からゲスト講義を受けました。彼は驚くべき声明を述べた: 相関は因果関係を意味するものではなく、変数の1つが時間である場合を除きます。したがって、いくつかの独立変数と時間の間に強い相関がある場合、これは因果関係も意味します。 この声明を聞いたことがありません。物理学者/相対論者は「因果関係」を統計の人々とは異なるものと見ていますか?

10
飛行機を直接飛ばすと、飛行機のcrash落事故で死亡する可能性は減りますか?
私は最近、飛行機のin落による死亡の可能性を最小限に抑えることについて、友人と意見の相違がありました。これは初歩的な統計問題です。 彼は、飛行機のcrash落事故で死亡する可能性を減らすため、目的地に直接飛ぶことを好むと述べました。彼の論理は、民間航空会社のcrash落の確率が10,000分の1である場合、目的地に着くために2機の飛行機で飛行すると死亡の可能性が2倍になるというものでした。 私のポイントは、飛行機に乗るたびに、将来の飛行機のcrash落で彼が死ぬ可能性が高まるわけではないということでした。つまり、各飛行機の飛行は独立しています。誰かがその年に100機の飛行機で飛んだとしても、たった1機で飛んだとしても、両方のチラシは次のフライトで飛行機crash落事故で死亡する可能性が10,000分の1あります。 別のポイント:目的地は4時間先だと言います。直行便を利用する場合、衝突するリスクがある状態で4時間空中にいます。ここで、4つの異なる接続便を利用するとします。各便の所要時間は約1時間です。このシナリオでは、約4時間空中にいます。したがって、直行便を利用する場合でも、お金を節約して乗り継ぎ便を利用する場合でも、危険にさらされる時間はほぼ同じです。 私の最後のポイントは、短いフライトほどcrash落率が低いということでした。私はそれをどこからともなく引き出しました。私はゼロの研究を行い、それをバックアップするゼロのデータを持っていますが、...それは論理的に思えます。 誰が正しいのか、そしてその理由は?ここには多くの問題があります。

1
ニューラルネットワーク:重量変化の運動量と重量減衰
Momentumは、連続した反復での重量変化の変動を小さくするために使用されます。αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), ここではエラー関数、 -重みのベクトル学習率。E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 重量減衰は、重量の変化にペナルティを与えます。λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 問題は、逆伝播中に両方のトリックを組み合わせることが理にかなっているか、そしてそれがどのような効果をもたらすのか? Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i

2
反復測定線形混合効果モデルにlmerを使用する
編集2:私はもともと、1つの因子で繰り返し測定を行う2因子ANOVAを実行する必要があると考えていましたが、現在では線形混合効果モデルがデータに対してより適切に機能すると考えています。私は何が起こる必要があるかほとんど知っていると思いますが、まだいくつかの点で混乱しています。 分析する必要がある実験は次のようになります。 被験者はいくつかの治療グループのいずれかに割り当てられました 各被験者の測定は複数日に行われました そう: 被験者は治療内にネストされています 治療は日と交わる (各被験者は1つの治療のみに割り当てられ、各日に被験者ごとに測定が行われます) データセットには次の情報が含まれています。 件名=ブロッキングファクター(ランダムファクター) 日=被験者内または反復測定因子(固定因子) 治療=対象因子間(固定因子) Obs =測定された(従属)変数 UPDATE OK、それで私は統計学者に行って話しましたが、彼はSASユーザーです。彼は、モデルは次のようにすべきだと考えています。 治療+日+被験者(治療)+日*被験者(治療) 明らかに彼の表記法はR構文とは異なりますが、このモデルは次のことを説明することになっています。 治療(固定) 日(固定) The Treatment * Dayインタラクション 治療内にネストされたサブジェクト(ランダム) 「治療内の被験者」と交差した日(ランダム) だから、これは使用する正しい構文ですか? m4 <- lmer(Obs~Treatment*Day + (1+Treatment/Subject) + (1+Day*Treatment/Subject), mydata) 私は特に、「治療の対象」部分と交差した日が正しいかどうかを心配しています。SASに精通している人、または彼のモデルで何が起こっているのかを理解していると確信している人は、R構文での私の悲しい試みが一致するかどうかについてコメントできますか? モデルの構築と構文の記述(回答とコメントで説明)での私の以前の試みは次のとおりです。 m1 <- lmer(Obs ~ Treatment * Day + (1 | Subject), mydata) サブジェクトが治療内にネストされているという事実にどのように対処しますか?以下m1との違い: …

2
パンダ/ Statsmodel / Scikit-learn
パンダ、Statsmodels、およびScikitは、機械学習/統計操作の異なる実装を学習していますか、またはこれらは相互に補完的ですか? どれが最も包括的な機能を備えていますか? 積極的に開発および/またはサポートされているのはどれですか? ロジスティック回帰を実装する必要があります。これらのどれを使用すべきかについての提案はありますか?

5
統計的思考を学ぶのに適したゲームですか?
プレイヤーに「統計学者のように考えて」もらうゲームはありますか? たとえば、lightbotを使用すると、「非常に基本的な方法で」「プログラマのように考える」ことができます。エンターテインメントまたは教育用に設計されたゲームはありますか?相関、p値、最小二乗、分散、さまざまな種類の確率分布、平均への回帰などの基本概念に慣れるのに役立つゲームがありますか? 1つの例は、この相関推測ゲームです。 (私はそのようなアプリケーションを開発することを考えているので、私は尋ねています、そして、以前の仕事が存在するものの広い視野を得ようとしています)

3
どちらが重い尾、対数正規またはガンマを持っていますか?
(これは、電子メールで私に届いた質問に基づいています。同じ人との以前の短い会話からいくつかのコンテキストを追加しました。) 昨年、ガンマ分布は対数正規分布よりも裾が重いと言われましたが、そうではないと言われました。 どちらが重いですか? 関係を調べるために使用できるリソースは何ですか?

7
少なくとも一度はすべての数字を取得するために、6面のサイコロを振る必要がありますか?
私はちょうど子供とゲームをプレイしました。基本的には、6面ダイスで少なくとも1回すべての数字を振る人が勝ちます。 私は最終的に勝ちました、そして、他は1-2ターン後に終わりました。今、私は疑問に思う:ゲームの長さの期待は何ですか? 特定の数に達するまでのロール数の予想は 。∑∞n = 1n 16(56)n − 1= 6∑n=1∞n16(56)n−1=6\sum_{n=1}^\infty n\frac{1}{6}(\frac{5}{6})^{n-1}=6 ただし、2つの質問があります。 少なくとも1回すべての数字を取得するまで、6面のサイコロを何回振る必要がありますか? 4つの独立したトライアル(つまり、4人のプレイヤー)の中で、必要なロールの最大数はどうなりますか?[注:最小ではなく最大です。なぜなら、年齢では、子供のために最初にそこに着くということよりも、仕上げることのほうが重要だからです] 結果をシミュレートすることはできますが、分析的にどのように計算するのでしょうか。 Matlabでのモンテカルロシミュレーションです mx=zeros(1000000,1); for i=1:1000000, %# assume it's never going to take us >100 rolls r=randi(6,100,1); %# since R2013a, unique returns the first occurrence %# for earlier versions, take the minimum of x %# and subtract …


4
OpenBugsとJAGS
ベイジアンモデルを推定するためのBUGSスタイルの環境を試しています。OpenBugsまたはJAGSを選択する際に考慮すべき重要な利点はありますか?近い将来、一方が他方を置き換える可能性はありますか? Rで選択したGibbs Samplerを使用します。特定のアプリケーションはまだありませんが、どちらを導入して学習するかを決定しています。
41 r  software  bugs  jags  gibbs 

20
数学や確率を含む良い映画はありますか?
数学、確率などを含む良い映画をいくつか提案できますか?1つの例は21です。また、アルゴリズム(テキスト復号化など)を含む映画にも興味があります。一般に、有名な科学理論はあるがサイエンスフィクションやドキュメンタリーはない「オタク」映画。前もって感謝します!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.