統計とビッグデータ

1

箱ひげ図の歴史はどのようなもので、「箱ひげ」のデザインはどのように進化しましたか？

多くの情報源は、に古典的な「ボックスプロット」デザインとデートジョン・テューキーデザインはで、それ以来、比較的静的に宿泊しているようだと、1970年の彼の「概略的なプロット」エドワード・タフトのカットダウンボックスプロットのバージョン間、上のキャッチに失敗しますバイオリンプロット -ボックスプロットのより有益なバリエーション-はあまり人気がありません。10パーセンタイルと90パーセンタイルまで伸びるというクリーブランドの提案には、支持者がいます。Cox（2009）を参照してくださいが、これは標準ではありません。 Hadley WickhamとLisa Stryjewskiは、箱ひげ図の歴史に関する未発表の論文を書きましたが、箱ひげ図の歴史的な先駆者をカバーしていないようです。それでは、現在のユビキタスな「箱とひげ」のプロットはどのようにして生まれたのでしょうか？どのようなデータの視覚化から発展し、それらの初期の設計には大きな利点がありましたか？また、なぜそれらがTukeyのスキームによる使用で非常に包括的に食われているように見えるのですか？図解された答えはボーナスになりますが、ウィッカムやストリエフスキーよりも歴史的に深く掘り下げた参考文献に向けられると便利です。参照資料ニュージャージー州コックス（2009）。Speaking Stata：ボックスプロットの作成と変更。Stata Journal、9（3）、478。 Wickham、H.およびStryjewski、L.（2011）。40年の箱ひげ図。http://vita.had.co.nz/papers/boxplots.pdf

19 data-visualization references boxplot history

2

MAEを最小化すると、平均ではなく中央値が予測されるのはなぜですか？

予測：原則と実践は、ロブ・J HyndmanとジョージAthanasopoulos教科書、特に精度測定上のセクション： MAEを最小化する予測方法は中央値の予測につながり、RMSEを最小化すると平均の予測につながります MAEを最小化すると平均ではなく中央値が予測される理由を直感的に説明できますか？そして、これは実際には何を意味しますか？お客様に、「平均予測をより正確にする、または非常に不正確な予測を避けるために、あなたにとってより重要なことは何ですか？」と尋ねました。彼は、平均予報をより正確にするために、より高い優先度を持っていると言いました。したがって、この場合、MAEまたはRMSEを使用する必要がありますか？この引用を読む前に、私はMAEがそのような状態に良くなると信じていました。そして今、私は疑います。

19 forecasting mean median rms mae

3

2つのドットが接続された行を持つこのプロットの名前は何ですか？

私はEIAレポートを読んでおり、このプロットは私の注目を集めました。同じ種類のプロットを作成できるようになりたいと思います。 2年間（1990〜2015年）のエネルギー生産性の進化を示し、この2つの期間の間に変化値を追加します。このタイプのプロットの名前は何ですか？Excelで同じプロットを（異なる国で）作成するにはどうすればよいですか？

19 data-visualization terminology excel

3

ガールフレンドが未来を伝えることができるかどうかを判断する方法（つまり、株価を予測する方法）

私のガールフレンドは最近、大手銀行で販売と取引をする仕事に就きました。彼女は新しい仕事に支えられて、今月末に株価がチャンスよりも上がるか下がるかを予測できると考えています（80％の精度でそれを行うことさえできると信じています！）私は非常に懐疑的です。私たちは、彼女がいくつかの株を選択する実験を行うことに同意し、事前に決められた時間に、それらが上昇しているか下降しているかをチェックします。私の質問はこれです。彼女が株を正確に予測できることを自信を持って伝えるのに十分な統計力を得るために、彼女は何株を選び、何株を正さなければなりませんか？たとえば、80％の精度で株を選ぶことを95％の確実性で伝えるために、何株を選ぶ必要がありますか？編集：私たちが同意した実験では、彼女は株価が上昇または下降する量を予測する必要はありませんが、上昇または下降する場合のみです。

19 probability forecasting finance

4

コインフリップのサンプルサイズを増やしても通常の曲線近似が改善されないのはなぜですか？

私は統計（Freeman、Pisani、Purves）の本を読んでいます。コインを50回投げ、頭の数を数え、これを1,000回繰り返した例を再現しようとしています。最初に、トスの数（サンプルサイズ）を1000に保ち、繰り返し回数を増やしました。繰り返しが多いほど、データは標準曲線によく適合します。そこで次に、繰り返し回数を1,000に固定して、サンプルサイズを増やしてみました。サンプルサイズが大きいほど、最悪の法線はデータに適合しているように見えます。これは、サンプルサイズが増加するにつれて正常曲線をよりよく近似する本の例と矛盾しているようです。サンプルサイズを増やした場合にどうなるかを確認したかったのですが、10,000回に修正された反復回数が増えました。これは本とも矛盾しているようです。私が間違っていることは何ですか？以下のコードとグラフ。 %matplotlib inline def plot_hist(num_repetitions, num_tosses): tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses]) sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses) xmin, xmax = min(sums), max(sums) lnspc = np.linspace(xmin, xmax, len(sums)) m, s = stats.norm.fit(sums) # get mean and standard deviation pdf_g = stats.norm.pdf(lnspc, m, …

19 normal-distribution central-limit-theorem normal-approximation

1

2つのサンプルが同じ分布から抽出された場合のノンパラメトリック検定

サンプルまたは母集団の分布についての仮定を一切行うことなく、同じ母集団から2つのサンプルが抽出されるという仮説をテストしたいと思います。どうすればいいですか？ウィキペディアからの私の印象は、Mann Whitney Uテストが適切であるべきだということですが、実際には私にはうまくいかないようです。具体的には、2つのサンプル（a、b）が大きく（n = 10000）、非正常（バイモーダル）の2つの母集団から抽出されたデータセットを作成しました。私はこれらのサンプルが同じ母集団からのものではないことを認識するテストを探しています。ヒストグラムビュー： Rコード： a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n = c(rnorm(1e4, mean=50, sd=3), rnorm(1e4, mean=100, sd=3))) ggplot(rbind(a,b), aes(x=n, fill=group)) + geom_histogram(position='dodge', bins=100) サンプルが同じ母集団からのものであるという帰無仮説を却下しなかったマン・ホイットニー検定は驚くほど（？）です。 > wilcox.test(n ~ group, rbind(a,b)) Wilcoxon rank sum …

19 r hypothesis-testing nonparametric wilcoxon-mann-whitney wilcoxon-signed-rank

4

相関と因果関係

相関というタイトルのウィキペディアのページからは、因果関係を意味するものではありませんが、相関する2つのイベントAとBの場合、考えられるさまざまな関係は次のとおりです。 AはB（直接因果関係）を引き起こします。 BはA（逆因果関係）を引き起こします。 AとBは共通の原因の結果ですが、互いに原因ではありません。 AとBは両方ともCを引き起こし、Cは（明示的または暗黙的に）条件付けられます。 AはBを引き起こし、BはAを引き起こします（双方向または周期的な因果関係）。 AはBを引き起こすCを引き起こします（間接的な因果関係）。 AとBの間に接続はありません。相関関係は偶然です。 4番目のポイントはどういう意味ですか。AとBは両方ともCを引き起こし、Cは（明示的または暗黙的に）条件付けられます。AとBがCを引き起こす場合、なぜAとBを相関させる必要があるのか。

19 correlation causality

5

回帰での過剰適合の回避：正則化の代替

回帰の正則化（線形、ロジスティック...）は、過剰適合を減らす最も一般的な方法です。目標が予測精度（説明ではない）である場合、特にビッグデータセット（mi / billionの観測値とmillionsの機能）に適した、正則化の代替手段はありますか？

19 regression regularization overfitting

1

word2vecでネガティブサンプリングはどのように機能しますか？

私はword2vecのコンテキストでネガティブサンプリングの概念を理解しようと懸命に努力しています。[ネガティブ]サンプリングのアイデアを消化できません。たとえば、ミコロフの論文では、負のサンプリング期待値は次のように定式化されています。ログσ（⟨ W 、C ⟩ ）+ K ⋅ EcN〜PD[ ログσ（- ⟨ W 、CN⟩ ）] 。ログ⁡σ（⟨w、c⟩）+k⋅EcN〜PD[ログ⁡σ（−⟨w、cN⟩）]。\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)]. 私は左の用語理解していますが、ネガティブな単語とコンテキストのペアをサンプリングするアイデアを理解できません。ログσ（⟨ W 、C ⟩ ）ログ⁡σ（⟨w、c⟩）\log \sigma(\langle w,c\rangle)

19 machine-learning word2vec word-embeddings

3

ネイトシルバーの予測の正確さをどのように判断できますか？

まず、彼は結果の確率を与えます。そのため、たとえば、米国の選挙に対する彼の予測は、現在クリントンが82％対トランプが18％です。今、トランプが勝ったとしても、彼が勝ったはずの時間の18％だけではなかったことをどうやって知るのですか？もう1つの問題は、彼の確率が時間とともに変化することです。7月31日、トランプとクリントンの間はほぼ50対50でした。私の質問は、彼は同じ結果で同じ将来のイベントに対して毎日異なる確率を持っていることを考えると、その日まで利用可能な情報に基づいて予測を行った毎日の正確さをどのように測定できますか？

19 forecasting prediction validation accuracy scoring-rules

2

頻度統計の暗黙の事前分布とは何ですか？

ジェインズは、頻繁な活動家が「暗黙の事前」で活動していると主張するという考えを聞いたことがあります。これらの暗黙の優先順位は何ですか？これは、頻繁なモデルがすべて、ベイジアンモデルの発見を待っている特別なケースであることを意味しますか？

19 bayesian prior posterior frequentist

2

scikitのマルチラベル分類メトリック

scikitを使用して既存のドキュメントにトピックを割り当てるために、マルチラベル分類子を構築しようとしています私は、を介してそれらを渡す私の文書を処理していTfidfVectorizerて、ラベルMultiLabelBinarizerと作成したOneVsRestClassifierとSGDClassifier推定として。しかし、分類子をテストするとき、私は0.29までのスコアしか得ません。これは、私が読んだものから同様の問題に対してかなり低いです。TfidfVectorizerでストップワード、ユニグラム、ステミングなどの複数のオプションを試しましたが、何もそれほど結果を変えないようです。またGridSearchCV、推定器に最適なパラメーターを取得するために使用していましたが、現在、次に何をしようかというアイデアがありません。同時に、私が使用できないことを理解scikit.metricsしているOneVsRestClassifierので、何が間違っているのかを理解するために、どのようにいくつかのメトリック（F1、Precision、Recallなど）を取得できますか？データコーパスに問題があるのでしょうか？更新：とを使用CountVectorizerしHashingVectorizerてパイプライン処理も試みましたTfidfTransformerが、結果は似ています。だから私は、word-of-wordsアプローチがトークン化ドメインで最善であり、残りは分類器次第だと推測しています...

19 scikit-learn multi-class multilabel

3

ディープニューラルネットワークのトレーニングに早期停止を適切に使用する方法

ディープニューラルネットワークモデルがあり、約100,000のサンプルで構成されるデータセットで検証する必要があります。検証データには約1000のサンプルが含まれています。各例のトレーニングには時間がかかり（例ごとに約0.5秒）、過剰適合を避けるために、不要な計算を防ぐために早期停止を適用したいと思います。しかし、ニューラルネットワークを早期に停止して適切にトレーニングする方法がわかりません。今では理解できないことがいくつかあります。適切な検証頻度は何ですか？各エポックの終わりに検証データでモデルをチェックする必要がありますか？（私のバッチサイズは1です）最初のいくつかのエポックが、より良い価値に収束し始める前に、より悪い結果をもたらすかもしれませんか？その場合、早期停止をチェックする前に、いくつかのエポックについてネットワークをトレーニングする必要がありますか？検証の損失が上下する可能性がある場合の対処方法その場合、早期に停止すると、モデルがさらに学習できなくなる可能性がありますよね？前もって感謝します。

19 neural-networks deep-learning

3

意思決定の切り株は線形モデルですか？

決定切り株は、分割が1つしかない決定木です。また、区分関数として書くこともできます。たとえば、がベクトルであり、がxの最初のコンポーネントであると仮定すると、回帰設定では、いくつかの決定スタンプがx 1 xxxxx1x1x_1バツxx f（x ）= { 35バツ1≤ 2バツ1> 2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} しかし、それは線形モデルですか？ここでf（x）= \ beta ^ T xと書くことができますf（x ）= βTバツf(x)=βTxf(x)=\beta^T xか？この質問は奇妙に聞こえるかもしれません。答えとコメントで述べたように、区分的関数をプロットする場合、それは線ではないからです。この質問をする理由については、次のセクションをご覧ください。編集：この質問をする理由は、ロジスティック回帰が（一般化された）線形モデルであり、決定境界が線であり、これも決定の切り株であるためです。この質問もあることに注意してください：ロジスティック回帰はなぜ線形モデルなのですか？。一方、意思決定の切り株が線形モデルであることは事実ではないようです。私がこれを尋ねたもう一つの理由は、この質問のためです：ブースティングでは、ベース学習者が線形モデルである場合、最終モデルは単なる線形モデルですか？ここで、ベースモデルとして線形モデルを使用すると、線形回帰以外の何も得られません。しかし、ベースラーナーを決定の切り株として選択すると、非常に興味深いモデルが得られます。これは、2つの特徴と1つの連続的な応答を使用した回帰での決定切り株ブースティングの1つの例です。

19 machine-learning cart linear boosting

5

中心極限定理と大数の法則が一致しない場合

これは基本的に、私がmath.seで見つけた質問の複製であり、期待した答えが得られませんでした。ましょう独立し、同一分布確率変数のシーケンスである、と及び。{Xi}i∈N{Xi}i∈N\{ X_i \}_{i \in \mathbb{N}}E[Xi]=1E[Xi]=1\mathbb{E}[X_i] = 1V[Xi]=1V[Xi]=1\mathbb{V}[X_i] = 1 の評価を検討する limn→∞P(1n−−√∑i=1nXi≤n−−√)limn→∞P(1n∑i=1nXi≤n) \lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^n X_i \leq \sqrt{n}\right) この式は、不等式イベントの両側が無限になりがちなので、操作する必要があります。 A）減算を試す制限ステートメントを検討する前に、両側から\ sqrt {n}を減算しn−−√n\sqrt{n}ます。 limn→∞P(1n−−√∑i=1nXi−n−−√≤n−−√−n−−√)=limn→∞P(1n−−√∑i=1n(Xi−1)≤0)=Φ(0)=12limn→∞P(1n∑i=1nXi−n≤n−n)=limn→∞P(1n∑i=1n(Xi−1)≤0)=Φ(0)=12\lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^n X_i -\sqrt{n} \leq \sqrt{n}-\sqrt{n} \right) = \lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^n (X_i - 1) \leq 0\right) \\ = \Phi(0) = …

19 probability mathematical-statistics asymptotics