統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

7
初心者向けのニューラルネットワークリファレンス(教科書、オンラインコース)
ニューラルネットワークを学びたいです。私は計算言語学者です。統計的な機械学習のアプローチを知っており、Pythonでコーディングできます。 私はその概念から始め、計算言語学の観点から役に立つかもしれない1つまたは2つの人気のあるモデルを知っています。 参考のためにWebをブラウズし、いくつかの本や資料を見つけました。 リプリー、ブライアンD.(1996)パターン認識とニューラルネットワーク、ケンブリッジ Bishop、CM(1995)パターン認識のためのニューラルネットワーク、オックスフォード:オックスフォード大学出版局。 いくつかのリンクなど、この論文、これらのコースノート(トロント大学の心理学科)、これらのコースノート(ウィスコンシンコンピュータサイエンスの大学)と、このスライドショー(Facebookの研究)。 Courseraコースは、だれかが関連する何かを知っている場合、一般的に素晴らしいです。私は明快な言語と豊富な例のある資料を好みます。

13
機械学習はSHA256ハッシュをデコードできますか?
64文字のSHA256ハッシュがあります。 ハッシュの生成に使用される平文が1で始まるかどうかを予測できるモデルをトレーニングしたいと考えています。 これが「可能」かどうかに関係なく、どのアルゴリズムが最良のアプローチでしょうか? 私の最初の考え: 1で始まるハッシュの大きなサンプルと1で始まらないハッシュの大きなサンプルを生成します ハッシュの64文字のそれぞれを、ある種の教師なしロジスティック回帰モデルのパラメーターとして設定します。 モデルが正しいか間違っているかを伝えることでモデルを訓練します。 プレーンテキストが1で始まるかどうかを十分に高い精度で(および適切なカッパで)予測できるモデルを作成できることを願っています

3
CDFはPDFよりも基本的ですか?
私の統計学教授は基本的に、次の3つのうちの1つが与えられた場合、他の2つを見つけることができると言いました。 累積分布関数 モーメント生成機能 確率密度関数 しかし、私の計量経済学の教授は、CDFはPDFよりも基本的であると言いました。なぜなら、CDFを持つことはできてもPDFが定義されていない例があるからです。 CDFはPDFよりも基本的ですか?PDFまたはMGFがCDFから派生できるかどうかを知るにはどうすればよいですか?
43 probability  pdf  cdf  mgf 

5
サンプルサイズ1から母集団について何と言うことができますか?
母集団の平均値について、もしあるとすれば何と言えるのか、1つの測定値y 1(サンプルサイズ1)だけでとき、μを疑問に思います。明らかに、より多くの測定値が必要ですが、それらを取得することはできません。μμ\muy1y1y_1 これは、サンプルの平均のでように思わに自明等しいY 1、次いで、E [ ˉ Y ] = E [ Y 1 ] = μ。しかし、1のサンプルサイズで、サンプル分散が定義されていないため、使用中に私たちの自信ˉ Yの推定量としてμは、正しい、定義されていませんか?μの推定値を制限する方法はありますか?y¯y¯\bar{y}y1y1y_1E[ y¯] = E[ y1] = μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

3
ニューラルネットワークのSoftmax層
バックプロパゲーションでトレーニングされたニューラルネットワークにsoftmaxレイヤーを追加しようとしているので、その勾配を計算しようとしています。 出力はで、は出力ニューロン数です。hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj それを導き出せば ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) ロジスティック回帰に似ています。しかし、数値勾配チェックが失敗するため、これは間違っています。 何が間違っていますか?クロス導関数も計算する必要があると思っていました(つまり)が、これを実行して勾配の次元を維持する方法がわかりません同じように、逆伝播プロセスに適合します。∂hj∂zk∂hj∂zk\frac{\partial{h_j}}{\partial{z_k}}

2
ランダムフォレストの仮定
ランダムフォレストは初めてなので、基本的な概念にまだ苦労しています。 線形回帰では、独立した観測、一定の分散… ランダムフォレストを使用する場合の基本的な仮定/仮説は何ですか? モデルの仮定に関して、ランダムフォレストとナイーブベイの主な違いは何ですか?

5
「内因性」と「外因性」は実質的に何を意味するのでしょうか?
私は、内因性の基本的な定義は が満たされないということを理解して いますが、これは現実世界の意味で何を意味するのでしょうか?Wikipediaの記事を読んで、需要と供給の例を理解しようと試みましたが、実際には役に立ちませんでした。内因性と外因性がシステム内にあり、システム外にあるという別の説明を聞いたことがありますが、それはまだ意味がありません。バツ′ϵ = 0X′ϵ=0 X'\epsilon=0

6
時系列分類の機能
可変長時系列に基づく(マルチクラス)分類の問題、つまり、関数 、に依存しない固定サイズ の選択された特徴セットによるタイムセリエのグローバル表現、 そしてこの機能セットで標準の分類方法を使用します。 予測、つまり予測に興味がないF (X T)= Y ∈ [ 1 .. K ]TTTV I D T φ (X T)= V 1、... 、vのD ∈ R、xはT + 1f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, …

5
偽の一様乱数:真の一様データよりも均等に分布
私は、均一に分布しているように見える乱数を生成する方法を探しています-そして、すべてのテストはそれらが均一であることを示します- 真の均一データよりも均等に分布していることを除いて。 「真の」均一なランダムの問題は、それらが時々クラスター化することです。この効果は、サンプルサイズが小さいほど強くなります。大まかに言って、U [0; 1]で2つのUniformランダムを描画すると、確率が0.1の範囲内にある可能性は約10%、0.01の範囲内にある可能性は1%です。 だから私は均一な乱数よりも均等に分布している乱数を生成する良い方法を探しています。 ユースケースの例:私はコンピューターゲームをやっていて、地図にランダムに宝物を置きたい(他のことは気にしない)とします。宝物をすべて1か所に集めたくはありません。地図全体に宝物を置くべきです。一様なランダムでは、たとえば10個のオブジェクトを配置した場合、5個ほどが互いに非常に近いという可能性は低くありません。これにより、あるプレイヤーが別のプレイヤーよりも有利になる場合があります。掃海艇について考えてみてください(十分な機雷がある場合は低いとはいえ)、あなたは本当に幸運で、ワンクリックで勝つことができます。 私の問題に対する非常に素朴なアプローチは、データをグリッドに分割することです。数が十分に大きい(そして要因がある)限り、この方法で余分な均一性を強制できます。したがって、U [0; 1]から12個のランダム変数を描画する代わりに、U [0; .5]から6個、U [0.5; 1]から6個、またはU [0; 1/3] + 4から4個描画できます。 U [1/3; 2/3]から+ U [2/3;から4; 1]。 この余分な均一性をユニフォームに取り入れるより良い方法はありますか?おそらく、バッチランダムに対してのみ機能します(単一のランダムを描画するときは、明らかに範囲全体を考慮する必要があります)。特に、後でレコードをシャッフルすることができます(したがって、最初の3番目から4番目のレコードではありません)。 少しずつやってみてはいかがですか?それで、最初はU [0; 1]にあり、次に各半分から2つ、各3つから1つ、各4つから1つですか?これは調査されましたか?xとyに異なるジェネレーターを使用して、それらを相関させないように注意する必要があります(最初のxyは常に下半分、2番目は左半分と下3番目、3番目は中央3番目と上3番目です)。 ..だから、少なくともいくつかのランダムなビンの並べ替えも必要です。そして、長期的には、それはあまりにも均一になると思います。 サイドノードとして、分布が均一になりすぎて真に均一にならないかどうかをテストすることはよく知られていますか?そのため、「真の統一」と「誰かがデータをいじり、アイテムをより均等に分散させる」ことをテストします。正しく思い出せば、Hopkins Statisticはこれを測定できますが、テストにも使用できますか?またやや逆KS-テスト:最大偏差が特定の予想しきい値を下回っている場合、データは均等に分散されていますか?

5
OLS残差が正規分布していない場合の回帰
このサイトには、OLS残差が漸近的に正規分布しているかどうかを判断する方法を議論するいくつかのスレッドがあります。Rコードで残差の正規性を評価する別の方法はこのすばらしい答えで提供されます。これは、標準化された残差と観測された残差の実際の違いに関する別の議論です。 しかし、この例のように、残差は明らかに正規分布していないとしましょう。ここには数千の観測があり、明らかに正規分布の残差の仮定を拒否しなければなりません。問題に対処する1つの方法は、回答で説明されているように、何らかの形式の堅牢な推定量を使用することです。しかし、私はOLSに限定されず、実際、他のglmまたは非線形の方法論の利点を理解したいと思います。 残差の仮定のOLS正規性に違反するデータをモデル化する最も効率的な方法は何ですか?または、少なくとも健全な回帰分析方法論を開発するための最初のステップは何ですか?

4
2つの時系列を統計的に比較する方法は?
次のプロットに示す2つの時系列があります。 プロットは両方の時系列の完全な詳細を示していますが、必要に応じて、同時観測に簡単に縮小できます。 私の質問は、時系列の違いを評価するためにどのような統計的方法を使用できますか? これはかなり広範で曖昧な質問であることは知っていますが、これに関する入門的な資料はどこにも見当たらないようです。私が見ることができるように、評価する2つの明確なものがあります: 1.値は同じですか? 2.トレンドは同じですか? これらの質問を評価するために、どのような統計テストを検討することをお勧めしますか?質問1については、明らかに異なるデータセットの平均を評価し、分布の重要な違いを探すことができますが、データの時系列の性質を考慮してこれを行う方法はありますか? 質問2-2つの傾向の類似性を調べるMann-Kendallテストのようなものはありますか?両方のデータセットに対してMann-Kendallテストを実行して比較することはできますが、それが物事を行うための有効な方法であるかどうか、またはより良い方法があるかどうかはわかりませんか? 私はこれをすべてRで行っているので、あなたが提案するテストがRパッケージを持っているなら、私に知らせてください。
43 r  time-series 

4
交差検証手法の概要
クロスバリデーション技術の大要を知っている人がいるかどうか、そしてそれらの違いの議論と、それらのそれぞれをいつ使用するかのガイドについて疑問に思っています。ウィキペディアには最も一般的な手法のリストがありますが、他の手法があり、それらに分類法があるかどうかは知りません。 たとえば、次の戦略のいずれかを選択できるライブラリに遭遇しました。 差し出す ブートストラップ K交差検定 除外します 階層化クロス検証 バランスのとれた層別相互検証 層別ホールドアウト 階層化されたブートストラップ そして、ブートストラップ、ホールドアウト、またはCVにおける層別化とバランスの意味を理解しようとしています。 人々が望むなら、この投稿をコミュニティwikiに変えて、ここでテクニックや分類の議論を集めることもできます。

9
クラスで例を与えるための小さな(実際の)データセット?
入門レベルのクラスを教えるとき、私が知っている教師は、彼らが教えている方法を例示するために、いくつかの数字と物語を発明する傾向があります。 私が好むのは、実数で実話を語ることです。ただし、これらのストーリーは、手動計算を可能にする非常に小さなデータセットに関連付ける必要があります。 このようなデータセットに関する提案は大歓迎です。 小さなデータセットのサンプルトピック: 相関/回帰(基本) ANOVA(1/2の方法) z / tテスト-1対2の非ペアのサンプル 比率の比較-ツーウェイ/マルチウェイテーブル

3
論文の統計を確認する
一部の人にとっては、論文の審査は仕事の一部です。統計方法論の論文を審議するとき、私は他の主題分野、すなわちコンピューターサイエンスと数学からのアドバイスがかなり役立つと思います。 この質問は、より多くの応用統計論文のレビューに関するものです。つまり、この論文は非統計的/数学的なジャーナルに投稿され、統計は「方法」セクションで言及されているだけです。 特定の質問: アプリケーション領域を理解するためにどれだけの労力を費やす必要がありますか? レポートにどれくらいの時間を費やすべきですか? フィギュア/テーブルを見るとき、あなたはどれほどうるさいですか。 利用できないデータにどう対処しますか。 使用した分析を再試行してみてください。 1年間にレビューする論文の最大数はいくつですか? 質問がありませんか?コメントを編集または追加してください。 編集 私は生物学論文をレビューする統計学者としてこの質問に来ていますが、数学以外の分野の統計レビューに興味があります。 これがCWかどうかはわかりません。一方では少し開いていますが、もう一方では自分が答えを受け入れているのを見ることができます。また、回答はおそらくかなり長くなります。
43 journals  referee 

4
相違点とは何ですか?
違いの違いは、特に経済学において、非実験的なツールとして長い間人気がありました。誰かが違いの違いに関する以下の質問に明確で非技術的な答えを提供してください。 差分の推定量とは何ですか? 差異の差の推定量が使用されるのはなぜですか? 実際に差の推定値を信頼できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.