統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
統計的学習におけるiid仮定の重要性について
統計的学習では、暗黙的または明示的に、トレーニングセットD = { X、y }は、同じ結合分布P(X、X、)から独立して描画されるN個の入力/応答タプル(X i、y i)で構成されると常に仮定しますy )とD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) およびp(y|X)p(y|X)p( y \vert {\bf{X}})特定の学習アルゴリズムを介して取得しようとしている関係。数学的には、このiidの仮定は次のように記述します。 (Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j …


4
相関のある乱数を生成する方法(与えられた平均、分散、相関度)
これが少し基本的すぎるように思える場合は申し訳ありませんが、ここで理解を確認しようとしているだけだと思います。2つのステップでこれを行う必要があるという感覚が得られ、相関行列を理解しようとし始めましたが、実際には複雑に見え始めています。相関乱数を生成するための、理想的で迅速な優れた方法の簡潔な説明を(理想的には擬似コードソリューションへのヒントとともに)探しています。 既知の平均と分散を持つ2つの疑似ランダム変数の高さと重み、および特定の相関関係を考えると、この2番目のステップがどのように見えるかを基本的に理解しようとしていると思います。 height = gaussianPdf(height.mean, height.variance) weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), correlated_variance(height.variance, correlation_coefficient)) 相関平均と分散を計算するにはどうすればよいですか?しかし、ここで本当に関連する問題であることを確認したいと思います。 マトリックス操作に頼る必要がありますか?それとも、この問題に対する基本的なアプローチに何か他の非常に間違ったものがありますか?

3
Rのパッケージとして利用可能なデータAPI /フィード
編集:Web Technologies and Services CRAN タスクビューには、Rで利用可能なデータソースとAPIのより包括的なリストが含まれています。タスクビューにパッケージを追加する場合は、githubでプルリクエストを送信できます。 すでにRにフックされているか、セットアップが簡単なさまざまなデータフィードのリストを作成しています。これが私のパッケージの最初のリストです。他に何が欠けているのだろうと思っていました。 このリストを「リアルタイム」または「リアルタイムに近い」データフィード/ APIに制限しようとしています。この場合、基になるデータはダウンロードごとに変わる可能性があります。静的データセットのリストはたくさんあり、ダウンロードは1回だけで済みます。 現在、このリストは財務/時系列データに偏っているので、他のドメインに拡張するためにいくつかの助けを借りることができます。 無料データ: データソース-パッケージ グーグル・ファイナンス過去のデータ - quantmod Googleの財政のバランスシート - quantmod ヤフー・ファイナンスの過去データ - quantmod ヤフー・ファイナンスの過去データ- tseries ヤフー・ファイナンス現在のオプションのチェーン - quantmod ヤフー・ファイナンスの歴史的アナリストの見積もり - fImport ヤフー・ファイナンス、現在の主要な統計情報 - fImport -壊れているようです OANDAの歴史的な為替レート/金属価格 quantmod - FRED歴史的なマクロ経済指標 - quantmod 世界銀行歴史的なマクロ経済指標 - WDI Googleトレンド歴史的な検索ボリュームデータ - RGoogleTrends Googleドキュメント- RGoogleDocs Googleのストレージ- RGoogleStorage のTwitter …
53 r  references  dataset 

6
効率的なオンライン線形回帰
私は通常の線形回帰を実行したいいくつかのデータを分析していますが、入力データの連続ストリーム(メモリにはすぐに大きくなります)と必要なオンライン設定を扱っているため、これは不可能ですこれが消費されている間にパラメータ推定値を更新します。つまり、すべてをメモリにロードして、データセット全体に対して線形回帰を実行することはできません。 私は単純な線形多変量回帰モデル、すなわち、 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 線形回帰パラメータおよびbの継続的に更新される推定値を作成するための最適なアルゴリズムは何ですか?AA\mathbf Abb\mathbf b 理想的には: 私が最もあるアルゴリズムたい更新当たりの空間と時間の複雑さ、Nは、独立変数の次元である(X)とMは従属変数(の次元であるY)。O(N⋅ M)O(N⋅M)\mathcal O(N\cdot M)NNNバツx\mathbf xMMMyy\mathbf y 新しいサンプルごとにパラメーターが更新される量を決定するパラメーターを指定できるようにしたいと思います。たとえば、0.000001は、次のサンプルがパラメーター推定の100万分の1を提供することを意味します。これは、遠い過去のサンプルの効果に対してある種の指数関数的な減衰を与えます。

10
Pythonを使用した機械学習
機械学習の実験にPythonライブラリを使用することを検討しています。これまで、私はWEKAに頼っていましたが、全体的にはかなり不満でした。これは主に、WEKAがあまりサポートされていないことを発見し(ごく少数の例、ドキュメントがまばらで、コミュニティのサポートが私の経験では望ましいものではない)、助けが得られずにスティッキーな状況にいることに気付いたからです。私がこの動きを検討しているもう1つの理由は、私はPythonが本当に好きで(Pythonが初めて)、Javaのコーディングに戻りたくないからです。 だから私の質問は、何がもっと 包括的 スケーラブル(10万の機能、1万の例)および PythonでMLを実行するためのライブラリをサポートしていますか? テキスト分類を行うことに特に興味があるので、分類子、特徴選択方法(情報ゲイン、カイ二乗など)の優れたコレクション、およびテキスト前処理機能(ステミング、ストップワード削除)を備えたライブラリを使用したいと思います。 、tf-idfなど)。 ここや他の場所での過去の電子メールスレッドに基づいて、これまでPyML、scikits-learn、Orangeを見てきました。私が言及した上記の3つの指標に関して、人々の経験はどうでしたか? 他の提案はありますか?

5
治療前後のコントロール設計を分析する際のベストプラクティス
次の一般的な設計を想像してください。 100人の参加者が治療グループまたは対照グループにランダムに割り当てられます 従属変数は数値であり、治療の前後に測定されます このようなデータを分析するための3つの明白なオプションは次のとおりです。 混合ANOVAの時間交互作用効果によるグループのテスト IVとして条件、共変量として事前測定値、DVとして事後測定値を使用してANCOVAを実行します。 IVとして条件、DVとして変更前後のスコアでt検定を実行します 質問: そのようなデータを分析する最良の方法は何ですか? あるアプローチを別のアプローチよりも好む理由はありますか?

9
2Dバイナリマトリックスのエントロピー/情報/パターンの測定
2次元バイナリマトリックスのエントロピー/情報密度/パターンらしさを測定したい。説明のためにいくつかの写真を見せてください: このディスプレイには、かなり高いエントロピーが必要です。 A) これには中程度のエントロピーが必要です: B) 最後に、これらの写真はすべてエントロピーがゼロに近いはずです。 C) D) E) エントロピー、それぞれをキャプチャするインデックスがあります。これらのディスプレイの「パターンらしさ」? もちろん、各アルゴリズム(たとえば、圧縮アルゴリズム、またはttnphnsによって提案された回転アルゴリズム)は、ディスプレイの他の機能に敏感です。次のプロパティをキャプチャしようとするアルゴリズムを探しています: 回転対称および軸対称 クラスタリングの量 繰り返し より複雑かもしれませんが、アルゴリズムは心理的な「ゲシュタルト原理」の特性に敏感である可能性があります。特に、 近接の法則: 対称性の法則:対称的な画像は、距離があっても集合的に知覚されます: これらのプロパティを持つディスプレイには、「低エントロピー値」が割り当てられます。かなりランダム/非構造化されたポイントを持つディスプレイには、「高いエントロピー値」が割り当てられます。 ほとんどの場合、単一のアルゴリズムでこれらの機能をすべてキャプチャすることはありません。したがって、一部の機能または単一の機能のみに対処するアルゴリズムの提案も大歓迎です。 具体的には、具体的な既存のアルゴリズム、または具体的な実装可能なアイデアを探しています(これらの基準に従って賞金を授与します)。

30
最も有名な統計学者
最も重要な統計学者とは何ですか、そしてそれらを有名にしたのは何ですか? (回答ごとに1人の科学者に返信してください。)

5
時系列モデリングのための状態空間モデルとカルマンフィルターの欠点は何ですか?
状態空間モデルとKFのすべての優れた特性を考えると、状態空間モデリングとカルマンフィルター(またはEKF、UKF、粒子フィルター)を推定に使用することの欠点は何でしょうか?ARIMA、VAR、またはアドホック/ヒューリスティック手法などの従来の方法論について考えてみましょう。 調整するのは難しいですか?彼らは複雑で、モデルの構造の変化が予測にどのように影響するかを見るのは難しいですか? または、別の言い方をすれば、状態空間モデルに対する従来のARIMA、VARの利点は何ですか? 状態空間モデルの利点のみを考えることができます。 いくつかの静的モデルの構造的な破損、シフト、時変パラメーターを簡単に処理します。これらのパラメーターを状態空間モデルの動的状態にするだけで、モデルはパラメーターのシフトに合わせて自動的に調整されます。 欠損データを非常に自然に処理します。KFの移行ステップを実行し、更新ステップは実行しません。 状態空間モデル自体のオンザフライパラメーター(ノイズと遷移/観測行列の共分散)を変更できるため、現在の観測が他とは少し異なるソースからのものである場合は、実行せずに簡単に推定に組み込むことができます何か特別なこと; 上記のプロパティを使用すると、不規則な間隔のデータを簡単に処理できます。観測間の間隔に従って毎回モデルを変更するか、定期的な間隔を使用して観測のない間隔を欠損データとして扱います。 同じモデル内の異なるソースからのデータを同時に使用して、1つの基本量を推定できます。 いくつかの解釈不可能な動的コンポーネントからモデルを構築し、それらを推定することができます。 どのARIMAモデルも状態空間形式で表現できますが、単純な状態空間モデルのみがARIMA形式で正確に表現できます。

7
一般的な時系列の期間検出
この投稿は時系列の外れ値検出のための一般的な方法に関連する別の投稿の続きです。基本的に、この時点で、多くのノイズの影響を受ける一般的な時系列の周期性/季節性を発見するための堅牢な方法に興味があります。開発者の観点から、次のようなシンプルなインターフェースが欲しいです。 unsigned int discover_period(vector<double> v); vサンプルを含む配列はどこにあり、戻り値は信号の周期です。主なポイントは、やはり、分析された信号に関して仮定を立てることができないということです。信号の自己相関に基づいたアプローチ(コレログラムのピークの検出)を既に試しましたが、希望どおりに堅牢ではありません。

6
指数関数的減衰を伴うAdamオプティマイザー
ほとんどのTensorflowコードで、Adam Optimizerが一定の学習率1e-4(つまり0.0001)で使用されているのを見ました。通常、コードは次のようになります。 ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually intialize the variables sess.run(init_op) # now …

2
線形回帰モデルに「一定の分散」があるとはどういう意味ですか?
エラー項に「一定の分散」があるとはどういう意味ですか?ご覧のとおり、1つの従属変数と1つの独立変数を持つデータがあります。定数分散は、線形回帰の仮定の1つです。ホモ分散性が何を意味するのか疑問に思っています。500行あるとしても、明らかに一定の単一の分散値を持つことになります。どの変数で分散を比較する必要がありますか?

5
機械学習で不均衡なデータが本当に問題になるのはいつですか?
ロジスティック回帰、SVM、決定木、バギング、およびその他の類似の質問を使用する際に、不均衡なデータについて複数の質問がありました。これが非常に人気のあるトピックです。残念ながら、各質問はアルゴリズム固有であるようで、不均衡なデータを扱うための一般的なガイドラインは見つかりませんでした。 不均衡なデータを扱うMarc Claesenの回答の1つを引用 (...)学習方法に大きく依存します。ほとんどの汎用アプローチには、これに対処する1つ(または複数の)方法があります。 しかし、データの不均衡について正確に心配する必要があるのはいつですか?主に影響を受けるのはどのアルゴリズムで、どのアルゴリズムを処理できますか?データのバランスを取るためにどのアルゴリズムが必要ですか?このようなQ&Aサイトでは、各アルゴリズムについて議論することは不可能であることを認識しています。むしろ、いつ問題になるかについての一般的なガイドラインを探しています。

3
なぜ必要ないのに、線形回帰の正規分布誤差項(および同次分散性)にそれほど注意を払うのですか?
残差の非正規性および/または不均一分散性がOLSの仮定に違反していると誰かが言うのを聞くたびにイライラするでしょう。OLSモデルのパラメーターを推定するには、これらの仮定はどちらもガウスマルコフの定理では必要ありません。OLSモデルの仮説検定で、これがどのように重要であるかがわかります。これらのことから、t検定、F検定、およびより一般的なWald統計のきちんとした公式が得られるからです しかし、それらなしで仮説検定を行うことはそれほど難しくありません。等分散性だけを落とすと、ロバストな標準誤差とクラスター化された標準誤差を簡単に計算できます。正規性を完全に落とす場合は、ブートストラップを使用し、エラー項、尤度比、およびラグランジュ乗数検定の別のパラメーター仕様を指定できます。 多くの人がそもそも満たす必要のない仮定に苦しんでいるのを見るので、このように教えるのは残念です。 より堅牢な手法を簡単に適用できる能力があるのに、なぜこれらの仮定にそれほど重点を置いているのでしょうか?重要なものが欠けていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.