統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
ロジスティック回帰のサンプリングは、1と0の実際の比率を反映すべきですか?
樹木の特性(feの高さ)に基づいて、樹木に生息するいくつかの動物種の発生確率を推定できるロジスティック回帰モデルを作成するとします。いつものように、私の時間とお金は限られているため、限られたサンプルサイズのみを収集することができます。 次の質問があります: サンプルの1と0の比率は、1と0の真の比率を反映すべきですか?(少なくともおよそ)バランスのとれたサンプル(1と0の等しい数)でロジスティック回帰モデルを実行するのが一般的な方法であることに気付きました-しかし、そのようなモデルはシュールに高い発生確率を与えます-そうですか? ** 1と0の真の比率を反映しないモデルが「間違っている」という概念をサポートするために使用できる記事/教科書はありますか?** 最後に、1:1サンプリングを実行し、その後、今井らによるとタウでモデルを修正することは可能ですか?2007年? 今井浩介、ゲイリー・キング、オリビア・ラウ。2007.「relogit:Rare Events Logistic Regression for Dichotomous Dependent Variables」、今井幸介、Gary King、およびOlivia Lau、「Zelig:Everyone's Statistical Software」、http://gking.harvard.edu/zelig。 ドットは木を表します(赤=占有、灰色=占有なし)。占領されたすべての樹木を100%の精度(1)で識別できますが、森林内のすべての木を測定することはできません。モデルは、サンプリング戦略(比率)ごとに異なります。

10
構成データのベストターム?
私は例を書いて、いくつかのデータを作成しました。これが実際のデータではないことを読者に明確にしたいのですが、悪意のある印象を与えたくはありません。それは単なる例に過ぎないからです。 この特定のデータに(擬似)ランダムなコンポーネントはないため、「シミュレートされた」は適切ではないと思われます。架空または偽造と呼ぶと、それは不正なデータの印象を与えますか?「作り上げられた」という言葉は科学的な文脈に当てはまるでしょうか? シミュレートされていない構成データの統計文献の用語は何ですか?

4
最適化アルゴリズムが他の最適化問題に関して定義されているのはなぜですか?
機械学習の最適化手法に関するいくつかの研究を行っていますが、他の最適化問題に関して多数の最適化アルゴリズムが定義されていることに驚いています。以下にいくつかの例を示します。 たとえば、https://arxiv.org/pdf/1511.05133v1.pdf すべてが素晴らしくて良いように見えが、更新にはこのがあります。...を解決するアルゴリズムは何ですか?私たちは知りません、そしてそれは言いません。魔法のように、内積が最小になるように最小化ベクトルを見つけるという別の最適化問題を解決します。これはどのように行うことができますか?z k + 1 argminargminバツargminx\text{argmin}_xzk + 1zk+1z^{k+1}argminargmin\text{argmin} 別の例をご覧ください:https : //arxiv.org/pdf/1609.05713v1.pdf アルゴリズムの途中でその近位の演算子をヒットするまで、すべてが素晴らしくて見栄えがよく、その演算子の定義は何ですか? ブーム: さて、近位オペレーターでこのをどのように解決したらよいでしょうか。それは言いません。いずれにせよ、その最適化問題はが何であるかに応じて困難に見えます(NP HARD)。 fargminバツargminx\text{argmin}_xfff 誰かが私に啓発してください: なぜ他の最適化問題に関して非常に多くの最適化アルゴリズムが定義されているのですか? (これはある種の鶏と卵の問題ではありません。問題1を解決するには、問題3を解決する方法を使用して問題2を解決する必要があります。 これらのアルゴリズムに組み込まれているこれらの最適化問題をどのように解決しますか?たとえば、、右側のを見つける方法は?バツk + 1= argminバツ本当に複雑な損失関数xk+1=argminxreally complicated loss functionx^{k+1} = \text{argmin}_x \text{really complicated loss function} 最終的に、これらのアルゴリズムを数値的に実装する方法について私は困惑しています。ベクトルの追加と乗算はPythonでは簡単な操作であると認識していが、については、関数の最小化を魔法のように与える関数(スクリプト)はありますか?argminバツargminx\text{argmin}_x (報奨金:著者が高レベル最適化アルゴリズムに埋め込まれた副問題のアルゴリズムを明確にしている論文を参照できますか?)

2
John Snow Choleraの問題を解決するために使用できる統計モデルまたはアルゴリズムは何ですか?
John Snow Choleraのアウトブレイクのデータに基づいて、ある種の震源地の地理的近似を作成する方法を学ぶことに興味があります。井戸の位置を事前に知らなくても、このような問題を解決するためにどの統計モデリングを使用できますか。 一般的な問題として、時間、既知のポイントの位置、およびオブザーバーの歩行経路を利用できます。私が探している方法は、これら3つのことを使用して「発生」の震源地を推定します。

1
ネイト・シルバーが黄土について言ったことの説明
私が最近尋ねた質問で、私はそれが黄土で外挿するのは大きな「ノー」だと言われました。しかし、Nate SilverのFiveThirtyEight.comに関する最新の記事では、選挙の予測に黄土を使用することについて議論しました。 彼はレスで積極的な予測と保守的な予測の詳細を議論していましたが、私はレスで将来の予測を行うことの妥当性について興味がありますか? また、私はこの議論と、黄土と同様の利点があるかもしれない他の選択肢があることに興味があります。

3
視覚化のための次元削減は、t-SNEによって解決される「閉じた」問題と見なされるべきですか?
私は次元削減のための -snetttアルゴリズムについてたくさん読んでいます。MNISTのように数字の明確な分離を実現する「クラシック」データセットのパフォーマンスには非常に感銘を受けました(元の記事を参照)。 また、トレーニング中のニューラルネットワークによって学習された機能を視覚化するためにも使用し、結果に非常に満足しています。 だから、私が理解しているように: tttO (n ログn )O(nログ⁡n)O(n \log n) これはかなり大胆な発言であることは承知しています。この方法の潜在的な「落とし穴」を理解することに興味があります。つまり、有用ではないことがわかっているケースはありますか?さらに、この分野の「未解決の」問題は何ですか?

1
依存観測のPCAのプロパティ
通常、ケースがiidであると想定されるデータの次元削減手法としてPCAを使用します 質問:依存する非iidデータにPCAを適用する際の典型的なニュアンスは何ですか?iidデータを保持するPCAの優れた/有用なプロパティは、侵害された(または完全に失われた)ものですか? たとえば、データは多変量時系列である場合があり、その場合、自己相関または自己回帰条件付き不均一分散(ARCH)が予想されます。 時系列データにPCAを適用する上でいくつかの関連の質問は、前に依頼されている例えば1、2、3、4、私は(個々のポイントに多くの拡大を必要とせずに)、より一般的かつ総合的な答えを探しています。 編集: @ttnphnsが指摘したように、PCA 自体は推論分析ではありません。ただし、PCAの一般化パフォーマンス、つまり、サンプルPCAの母集団の対応に注目することができます。例えば、Nadler(2008)に書かれているとおり: 与えられたデータが(一般的に未知の)分布からの有限でランダムなサンプルであると仮定すると、興味深い理論的および実用的な問題は、有限データから計算されたサンプルPCA結果と基礎となる母集団モデルの結果の間の関係です。 参照: ナズラー、ボアズ。「主成分分析の有限サンプル近似結果:行列摂動アプローチ。」 統計学年報(2008):2791-2817。

1
TensorBoardでTensorFlowによって与えられたヒストグラムをどのように解釈しますか?
私は最近、テンソルフローを実行して学習しており、解釈方法がわからないヒストグラムをいくつか取得しました。通常、バーの高さは頻度(または相対頻度/カウント)と考えます。しかし、通常のヒストグラムのようにバーが存在しないという事実と、陰影が付いているという事実は、私を混乱させます。また、一度に多くの行/高さがありますか? 誰かが次のグラフを解釈する方法を知っていますか(そしておそらくテンソルフローでヒストグラムを読むのに役立つ一般的なアドバイスを提供します): 元の変数がベクトルまたは行列またはテンソルである場合、実際にテンソルフローは各座標のヒストグラムのように表示されますか?また、この情報を取得して人々を自立させる方法を参照することは、ドキュメントで有用なものを見つけるのが困難であるため、今は素晴らしいでしょう。たぶん、いくつかのチュートリアルの例など?それらを操作する上でのアドバイスもいいかもしれません。 参考として、これを与えたコードの抜粋を以下に示します。 (X_train, Y_train, X_cv, Y_cv, X_test, Y_test) = data_lib.get_data_from_file(file_name='./f_1d_cos_no_noise_data.npz') (N_train,D) = X_train.shape D1 = 24 (N_test,D_out) = Y_test.shape W1 = tf.Variable( tf.truncated_normal([D,D1], mean=0.0, stddev=std), name='W1') # (D x D1) S1 = tf.Variable( tf.constant(100.0, shape=[]), name='S1') # (1 x 1) C1 = tf.Variable( tf.truncated_normal([D1,1], mean=0.0, stddev=0.1), name='C1' ) …

4
モンティ・ホールの問題と誤りのあるモンティ
モンティは、ドアの後ろにヤギがいた(または空だった)かどうかについて完全な知識がありました。この事実により、プレイヤーは「推測」を他のドアに切り替えることで、時間の経過とともに成功率を倍にすることができます。モンティの知識が完全ではなかった場合はどうなりますか?時々、賞品がヤギと同じ出入り口で本当にあったとしたらどうでしょう?しかし、あなたがあなたのドアを選んで開けるまで、あなたはそれを見ることができなかったのですか?モンティの正解率が100%未満の場合、IFの計算方法を理解するのを助けてくれますか?たとえば、Montyが間違っている場合、平均50%の確率でどうなりますか?プレイヤーは、彼の推測/ドアを切り替えることでさらに利益を得られますか?モンティが正しい確率が33.3%未満で、賞品がドアの後ろにない場合、プレイヤーの最善の選択肢はドアの選択を切り替えないことだと思います。賞品がドアの後ろにないことについて正しいモンティの確率を挿入することにより、切り替えの潜在的な利点を計算する方法を教えてください。私は高校の数学以外に何も持っておらず、69歳ですので、優しくしてください。 洞察と式が提供されてくれてありがとう。「Fallible Monty」が賞/車の不在を予測するのに66%の精度である場合、ドアの最初の選択から切り替えることにはゼロの利点があるようです。...33%のエラー率がデフォルトであるため賞品の基本料金は、あらゆるドアの後ろにあります。ただし、Montyが賞品のない場所を予測することで66%を上回った場合、スイッチングはより大きなユーティリティを導き出します。「専門家」が「専門家の予測」を行うゲームにこの推論を適用しようとしています。3つのおおよそ同じ確率のオプションのうちの1つが正しいものになるでしょう。私はエキスパートが正しいことをほとんど信じておらず、彼の「ヒット率」が33%未満-15%に近いと確信しています。これからの私の結論は、「私と同じオプション、私はおそらく間違いであり、他の2つのいずれかに変更する必要があります!;-)

1
ケラス、SGD学習率の減衰はどのように機能しますか?
ドキュメントhttp://keras.io/optimizers/を見ると、SGDに減衰用のパラメーターがあります。私はこれが時間の経過とともに学習率を低下させることを知っています。しかし、私はそれが正確に機能する方法を理解することはできません。lr = lr * (1 - decay) それは指数関数的であるような学習率を掛けた値ですか?また、モデルが使用している学習率をどのように確認できますか?model.optimizer.lr.get_value()いくつかのエポックにわたってフィットを実行した後に印刷すると、減衰を設定しても、元の学習率が返されます。 また、運動量を使用するためにnesterov = Trueを設定する必要がありますか、または使用できる運動量の種類が2つだけありますか。たとえば、これを行うポイントがありますsgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

2
固定効果をランダムな効果にネストするのは理にかなっていますか、それともR(aovとlmer)で反復測定をコーディングするのは意味がありますか?
私は@conjugatepriorによるlm / lmer R公式のこの概要を見ていて、次のエントリで混乱しました: ここで、Aはランダムですが、Bは固定され、BはA内にネストされていると仮定します。 aov(Y ~ B + Error(A/B), data=d) lmer(Y ~ B + (1 | A:B), data=d) 同じケースについて、以下の類似した混合モデル式が提供されています。 意味がよくわかりません。被験者をいくつかのグループに分割する実験では、固定因子(グループ)内にランダム因子(被験者)をネストします。しかし、固定因子をランダム因子内にどのようにネストできますか?ランダムなサブジェクト内にネストされた固定された何か?それも可能ですか?それが不可能な場合、これらのR式は意味をなしますか? この概要は、R での反復測定に関するこのチュートリアルに基づいて、RでANOVAを実行するパーソナリティプロジェクトのページに部分的に基づいていると述べられています。そこで、反復測定ANOVAの次の例を示します。 aov(Recall ~ Valence + Error(Subject/Valence), data.ex3) ここでは、被験者にさまざまな価数の単語(3つのレベルを持つ因子)が提示され、その想起時間が測定されます。各主題には、3つのすべての価数レベルの単語が表示されます。私は(それがあたりとして、交差表示されます。この設計で入れ子に何も表示されません。ここでは素晴らしい答え)、と私は単純にそれを思うだろうように、Error(Subject)または(1 | Subject)このような場合には適切なランダムな用語でなければなりません。Subject/Valence「ネスティングは」(?)混乱しています。 私はそれValenceが被験者内要因であることを理解していることに注意してください。しかし、それは被験者内の「ネストされた」要因ではないと思います(すべての被験者がの3つのレベルすべてを経験するためValence)。 更新。Rの反復測定ANOVAのコーディングに関するCVに関する質問を調査しています。 ここで、以下は固定被験者内/反復測定Aおよびランダムに使用されますsubject。 summary(aov(Y ~ A + Error(subject/A), data = d)) anova(lme(Y ~ A, random = ~1|subject, data …


3
情報理論のないカルバック・ライブラーの発散
Cross Validatedを何度も探した後、私はまだ情報理論の領域外でKLの発散を理解することに近づいているとは感じていません。数学のバックグラウンドを持つ人が情報理論の説明をはるかに理解しやすいと感じるのは、かなり奇妙です。 情報理論の背景から私の理解を概説するために:有限数の結果を持つランダム変数がある場合、平均して最短のメッセージで他の誰かと結果を伝えることができる最適なエンコーディングが存在しますビット単位の画像)。結果を伝えるために必要なメッセージの予想される長さは、最適なエンコーディングが使用されている場合、で与えられます。最適以下のエンコーディングを使用する場合、KLダイバージェンスは、平均してメッセージの長さを示します。−∑αpαlog2(pα)−∑αpαlog2⁡(pα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) この説明は、KL発散の非対称性を非常に直感的に扱っているため、気に入っています。2つの異なるシステム、つまり異なる方法でロードされた2つのロードされたコインがある場合、それらは異なる最適なエンコーディングを持ちます。2番目のシステムのエンコーディングを1番目のシステムに使用することは、1番目のシステムのエンコーディングを2番目に使用することと「同等に悪い」とは思わず感じます。どうやって自分を納得させるかという思考プロセスを経ることなく、私はは、のエンコーディングを使用するときに、この「余分なメッセージの長さ」を与えます。∑αpα(log2qα−log2pα)∑αpα(log2⁡qα−log2⁡pα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})qqqppp ただし、ウィキペディアを含むKL発散のほとんどの定義は、2つの離散確率がある場合、(ビットが離散であるため離散用語ではるかにうまく機能する情報理論の解釈と比較できるように、これを離散用語で保持します)分布の場合、KLは「それらの違い」のメトリックを提供します。これらの2つの概念がどのように関連しているのかについての説明はまだありません。私は彼の推論に関する本で覚えているようです、デイブ・マッケイはデータ圧縮と推論が基本的に同じことである点について指摘しており、私の質問はこれに本当に関連していると思います。 それがそうであるかそうでないかにかかわらず、私が念頭に置いているのは、推論の問題に関する質問です。(物事を個別に保つ)、2つの放射性サンプルがあり、そのうちの1つが既知の放射能を持つ特定の物質であることがわかっている場合(これは疑わしい物理学ですが、宇宙がそのように動作するふりをしましょう)、したがって、「真の」分布を知っています測定すべき放射性クリックの既知の持つポアソニアンである必要があります。両方のサンプルの経験的分布を構築し、それらのKL発散を既知の分布と比較し、低い方がその材料である可能性が高いと言いますか?λλ\lambda 疑わしい物理学から離れて、同じ分布から2つのサンプルが取り出されていることを知っているが、それらがランダムに選択されていないことがわかっている場合、KLの発散を既知のグローバル分布と比較すると、サンプルがどのようにバイアスされているかの感覚が得られますとにかく他と比較して? 最後に、前の質問に対する答えが「はい」の場合、なぜですか?これらのことを、情報理論への(おそらくは希薄な)つながりを作らずに、統計的な観点だけから理解することは可能ですか?

2
最終(生産準備完了)モデルは、完全なデータでトレーニングするのか、それともトレーニングセットでトレーニングするのか?
トレーニングセットで複数のモデルをトレーニングし、クロス検証セットを使用して最適なモデルを選択し、テストセットでパフォーマンスを測定したと仮定します。だから今、私は1つの最終的な最高のモデルを持っています。使用可能なすべてのデータで再トレーニングするか、トレーニングセットのみでトレーニングしたソリューションを出荷する必要がありますか?後者の場合、なぜですか? 更新:@ P.Windridgeが指摘したように、再訓練されたモデルを出荷することは、基本的に検証なしでモデルを出荷することを意味します。しかし、テストセットのパフォーマンスを報告することができます。その後、最適なモデルとより多くのデータを使用するため、パフォーマンスが向上することを期待して、完全なデータでモデルを再トレーニングできます。そのような方法論からどのような問題が発生する可能性がありますか?

3
このディストリビューションには名前がありますか?
今日は私に起こったその配布 のために、ガウスとラプラス分布との間の妥協点として見ることができるX∈R、P∈[1、2]およびβ>0このような分布は、名前を持っていますか?また、正規化定数の式はありますか?私ものために解決を開始する方法がわからないので計算は、私を切り株C不可欠で 1=C⋅∫ ∞ - ∞のexp(-|X-μ | Pf(x)∝exp(−|x−μ|pβ)f(x)∝exp⁡(−|x−μ|pβ) f(x)\propto\exp\left(-\frac{|x-\mu|^p}{\beta}\right) x∈R,p∈[1,2]x∈R,p∈[1,2]x\in\mathbb{R}, p\in[1,2]β>0.β>0.\beta>0.CCC1=C⋅∫∞−∞exp(−|x−μ|pβ)dx1=C⋅∫−∞∞exp⁡(−|x−μ|pβ)dx 1=C\cdot \int_{-\infty}^\infty \exp\left(-\frac{|x-\mu|^p}{\beta}\right) dx

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.