統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
GradientDescentOptimizerとAdamOptimizer(TensorFlow)の違いは?
XOR-GateをモデリングしているTensorFlowで簡単なMLPを作成しました。 だから: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] 次のものが生成されます。 output_data = [[0.], [1.], [1.], [0.]] このネットワークには、入力層、隠れ層、出力層があり、それぞれ2、5、1個のニューロンがあります。 現在、私は次のクロスエントロピーを持っています: cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) 私はこの簡単な代替手段も試しました: cross_entropy = tf.square(n_output - output) 他のいくつかの試みと一緒に。 ただし、私の設定が何であっても、のエラーはのエラーよりもはるかに遅くGradientDescentOptimizer減少していましたAdamOptimizer。 実際tf.train.AdamOptimizer(0.01)、どのクロスエントロピー計算または学習率が使用されたとして0.01も、tf.train.GradientDescentOptimizer常に2000を超える学習ステップが必要でしたが、(最高の結果が得られた学習率に応じて)400から800の学習ステップ後に本当に良い結果が得られました。 これはなぜですか?そうですAdamOptimizer、常により良い選択です!

1
グラフのy軸をゼロから開始するかどうかを決定する方法は?
「データに横たわる」1つの一般的な方法は、y軸のスケールを使用して、実際よりも重要な変更のように見せることです。 科学出版物や学生の研究室レポートを確認するとき、私はしばしばこの「データの可視化の罪」にイライラします(著者は意図せずコミットしますが、それでも誤解を招くプレゼンテーションになります)。 ただし、「y軸を常にゼロで開始する」ことは、難しいルールではありません。例えば、エドワード・タフトは指摘時系列的に、ベースラインが必ずしもゼロではないこと。 一般に、時系列では、ゼロ点ではなくデータを示すベースラインを使用します。データのプロットでゼロ点が合理的に発生する場合は、問題ありません。しかし、データライン自体で何が起こっているかを隠すことを犠牲にして、ゼロ点に到達しようとして多くの空の垂直スペースを費やさないでください。(この点については、本「統計と嘘をつく方法」は間違っています。) 例として、時系列にゼロ点が存在しない場合、あらゆる主要な科学研究出版物をご覧ください。科学者たちは、ゼロではなく自分のデータを表示したいと考えています。 データをコンテキスト化する衝動は良いものですが、コンテキストは空の垂直スペースがゼロに達することはありません。ゼロは、多くのデータセットでは発生しません。代わりに、コンテキストのために、より多くのデータを水平に表示してください! 私がレビューする論文で誤解を招くプレゼンテーションを指摘したいのですが、ゼロ軸の純粋主義者にはなりたくありません。 y軸をゼロから開始するタイミング、およびこれが不要または不適切な場合に対処するガイドラインはありますか?(特に学術研究の文脈で。)

6
機械学習(深層学習)の主な定理は何ですか?
Al Rahimiは最近、NIPS 2017で現在の機械学習とAlchemyを比較する非常に挑発的な講演を行いました。彼の主張の1つは、基本的な結果を証明する簡単な定理を得るために、理論的な発展に戻る必要があるということです。 彼がそれを言ったとき、私はMLの主要な定理を探し始めましたが、主要な結果を理解する良い参照を見つけることができませんでした。だからここに私の質問があります:ML / DLの現在の主要な数学的定理(理論)とは何ですか?Vapnikの仕事はここのどこかに行くと思います。余分に、主な理論上の未解決の問題は何ですか?

2
サポートベクターマシン用の線形カーネルと非線形カーネル?
サポートベクターマシンを使用する場合、RBFのような線形カーネルと非線形カーネルの選択に関するガイドラインはありますか?特徴の数が多くなると、非線形カーネルはうまく機能しない傾向があると聞いたことがあります。この問題に関する参照はありますか?

10
傾向を適切にプロットする方法
さまざまな国の死亡率の傾向(1000人あたり)を示すグラフを作成していますが、このプロットから得られるストーリーは、1932年以降に傾向が増加しているのはドイツ(水色の線)だけです。私の最初の(基本的な)トライ 私の意見では、このグラフはすでに伝えたいことを示していますが、非常に直感的ではありません。トレンド間の区別を明確にするための提案はありますか?成長率をプロットすることを考えていましたが、試してみましたが、それほど良くはありません。 データは次のとおりです year de fr be nl den ch aut cz pl 1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3 1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4 1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7 1930 10.4 15.6 12.8 9.1 10.8 11.6 …

3
重回帰モデルに相関する予測変数を持つことの効果は何ですか?
線形モデルクラスで、2つの予測変数が相関していて、両方がモデルに含まれている場合、1つは重要ではないことを学びました。たとえば、家のサイズと寝室の数が相関しているとします。これら2つの予測変数を使用して家のコストを予測する場合、どちらも同じ情報を大量に提供しているため、どちらか一方を削除できます。直感的には、これは理にかなっていますが、さらに技術的な質問があります。 モデルに予測子を1つだけ含めるか、両方の予測子を含める場合、この効果は回帰係数のp値にどのように現れますか? モデルに両方の予測変数を含めるか、1つの予測変数のみを含めると、回帰係数の分散にどのような影響がありますか? モデルがそれほど重要でないと判断する予測変数を知るにはどうすればよいですか? 予測子を1つだけ含めるか、両方の予測子を含めると、予測コストの値/分散がどのように変化しますか?

2
ロジスティック回帰の人工データをシミュレートする方法は?
私はロジスティック回帰の理解に何か不足していることを知っており、どんな助けも本当に感謝しています。 私が理解している限り、ロジスティック回帰は、入力が与えられた場合の「1」の結果の確率は、逆ロジスティック関数を通過した入力の線形結合であると仮定しています。これは、次のRコードに例示されています。 #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take as '1' if probability > 0.5 #now …

8
不規則な間隔の時系列をモデル化するためのゴールドスタンダードはありますか?
経済学の分野(私は思う)には、等間隔の時系列用のARIMAとGARCHと、ポイントプロセスのモデリング用のPoisson、Hawkesがあります。 ? (このトピックに関する知識がある場合は、対応するwiki記事も展開できます。) エディション(欠損値と不規則な間隔の時系列について): @Lucas Reisのコメントに答えてください。測定または実現変数間のギャップが(たとえば)ポアソンプロセスのために間隔が空いている場合、この種の正則化の余地はあまりありませんt(i)が、単純な手順が存在します:変数xのi番目の時間インデックス(実現X)、次いで、測定の時間の間のギャップを定義g(i)=t(i)-t(i-1)し、我々は、離散化、g(i)定数を使用しc、dg(i)=floor(g(i)/cそして元の時系列から古い観測値との間のブランク値の数と新しい時系列を作成iし、i+1()IをDGに等しいが、問題は、このことですプロシージャは、観測数よりはるかに多くの欠損データを含む時系列を容易に生成できるため、欠損観測値の合理的な推定は不可能であり、大きすぎる可能性があります。c「時間構造/時間依存など」を削除する 分析された問題の(極端なケースは、c>=max(floor(g(i)/c))不規則な間隔の時系列を規則的に間隔を空けて単純に崩壊させることにより与えられる Edition2(楽しみのためだけ):不規則な間隔の時系列の欠損値またはポイント処理の場合の画像アカウンティング。


5
Rをオンラインで使用する-インストールせずに[終了]
RをインストールせずにWebインターフェースでRを使用する可能性はありますか? 実行したい小さなスクリプトは1つしかありませんが、インストール手順を長くせずに試してみたいだけです。 ありがとうございました。
45 r 

15
少女対男児の出生率の予想数
クリティカル・シンキングのための就職面接適性テストで質問に出会いました。これは次のようなものです: Zorganian Republicには非常に奇妙な習慣があります。女性だけが家族の財産を相続できるため、カップルは女性の子供が欲しいだけです。したがって、男性の子供がいる場合は、女の子が生まれるまで子供を増やし続けます。女の子がいたら、子供を持つのをやめます。Zorganiaの女の子と男の子の比率はどのくらいですか? 私は質問作成者が与えたモデルの答えに同意しません。それは約1:1です。正当化は、出生が常に男性または女性である確率が50%であることでした。 が国内の少女の数であり、Bが少年の数である場合、より数学的な精力的な答えで納得してもらえますか?GE [ G ] :E [ B ]E[G]:E[B]\text{E}[G]:\text{E}[B]GGG

3
逸脱とは何ですか?(特にCART / rpartで)
「逸脱」とは何ですか、どのように計算され、統計のさまざまな分野でどのように使用されますか? 特に、CARTでの使用(およびRのrpartでの実装)に個人的に興味があります。 wikiの記事にはやや欠けているようで、あなたの洞察が最も歓迎されるので、私はこれを求めています。
45 r  cart  rpart  deviance 

1
確率的勾配降下のAdamメソッドはどのように機能しますか?
ニューラルネットワークをトレーニングするための基本的な勾配降下アルゴリズムに精通しています。Adam:ADAM:A METHOD for SCHOCASTIC OPTIMIZATIONを提案している論文を読みました。 (少なくとも)確かにいくつかの洞察を持っていますが、この論文は私にとって全体的に高すぎるようです。たとえば、コスト関数は多くの異なる関数の合計であることが多いため、その値を最適化するには膨大な量の計算が必要です。確率的勾配降下-トピックを理解している限り-これらの関数のサブセットについてのみ最適化を計算します。私には、Adamがこれをどのように行い、これにより全体のトレーニングエラーが減少する理由は不明です。J(θ)J(θ)J(\theta)J(θ)J(θ)J(\theta) Adamは以前の勾配を考慮して勾配を更新すると思います。彼らはそれを勢いを利用するようなものと呼んでいますか?この勢いは正確に何ですか?論文の2ページ目のアルゴリズムによると、「通常の」勾配の1次モーメントと2次モーメントの推定値のような、ある種の移動平均ですか? 実際には、Adamを使用すると、勾配を小さくするために大きな有効ステップサイズを使用できるため、確率的近似と組み合わせてトレーニングエラーが発生すると考えられます。したがって、結果として得られる更新ベクトルは、通常の勾配降下アルゴリズムのように曲線を記述するのではなく、空間次元でさらに「ジャンプ」する必要があります。 誰かがアダムの仕組みを分かりやすく説明できますか?特にそれがどのように収束するのか、特にアダムの方法が機能する理由と正確な利点は何ですか?


2
重回帰は共変量を実際に「制御」できますか?
私たちはすべて、考えられるすべての潜在的な交絡因子を重回帰モデルに含めることで、非ランダム化予測子Xと結果の間の因果リンクを確立しようとする観察研究に精通しています。このように、すべての交絡因子を「制御する」ことにより、関心のある予測子の効果を分離します。 主に私の統計学のクラスのさまざまな教授によって行われたオフハンドの発言に基づいて、私はこの考えにますます不快感を抱いています。それらはいくつかの主要なカテゴリーに分類されます。 1.考え、測定する共変量のみを制御できます。 これは明らかですが、実際に最も有害で乗り越えられないものなのでしょうか。 2.このアプローチは、過去にugい間違いを引き起こしました。 たとえば、Petitti&Freedman(2005)は、何十年にもわたって統計的に調整された観察研究が、心臓病のリスクに対するホルモン補充療法の効果に関する悲惨な誤った結論に至った経緯について議論しています。後のRCTでは、ほぼ逆の効果が見つかりました。 3.予測変数と結果の関係は、共変量を制御すると奇妙に動作する可能性があります。 Yu-Kang Tu、Gunnell、&Gilthorpe(2008) は、主のパラドックス、シンプソンのパラドックス、サプレッサー変数など、いくつかの異なる症状を議論しています。 4.単一モデル(重回帰)で共変量を適切に調整し、同時に予測結果の関係をモデル化することは困難です。 傾向スコアや交絡因子の層別化などの方法の優位性の理由としてこれを聞いたことがありますが、本当にそれを理解しているかはわかりません。 5. ANCOVAモデルでは、対象の共変量と予測子が独立している必要があります。 もちろん、対象の予測変数と相関しているため、交絡因子を正確に調整します。したがって、モデルは、必要なときに正確なインスタンスで失敗するようです。議論は、調整はランダム化試験でのノイズ低減にのみ適しているということです。Miller&Chapman、2001年は素晴らしいレビューを与えます。 だから私の質問は: これらの問題や私が知らないその他の問題はどれほど深刻ですか? 「すべてをコントロールする」研究を見たとき、私はどれほど恐れるべきでしょうか? (この質問が議論の領域にあまり深く入り込んでいないことを望み、それを改善するための提案を喜んで誘います。) 編集:新しい参照を見つけた後、ポイント5を追加しました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.