統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
比率と割合の線形モデルを構築していますか?
何らかの種類の比率またはパーセンテージを予測するモデルを構築するとします。たとえば、パーティーに参加する男の子と女の子の数を予測したいとします。モデルで使用できるパーティーの特徴は、パーティーの広告の量、会場のサイズ、パーティーのアルコールなどになります(これは単なる例であり、機能はあまり重要ではありません。) 私の質問は、比率とパーセンテージの予測の違いは何ですか?また、選択したモデルに応じてモデルはどのように変化しますか?一方が他方より優れていますか?他の機能はどちらよりも優れていますか?(比率と割合の具体的な数についてはあまり気にしません。どのパーティーが「男の子パーティー」と「女の子パーティー」のどちらである可能性が高いかを特定したいだけです。)たとえば、私は考え: パーセンテージ(たとえば、# boys / (# boys + # girls))を予測する場合、依存フィーチャは0と1の間に制限されているため、おそらく線形回帰ではなくロジスティック回帰のようなものを使用する必要があります。 比率を予測したい場合(たとえば、# boys / # girlsまたは# boys / (1 + # girls)ゼロ除算エラーを回避するため)、依存する特徴は正であるため、線形回帰を使用する前に何らかの種類の(ログ?)変換を適用する必要がありますか?(または、他のモデルですか?正の非カウントデータにはどのような回帰モデルが使用されていますか?) 一般的に、比率ではなくパーセンテージを予測する方がよいでしょうか?



4
生存分析:連続時間と離散時間
生存分析で時間を連続的または離散的に扱うかどうかを決定する方法について混乱しています。具体的には、サバイバル分析を使用して、男の子と女の子の生存率(5歳まで)に与える影響に最大の不一致がある子供レベルと家庭レベルの変数を特定したいと思います。子供の年齢(月単位)のデータセットと、子供が生きているかどうか、死亡年齢(月単位)、およびその他の子供および世帯レベルの変数のインジケータがあります。 時間は月単位で記録され、すべての子供が5歳未満であるため、多くの拘束生存期間があります(多くの場合、半年間隔で0か月、6か月、12か月など)。私がサバイバル分析について読んだものに基づいて、サバイバルタイムが多数あることは、時間を離散として扱うべきだと思うようになります。しかし、私は、生存期間が例えば人年である(そして確実に生存期間が同じである)他のいくつかの研究を読み、コックス比例ハザードのような連続時間法が使用されています。 時間を連続または離散として扱うかどうかを判断するために使用する必要がある基準は何ですか?私のデータと質問については、連続時間モデル(Cox、Weibullなど)を使用することは直観的に理にかなっていますが、データの離散的な性質と関連する生存時間の量は別の方法を示唆しているようです。
20 survival  ties 


7
ボックスプロットのいくつかの代替手段は何ですか?
ユーザーが選択したポリゴンの人口調査データを表示し、さまざまなパラメーターの分布をグラフィカルに表示したい(パラメーターごとに1つのグラフ)Webサイトの作成に取り組んでいます。 通常、データには次のプロパティがあります。 サンプルサイズは大きくなる傾向があります(約10,000個のデータポイントなど) 値の範囲は大きくなる傾向があります(たとえば、最小人口は100未満、最大人口は500,000のようになります) 通常、q1は最小値(200など)に近く、q2とq3は10,000以内です。 正規分布のようには見えません 私は統計学者ではないので、私の説明は正確には明確ではないかもしれません。 この分布をグラフで表示したいと思います。グラフは、市民(必要に応じて、素人)に表示されます。 ヒストグラムを使用することをお勧めしますが、値の範囲が広いため不可能です。そのため、ビンを作成するのは本当に簡単ではありません。 統計についてほとんど知らないことから、箱ひげ図はこの種のデータを表示するためによく使用されますが、素人にとっては箱ひげ図の解読は容易ではないと感じています。 このデータをわかりやすく表示するためのオプションは何ですか?

6
堅牢な(白)標準エラーを常に報告しますか?
AngristとPischkeは、Robust(すなわち、不均一分散または不均等な分散に対してロバスト)標準エラーは、テストではなく当然のこととして報告されていると示唆しています。2つの質問: 等分散性がある場合の標準エラーへの影響は何ですか? 誰かが実際に仕事でこれをしますか?

9
時系列のLjung-Boxテストで使用するラグの数は?
ARMAモデルが時系列に適合した後、Ljung-Box portmanteauテスト(他のテストの中でも)を介して残差を確認するのが一般的です。Ljung-Boxテストは、p値を返します。パラメータhがあり、これはテストするラグの数です。一部のテキストでは、h = 20の使用が推奨されています。他の人はh = ln(n)の使用を推奨します。ほとんどが何を言っていない時間を使用します。 hに単一の値を使用するのではなく、すべてのh <50 に対してLjung-Boxテストを行い、最小のp値を与えるhを選択するとします。そのアプローチは合理的ですか?長所と短所は何ですか?(明らかな欠点の1つは計算時間の増加ですが、ここでは問題ではありません。)これに関する文献はありますか? 少し詳しく説明します。...テストがすべてのhに対してp> 0.05を与える場合、明らかに時系列(残差)がテストに合格します。私の質問は、他の値ではなくhのいくつかの値に対してp <0.05の場合に検定を解釈する方法に関するものです。

2
最尤推定量-多変量ガウス
環境 多変量ガウス分布は機械学習で頻繁に使用され、次の結果は多くのMLブックおよび派生物なしのコースで使用されます。 次元行列の 形式のデータが与えられ、データが 平均()および共分散行列(変量ガウス分布に従うと仮定した場合)最尤推定量は次によって与えられます:XX\mathbf{X} m×pm×p m \times ppppμμ\mup×1p×1p \times 1 ΣΣ\Sigmap×pp×pp \times p μ^=1m∑mi=1x(i)=x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^=1m∑mi=1(x(i)−μ^)(x(i)−μ^)TΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T 多変量ガウスの知識は多くのMLコースの前提条件であることを理解していますが、多くの自己学習者が統計を跳ね回っていると感じているので、自己完結型の回答に完全に由来することが役立つと思います。 stackexchangeおよびmath.stackexchange Webサイトで回答を探しています。 質問 多変量ガウスの最尤推定量の完全な導出は何ですか 例: これらの線形判別分析の講義ノート(11ページ)、またはこれらのものは結果を利用すると、以前の知識を前提としています。 また、部分的に回答またはクローズされている投稿もいくつかあります。 多変量正規分布の最尤推定器 多変量正規分布の最尤推定を理解するのに助けが必要ですか?

3
XGBoost対Python Sklearn勾配ブーストツリー
XGBoostの仕組みを理解しようとしています。Python sklearnで勾配ブーストされたツリーがどのように機能するかは既に理解しています。私にとって明らかではないのは、XGBoostが同じように動作するが高速であるか、またはXGBoostとpython実装との間に根本的な違いがあるかどうかです。 この論文を読んだとき http://learningsys.org/papers/LearningSys_2015_paper_32.pdf XGboostから得られる最終結果はPython実装と同じですが、主な違いはXGboostが各回帰ツリーで最適な分割を見つける方法です。 基本的に、XGBoostは同じ結果をもたらしますが、高速です。 これは正しいですか、それとも私が見逃している何かがありますか?

5
ディープラーニング:どの変数が重要であるかを知るにはどうすればよいですか?
ニューラルネットワークの用語(y =重み* x +バイアス)の観点から、どの変数が他の変数よりも重要であるかをどのようにして知ることができますか? 10個の入力を持つニューラルネットワーク、20個のノードを持つ1つの隠れ層、1つのノードを持つ1つの出力層があります。どの入力変数が他の変数よりも影響力があるかを知る方法がわかりません。私が考えているのは、入力が重要な場合、最初のレイヤーへの重みの高い接続がありますが、重みは正または負になる可能性があるということです。したがって、入力の重みの絶対値を取得し、それらを合計することができます。より重要な入力は、より高い合計を持ちます。 したがって、たとえば、髪の長さが入力の1つである場合、次のレイヤーの各ノードに1つの接続、つまり20の接続(したがって20の重み)が必要です。各重量の絶対値を取り、それらを合計することはできますか?

3
遺伝的アルゴリズムはいつ最適化に適していますか?
遺伝的アルゴリズムは、最適化手法の1つの形式です。多くの場合、関数の最適化には確率的勾配降下法とその導関数が最適な選択ですが、遺伝的アルゴリズムが依然として使用されることもあります。たとえば、NASAのST5宇宙船のアンテナは、遺伝的アルゴリズムを使用して作成されました。 一般的な勾配降下法よりも遺伝的最適化法の方が適しているのはいつですか?

5
経験的CDFとCDF
経験累積分布関数について学んでいます。しかし、私はまだ理解していません なぜ「経験的」と呼ばれるのですか? Empirical CDFとCDFに違いはありますか?

3
RNN / LSTMネットワークの重みが時間を超えて共有されるのはなぜですか?
私は最近LSTMに興味を持ち始めましたが、その重みが時を越えて共有されていることを知って驚きました。 時間にわたって重みを共有する場合、入力時間シーケンスは可変長になる可能性があることを知っています。 共有ウェイトを使用すると、トレーニングするパラメーターがはるかに少なくなります。 私の理解から、LSTMと他の学習方法を比較する理由は、学習したいデータにある種の時間的/シーケンシャルな構造/依存性があると信じているためです。可変長の「豪華」を犠牲にして、長い計算時間を受け入れると、共有ウェイトのないRNN / LSTM(つまり、異なるウェイトを持つタイムステップごとに)のパフォーマンスが向上しませんか?

3
代数の条件付き期待の直観
ましょう確率変数与え、確率空間であると -代数条件付き期待値である新しいランダム変数を構築できます。(Ω 、F、μ )(Ω,F,μ)(\Omega,\mathscr{F},\mu)ξ :Ω → Rξ:Ω→R\xi:\Omega \to \mathbb{R}σ 、G ⊆ F E [ ξ | G ]σ\sigmaG⊆F\mathscr{G}\subseteq \mathscr{F}E[ξ|G]E[\xi|\mathscr{G}] について考える直観は何ですか?以下の直感を理解しています。E [ ξ | G ]E[ξ|G]E[\xi|\mathscr{G}] (i) ここで、はイベント(正の確率)です。E [ ξ | A ] E[ξ|A]E[\xi|A]AAA (ii) ここで、は離散確率変数です。E [ ξ | η ] E[ξ|η]E[\xi|\eta]ηη\eta しかし、視覚化することはできません。私はそれの数学を理解しており、視覚化できるより単純なケースを一般化するような方法で定義されていることを理解しています。しかし、それでも私はこの考え方が役に立つとは思いません。それは私にとって不思議なオブジェクトのままです。E [ ξ | G ]E[ξ|G]E[\xi|\mathscr{G}] たとえば、をイベントとし。形成 -代数、によって生成された1。次いで、に等しくなるなら、そして等しいなら。換言すれば、であれば、及び if。μ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.