統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
からサンプリングする方法は
密度f (a )∝ c a d a − 1に従ってサンプリングしたい f(a )∝ cada − 1Γ (a )1(1 、∞ )(a)f(a)∝cada−1Γ(a)1(1,∞)(a) f(a) \propto \frac{c^a d^{a-1}}{\Gamma(a)} 1_{(1,\infty)}(a) ここで、cccとdddは厳密に正です。(動機:これは、ガンマ密度の形状パラメーターが均一な事前分布を持つ場合のギブスサンプリングに役立ちます。) 誰でもこの密度から簡単にサンプリングする方法を知っていますか?たぶんそれは標準的なもので、私が知らないことなのでしょうか? 私は、多かれ少なかれ仕事(モードを見つけるでしょう愚かな拒絶sampliingアルゴリズムと考えることができます*のF、サンプル(、U )大きな箱に均一からを[ 0 、10 * ] × [ 0 、F (A ∗)]およびu > f (a ))の場合は拒否しますが、(i)それはまったく効率的ではなく、(ii)f (a ∗)a∗a∗a^*fff(a,u)(a,u)(a,u)[0,10a∗]×[0,f(a∗)][0,10a∗]×[0,f(a∗)][0,10a^*]\times [0,f(a^*)]u>f(a)u>f(a)u>f(a)f(a∗)f(a∗)f(a^*)コンピュータが大きすぎて、適度に大きいおよびdでも簡単に処理できません。(大きなcとdのモードはおよそa = c dであることに注意してください。)cccdddcccddda=cda=cda=cd 助けてくれてありがとう!

3
カルマンフィルタリングでDLMを予測に使用する方法
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 8年前に移行され ました。 誰かが時系列のRでDLMカルマンフィルタリングを使用する方法の例を私に教えてくれますか?私はこれらの値を持っていると言います(年ごとの季節性を持つ四半期値); 次の値を予測するためにDLMをどのように使用しますか?ところで、十分な履歴データがありますか(最小値は何ですか)? 89 2009Q1 82 2009Q2 89 2009Q3 131 2009Q4 97 2010Q1 94 2010Q2 101 2010Q3 151 2010Q4 100 2011Q1 ? 2011Q2 私はRコードの料理本スタイルのハウツーの段階的な答えを探しています。予測の正確さは私の主な目標ではありません。十分なデータがない場合でも、2011Q2の数字を与えるコードのシーケンスを学習したいだけです。

4
Rに自己相関エラーがある単純な線形モデル[閉じた]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 8か月前に閉鎖されました。 Rの自己相関エラーを含む線形モデルをどのように適合させますか?stataではpraisコマンドを使用しますが、Rに相当するものが見つかりません...

3
ベイジアン統計は、行動研究の従来の(頻度主義)統計よりも本当に改善されていますか?
この質問は、クロス検証で回答できるため、Skeptics Stack Exchangeから移行されました。 8年前に移行され ました。 会議に参加している間、実験の結果を評価するためのベイジアン統計の支持者によるプッシュが少しありました。頻繁な統計よりも、本物の発見に対してより敏感で、適切で、選択的である(誤検出が少ない)ことで自慢されています。 私はこのトピックをいくぶん検討しましたが、ベイジアン統計を使用することの利点についてはこれまで納得できませんでした。しかし、ベイジアン分析は予知をサポートするダリル・ベムの研究に反論するために使用されたので、ベイジアン分析が私自身の研究でさえもどのように利益を得るかについて、私は慎重に興味を持ち続けています。 だから私は次のことに興味があります: ベイジアン分析と頻度分析のパワー 分析の各タイプのタイプ1エラーに対する感受性 分析の複雑さのトレードオフ(ベイジアンはより複雑に思われる)対得られた利点。従来の統計分析は簡単で、結論を出すための十分に確立されたガイドラインがあります。シンプルさは利点と見なすことができます。あきらめる価値はありますか? 洞察力をありがとう!



1
2Dコレスポンデンス分析プロットの解釈
私はインターネットを広く検索してきました... 2Dコレスポンデンス分析プロットを解釈する方法の本当に良い概要をまだ見つけていません。誰かがポイント間の距離を解釈する上でアドバイスを提供できますか? おそらく例が役立つでしょう。ここに、私が見た多くのウェブサイトで見つかった、コレスポンデンス分析についてのプロットがあります。赤い三角形は目の色を表し、黒い点は髪の色を表します。 上記のグラフを見て、これらのデータに表示されるものについていくつかのステートメントを作成できますか。三角形とドットの異なる次元と関係についての関心のある点は? 行ポイントと列ポイントの説明、および例に特に焦点を当てた「プロファイル」という言葉の使用は、役に立つでしょう。

2
今日、「最近傍」はいつ意味がありますか?
1999年、バイエル等。尋ねられ、 ときに「最も近い隣人は」意味がありますか? 1999年以降、距離の平坦性がNN検索に与える影響を分析および視覚化するより良い方法はありますか? [与えられた]データセットは、1-NN問題に対する意味のある答えを提供しますか?10 NN問題?100-NNの問題? 今日、この質問に専門家はどのようにアプローチしますか? 1月24日月曜日の編集: 「次元の増加に伴う距離フラットネス」の短縮名としての「距離ホワイトアウト」はどうですか? 「距離ホワイトアウト」を調べる簡単な方法は、2-NNを実行し、最も近い隣人と2番目に近い隣人までの距離をプロットすることです。以下のプロット は、モンテカルロによるnclustersと次元の範囲のdist 1とdist 2を示しています。この例は、スケーリングされた絶対差| dist 2 -dist 1 | に対してかなり良い距離コントラストを示しています。(相対差| dist 2 / dist 1 |→1次元→∞なので、役に立たなくなります。) 特定のコンテキストで絶対誤差を使用するか相対誤差を使用するかは、もちろん、存在する「実際の」ノイズに依存します。難しいです。 提案:常に2-NNを実行します。2つのネイバーは、近くにあるときに便利で、近くにないときに便利です。

3
複数のイベントの条件付き確率を計算するにはどうすればよいですか?
いくつかのイベントの条件付き確率を計算する方法を教えてください。 例えば: P(A | B、C、D)-? そんなこと知ってる: P(A | B)= P(A B)/ P(B)∩∩\cap しかし、残念なことに、イベントAがいくつかの変数に依存している場合、式を見つけることができません。前もって感謝します。

10
データの視覚化の作成を学習するためのリソースですか?
http://flowingdata.comおよびinformationisbeautifulで表示される視覚化の種類を作成する方法を学ぶことに興味があります。編集:それ自体が興味深い意味、視覚化-ちょっとしたレポートのようなものとは対照的に、NYタイムズのグラフィックのようなものです。 これらを作成するためにどのようなツールが使用されますか?ほとんどはAdobe Illustrator / Photoshopの多くですか?特にデータの視覚化にこれらのツールを使用する方法を学習するのに役立つリソース(書籍、Webサイトなど)とは何ですか? 私はビジュアライゼーションがどのように見えるかを知っています(そして、Tufteの本などの設計原則に精通しています)が、それらを作成する方法がわかりません。

7
モデルの複雑さの尺度
同じ数のパラメーターを持つ2つのモデルの複雑さをどのように比較できますか? 編集09/19:明確にするために、モデルの複雑さは、限られたデータから学ぶことがどれだけ難しいかを示す尺度です。2つのモデルが既存のデータに等しく適合している場合、複雑度が低いモデルほど、将来のデータに対するエラーが少なくなります。近似値を使用する場合、これは技術的には常に正しいとは限りませんが、実際に正しい傾向がある場合は問題ありません。さまざまな近似が異なる複雑さの尺度を提供します

6
データマイニングと統計分析の違いは何ですか?
データマイニングと統計分析の違いは何ですか? ある程度の背景として、私の統計教育はかなり伝統的だったと思います。特定の質問が提起され、調査が設計され、データが収集および分析されて、その質問に関する洞察が得られます。その結果、私は常に「データed」、つまり大規模なデータセット内のパターンを探し、これらのパターンを使用して結論を​​出すことを検討していました。私は後者をデータマイニングに関連付ける傾向があり、これは常に(アルゴリズム変数選択ルーチンのようなものとともに)いくぶん無原則だと考えてきました。 それにもかかわらず、データマイニングに関する大規模で成長中の文献があります。多くの場合、このラベルは、クラスタリング、ツリーベースの分類などの特定の手法を指します。しかし、少なくとも私の観点からは、これらの手法は、データのセットに対して「緩め」またはアドレス指定に構造化された方法で使用できます質問。前者をデータマイニング、後者を統計分析と呼びます。 私は学術行政で働いており、問題や機会を特定するために「データマイニング」を行うように頼まれています。私の背景と一致して、私の最初の質問は次のとおりでした:あなたは何を学びたいですか、あなたは問題に貢献すると思うものは何ですか?彼らの回答から、私と質問をする人は、データマイニングの性質と価値について異なる考えを持っていることが明らかでした。

6
パラメーターを推定するための機械学習の「基本的な」アイデアとは何ですか?
パラメーターを推定するための統計の「基本的な」考え方は、最尤法です。機械学習の対応するアイデアは何だろうと思っています。 Qn 1.パラメーターを推定するための機械学習の「基本的な」アイデアは、「損失関数」であると言ってもいいでしょうか。 [注:機械学習アルゴリズムは損失関数を最適化することが多いため、上記の質問が印象的です。] Qn 2:統計と機械学習のギャップを埋めようとする文献はありますか? [注:おそらく、損失関数を最尤法に関連付けることによって。(たとえば、OLSは正規分布エラーなどの最尤と同等です)]

2
マテルン共分散関数の理論的根拠は何ですか?
マテルン共分散関数は、一般にガウス過程のカーネル関数として使用されます。このように定義されます Cν(d)=σ221−νΓ(ν)(2ν−−√dρ)νKν(2ν−−√dρ)Cν(d)=σ221−νΓ(ν)(2νdρ)νKν(2νdρ) {\displaystyle C_{\nu }(d)=\sigma ^{2}{\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}^{\nu }K_{\nu }{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}} ここで、は距離関数(ユークリッド距離など)、はガンマ関数、は第2種の修正ベッセル関数、およびは正のパラメーターです。は、実際にはまたはに選ばれた多くの時間です。dddΓΓ\GammaKνKνK_\nuρρ\rhoνν\nuνν\nu3232\frac{3}{2}5252\frac{5}{2} 多くの場合、このカーネルは「滑らかではない」ため標準のガウスカーネルよりもうまく機能しますが、それ以外に、このカーネルを好む他の理由はありますか?それがどのように振る舞うかについてのいくつかの幾何学的な直観、または一見不可解な式の説明は高く評価されるでしょう。

1
James-Stein推定量が「収縮」推定量と呼ばれるのはなぜですか?
James-Stein推定量について読んでいます。このノートでは、次のように定義されています θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X 私は証明を読みましたが、次の声明を理解していません: 幾何学的に、James–Stein推定量は、各成分を原点に向かって縮小します...XXX 「各成分を原点に向かって縮小する」とはどういう意味ですか?私はようなものを考え ていました。(p + 2)<\ | X \ | ^ 2、 \ | \ hat {\ theta} \ | = \ frac {\ | X \ | ^ 2-(p + 2)} {\ | X \ | ^ 2} \ | X \ |。‖ θ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.