統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
いつ(そしてなぜ)分布の(数の)ログを取るべきですか?
たとえば、過去の株価、航空券の価格変動、会社の過去の財務データなど、いくつかの履歴データがあるとします... 今、誰か(または何らかの数式)がやって来て、「配布のログを取得/使用しましょう」と言って、ここに行くのはなぜですか? 質問: そもそも分布のログを取るべきなのはなぜですか? ディストリビューションのログは、元のディストリビューションではできなかった/できなかった「与える/単純化する」ものは何ですか? ログ変換は「ロスレス」ですか?すなわち、対数空間に変換してデータを分析するとき、元の分布についても同じ結論が成立しますか?どうして? そして最後に、分布のログを取得するのはいつですか?どのような条件下でこれを行うことにしますか? 私は本当にログベースの分布(たとえばlognormal)を理解したかったのですが、いつ/なぜアスペクトを理解したことがありません-すなわち、分布のログは正規分布です。それは私に何を伝え、何故わざわざしますか したがって、質問! 更新:@whuberのコメントに従って、私は投稿を見ましたが、独立変数と従属変数のログの間に関係を描くことができるので、何らかの理由で線形回帰でのログ変換の使用とその適用を理解しています。ただし、私の質問は、分布そのものを分析するという意味では一般的です。ログを取り、分布を分析する理由を理解するのに役立つと結論付けることができる関係自体はありません。私は理にかなっていると思います:-/ 回帰分析では、データのタイプ/フィット/分布に制約があり、それを変換して、独立変数と(変換されていない)従属変数間の関係を定義できます。しかし、型/適合/分布の制約がフレームワークで必ずしも適用できない場合(回帰のような)分離の分布に対していつ/なぜそうするのか。明確にすることで混乱するよりも明らかになることを願っています:) この質問は、「なぜ、いつ」に関する明確な答えに値します

4
QQプロットの解釈方法
私は小さなデータセット(21の観測値)で作業しており、Rには次の通常のQQプロットがあります。 プロットが正規性をサポートしていないことを見て、基礎となる分布について何を推測できますか?右側に偏った分布がより適切であるように思えます、そうですか?また、データから他にどのような結論を導き出すことができますか?

9
なぜテンソルに突然魅了されるのですか?
最近、多くの人々が多くの方法(テンソル因数分解、テンソルカーネル、トピックモデリングのテンソルなど)のテンソル等価物を開発していることに気付きました。なぜ世界は突然テンソルに魅了されるのでしょうか。これをもたらした特に驚くべき最近の論文/標準結果はありますか?以前に疑われていたよりも計算上はるかに安価ですか? 私はglibではありません、私は心から興味があり、これに関する論文へのポインタがあれば、私はそれらを読みたいです。

3
投げ縄とリッジを使用する必要があるのはいつですか?
多数のパラメーターを推定したいのですが、他のパラメーターと比較してほとんど効果がないはずだと思うので、いくつかのパラメーターにペナルティを科したいとします。使用するペナルティスキームを決定するにはどうすればよいですか?リッジ回帰はいつ適切ですか?投げ縄を使用する必要があるのはいつですか?



8
ロジスティック回帰で完全な分離に対処する方法は?
ターゲット変数のゼロと1を完全に分離する変数がある場合、Rは次の「完全または準完全分離」警告メッセージを生成します。 Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred モデルは取得できますが、係数の推定値は膨らんでいます。 これを実際にどのように扱いますか?

21
ジュリアは統計コミュニティに固執する希望を持っていますか?
最近、R-Bloggersからの投稿を読みました。この投稿は、Juliaという新しい言語に関するJohn Myles Whiteのこのブログ投稿にリンクしています。ジュリアは、ジャストインタイムコンパイラを活用して、非常に高速な実行時間を実現し、C / C ++と同程度の速度(同じ順序、等しく高速ではない)にします。さらに、Rのapplyステートメントとベクトル演算の代わりに、従来の言語でプログラミングを始めた私たちが慣れ親しんでいるオーソドックスなループメカニズムを使用します。 Rは、ジュリアのような素晴らしいタイミングでも、決して離れることはありません。業界での広範なサポートと、ほぼ何でもできる多数の素晴らしいパッケージがあります。 私の興味は、ベクトル化が不可能な場合が多いベイジアンです。確かに、シリアルタスクはループを使用して実行する必要があり、各反復で大量の計算が必要になります。これらのシリアルループタスクではRは非常に遅くなる可能性があり、C / ++は書くのに苦労しているわけではありません。JuliaはC / ++で書くことに代わる優れた選択肢のように見えますが、まだ初期段階であり、Rについて私が愛する多くの機能を欠いています。統計コミュニティから、人々はそれに役立つパッケージを書き始めます。 私の質問は次のとおりです。 Rを統計の事実上の言語にした魅力を得るために、ジュリアに必要な機能は何ですか? C / ++のような低レベル言語を学習するよりも、計算量の多いタスクを行うためにジュリアを学習することの利点と欠点は何ですか?

3
R's lmerチートシート
このフォーラムでは、を使用してさまざまな階層モデルを指定する適切な方法について多くの議論が行われていますlmer。 すべての情報を1か所にまとめるのは素晴らしいことだと思いました。開始するいくつかの質問: 複数のレベルを指定する方法。1つのグループがもう1つのグループ内にネストされている(1|group1:group2)場合:it または(1+group1|group2)? (~1 + ....)and (1 | ...)と(0 | ...)etcの違いは何ですか? グループレベルの相互作用を指定する方法

3
ROC対精密およびリコール曲線
私はそれらの間の正式な違いを理解しています。私が知りたいのは、どちらか一方を使用するほうがより適切な場合です。 特定の分類/検出システムのパフォーマンスに関する補完的な洞察を常に提供していますか? それらを両方とも、たとえば論文で提供するのが合理的なのはいつですか?ただ一つではなく? 分類システムのROCと精度の両方のリコールの関連する側面をキャプチャする代替(おそらくより現代的な)記述子はありますか? バイナリとマルチクラス(たとえば、1対すべて)の両方の場合の引数に興味があります。


2
生成的対差別的
生成は「P(x,y)P(x,y)P(x,y)基づいて」を意味し、識別は「P(y|x)P(y|x)P(y|x)に基づいて」を意味することを知っていますが、いくつかの点で混乱しています: ウィキペディア(およびWeb上の他の多くのヒット)では、SVMや意思決定ツリーなどを差別的なものとして分類しています。しかし、これらには確率的な解釈すらありません。ここでの差別とはどういう意味ですか?差別的というのは、生成的ではない何かを意味するようになったのでしょうか? Naive Bayes(NB)はP(x|y)P(x|y)P(x|y)およびをキャプチャするため生成的P(y)P(y)P(y)であり、したがってP(x,y)P(x,y)P(x,y)(およびP(y|x)P(y|x)P(y|x))があります。同様の方法で単純に計算することで、ロジスティック回帰(判別モデルのポスターボーイ)を「生成」するのは簡単ではありません(P (x )= P (x 0P(x)P(x)P(x)P(x)=P(x0)P(x1)...P(xd)P(x)=P(x0)P(x1)...P(xd)P(x) = P(x_0) P(x_1) ... P(x_d)、 MLEP(xi)P(xi)P(x_i)は単なる周波数です)? 識別モデルは生成モデルよりも性能が優れている傾向があることは知っています。生成モデルを使用する実用的な用途は何ですか?データを生成/シミュレートできることが挙げられますが、これはいつ発表されますか?個人的には、回帰、分類、コラボの経験しかありません。構造化データをフィルタリングするので、ここでの使用は私とは無関係ですか?「失われたデータ」引数(P(xi|y)P(xi|y)P(x_i|y)不足しているためxixix_i)学習データのみで、あなたにエッジを与えるように思われる(あなたが実際に知っているときyyyとオーバー過小評価する必要はありませんP(y)P(y)P(y)取得します比較的愚かなP(xi)P(xi)P(x_i)とにかく直接推定することができます)、それでも代入ははるかに柔軟です(だけでyyyなく他のも基づいて予測できxixix_iます)。 ウィキペディアからの完全に矛盾した引用とは何ですか?「生成モデルは通常、複雑な学習タスクで依存関係を表現する際に識別モデルよりも柔軟性が高い」対「識別モデルは一般に、観測変数とターゲット変数の間のより複雑な関係を表現できる」 これについて考えさせられた関連質問。


6
1を超える確率分布値でも問題ありませんか?
上の単純ベイズ分類器についてのWikipediaのページ、この行があります: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789(1を超える確率分布は問題あり。釣鐘曲線の下の面積は1です。) 値でも問題ありませんか?すべての確率値は範囲で表現されると思いました。さらに、そのような値を持つことが可能であるとすると、ページに示されている例ではその値はどのように取得されますか?>1>1>10≤p≤10≤p≤10 \leq p \leq 1

6
k分割交差検証後に予測モデルを選択する方法は?
K分割交差検証を行った後、予測モデルを選択する方法を考えています。 これは厄介な言い方かもしれませんので、詳細に説明しましょう。K分割交差検証を実行するたびに、トレーニングデータのK個のサブセットを使用し、K個の異なるモデルになります。 Kモデルの1つを選択する方法を知りたいので、誰かにそれを提示して、「これは私たちが生産できる最高のモデルです」と言うことができます。 Kモデルのどれを選んでも大丈夫ですか?または、テストの中央値を達成するモデルを選択するなど、何らかのベストプラクティスが関係していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.