統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


6
円グラフの問題
円グラフに関する議論が増えているようです。 それに対する主な議論は次のようです: 面積は長さよりも少ない力で知覚されます。 円グラフのデータポイントとピクセルの比率が非常に低い ただし、プロポーションを描写する際に何らかの形で役立つ可能性があると思います。ほとんどの場合、テーブルを使用することに同意しますが、ビジネスレポートを書いているときに、何百ものテーブルを含めたのに、円グラフがないのはなぜですか? コミュニティがこのトピックについてどう考えているのか興味があります。さらに参考文献を歓迎します。 いくつかのリンクを含めます。 http://www.juiceanalytics.com/writing/the-problem-with-pie-charts/ http://www.usf.uni-osnabrueck.de/~breiter/tools/piechart/warning.en.html この質問を終わらせるために、円グラフとワッフルグラフの例を作成することにしました。


6
初心者向けの統計/確率ビデオ
Mathematical Statistics Videosのリクエストは既にありましたが、 統計の厳密な数学的表現を提供するビデオ。すなわち、このディスカッションで言及された教科書を使用するコースに付随する可能性のあるビデオ... 同時に、stat / prob-101-ビデオコースについてどのような推奨事項がありますか?
28 references 

8
無制限の変数を0から1の間の数で表す方法
変数を0から1の間の数として表現したい。変数は固有の境界のない非負の整数です。0から0にマッピングしますが、1または0から1の間の数値に何をマッピングできますか? その変数の履歴を使用して制限を提供できます。これは、最大値が増加した場合、古い統計を再度説明する必要があることを意味します。これを行う必要がありますか、または他に知っておくべきトリックがありますか?

6
壊れた軸の代替手段は何ですか?
ユーザーは、軸の値を分割して、同じグラフ上に異なる桁のデータを表示したいと思うことがよくあります(こちらを参照)。これは便利かもしれませんが、データを表示するのに常に好ましい方法とは限りません(誤解を招く可能性があります)。数桁異なるデータを表示する別の方法は何ですか? データを対数変換するか、ラティスプロットを使用する2つの方法が考えられます。他のオプションは何ですか?

26
日常業務で最も役立つと思うRパッケージは何ですか?
スレッドの複製: 最新バージョンのRをインストールしました。どのパッケージを入手すればよいですか? データを使った日々の作業を想像できなかったRパッケージとは何ですか?一般的なツールと特定のツールの両方をリストしてください。 更新:ggplot224.10.10は7票の勝者のようです。 複数の言及された他のパッケージは次のとおりです。 plyr -4 RODBC、RMySQL-4 sqldf -3 lattice -2 zoo -2 Hmisc/rms -2 Rcurl -2 XML -2 回答ありがとうございます!
28 r 

4
カルバック・ライブラー距離の適応?
この画像見て: 赤の密度からサンプルを描画する場合、一部の値は0.25未満になると予想されますが、青の分布からこのようなサンプルを生成することはできません。結果として、赤の密度から青の密度までのカルバック・ライブラー距離は無限大です。ただし、2つの曲線は「自然な意味」ではそれほど明確ではありません。 ここに私の質問があります:これらの2つの曲線間の有限距離を可能にするカルバック・ライブラー距離の適応が存在しますか?

2
平均二乗誤差が経験的分布とガウスモデル間のクロスエントロピーであるのはなぜですか?
5.5では、ディープラーニング(イアングッドフェロー、ヨシュアベンジオ、アーロンクールビル)が、 負の対数尤度で構成される損失は、トレーニングセットで定義された経験的分布とモデルで定義された確率分布の間の相互エントロピーです。たとえば、平均二乗誤差は経験的分布とガウスモデルの間の相互エントロピーです。 なぜそれらが同等なのか理解できず、著者はその点については拡張していません。

4
カラーマップviridisをjetで使用する理由
https://www.youtube.com/watch?v=xAoljeRJ3lUで発表されているように、Matplotlibはデフォルトのカラーマップをjetからviridisに変更します。 しかし、私はそれをかなりよく理解していません。多分私は色盲だから? 元のカラーマップジェットは非常に強く見え、コントラストを感じることができます。 新しいカラーマップviridisにはそのコントラストがありませんが: 誰でも簡単に説明できますか?論文のプロットが必要です。そして、監督者(および私自身)に、ヴィリディスが優れていることを納得させる正当な理由が必要です。

6
多変量回帰が必要なのはなぜですか(一変量の回帰ではありません)?
私はちょうどこの素晴らしい本を読みました:Johnson and Wichernによる応用多変量統計分析。皮肉なことに、個別の単変量(回帰)モデルの代わりに多変量(回帰)モデルを使用する動機を理解することはできません。(a)多変量回帰と多変量回帰の違いと(b)多変量回帰の結果の解釈を説明するstats.statexchangeの投稿1および2を調べましたが、すべての情報から多変量統計モデルの使用を微調整することはできませんそれらについてオンラインで入手してください。 私の質問は: なぜ多変量回帰が必要なのですか?推論を引き出すために、結果を個別にではなく同時に考慮することの利点は何ですか。 多変量モデルを使用する場合、および複数の単変量モデルを使用する場合(複数の結果の場合)。 UCLAのサイトで、制御の軌跡、自己概念、および動機付けという3つの結果が得られた例を取り上げます。1.と2.に関して、3つの単変量多重回帰と1つの多変量多重回帰を行う場合の分析を比較できますか?互いに正当化する方法は? 多変量統計モデルを利用する学術論文にはあまり出会っていません。これは、多変量正規性の仮定、モデルのフィッティング/解釈の複雑さ、または他の特定の理由によるものですか?

5
ランダムウォークの分散が増加するのはなぜですか?
ランダムウォークのように定義される、ホワイトノイズです。現在の位置が前の位置と予測できない用語の合計であることを示します。Yt= Yt − 1+ etYt=Yt−1+etY_{t} = Y_{t-1} + e_tetete_t 、平均関数であることを証明できμt= 0μt=0\mu_t = 0 E(Yt)= E(e1+ e2+ 。。。+ et)= E(e1)+ E(e2)+ 。。。+ E(et)= 0 + 0 + 。。。+ 0E(Yt)=E(e1+e2+。。。+et)=E(e1)+E(e2)+。。。+E(et)=0+0+。。。+0E(Y_{t}) = E(e_1+ e_2+ ... +e_t) = E(e_1) + E(e_2) +... +E(e_t) = 0 + 0 + ... + 0 しかし、なぜ分散は時間とともに直線的に増加するのでしょうか? これは、新しい位置が前の位置と非常に相関しているため、「純粋な」ランダムではないことに関係していますか? 編集: …

1
美しく書かれた論文
デイビッド・サルズバーグの本「お茶を味わう女性」から: 読者はそれを信じないかもしれませんが、文学スタイルは数学的研究において重要な役割を果たします。一部の数学ライターは、理解しやすい記事を作成できないようです。他の人は、ピカユンで一般的なアイデアが失われるほど詳細に満ちた記号表記の多くの行を生成することからひどい喜びを得るようです。 しかし、一部の著者は、その説明が明らかであると思われるほどの力とシンプルさで複雑なアイデアを表示する能力を持っています。学んだことを検討して初めて、読者は結果の大きな力に気付きます。そのような著者はジャージー・ネイマンでした。彼の論文を読むことは喜びです。アイデアは自然に進化し、表記法は一見単純です。結論は非常に自然であるため、誰もこれらの結果をずっと前に作成していない理由を理解するのが難しいと思われます。 統計や機械学習に関するこのようなよく書かれた論文の他の具体例は何ですか? アイデアは、「これがあなたが書くべき方法」論文のリストを持つことです。 提供してください: 以下のような完全な書誌引用: カールE.ラスムッセン、「無限ガウス混合モデル」、ニューラル情報処理システム12、Vol。12(2000) リンクの場合、可能であれば公開されているリポジトリにリンクしてください(例:http : //arxiv.org/)。 論文が何であるか、なぜそれが一流のよく書かれた論文の例であるかについての短い、非公式の、包括的なレビュー。

6
素人の言葉では、モデルと分布の違いは何ですか?
ウィキペディアで定義されている回答(定義)は、高等数学/統計になじみのない人にとっては間違いなく少し不可解です。 数学用語では、統計モデルは通常ペア()と考えられますは可能な観測値のセット、つまりサンプル空間、は確率分布のセットです上の。S、PS、PS, \mathcal{P}SSSPP\mathcal{P}SSS 確率と統計では、確率分布は、ランダムな実験、調査、または統計的推論の手順の可能な結果の各測定可能なサブセットに確率を割り当てます。サンプル空間が非数値である例が見つかります。この例では、分布はカテゴリー分布になります。 私は非常に趣味としてこの分野に関心のある高校生だと現在あるものとの違いに苦しんでいますstatistical modelし、Aprobability distribution 私の現在の非常に初歩的な理解はこれです: 統計モデルは、測定された分布を近似する数学的な試みです 確率分布は、ランダムイベントの各可能な結果に確率を割り当てる実験から測定された説明です 混乱は、文学で「分布」と「モデル」という言葉が同じ意味で使用されているか、または少なくとも非常によく似た状況(たとえば、二項分布と二項モデル)で見られる傾向によってさらに悪化します。 誰かが私の定義を検証/修正し、おそらくこれらの概念に対してより形式化されたアプローチを提供できますか?

8
仮説がない場合のP値の豊富さ
私は疫学に興味があります。私は統計学者ではありませんが、分析を自分で実行しようと試みますが、しばしば困難に直面します。約2年前に最初の分析を行いました。P値は、記述表から回帰分析まで、私の分析のどこにでも含まれていました(他の研究者が行っていたことを単純に行いました)。少しずつ、私のアパートで働いている統計学者は、私が本当に仮説を持っている場合を除いて、すべての(!)p値をスキップするように説得しました。 問題は、医学研究の出版物にp値が豊富にあることです。p値を非常に多くの行に含めるのが一般的です。平均、中央値、または通常p値に沿ったもの(t検定、カイ2乗など)の記述データ。 私は最近、ジャーナルに論文を提出しましたが、「ベースライン」の説明表にp値を追加することを(丁寧に)拒否しました。論文は最終的に拒否されました。 例を示すには、次の図を参照してください。これは、尊敬される内科のジャーナルに掲載された最新の記事の説明表です。 統計学者は、ほとんどの場合(常にではないにしても)これらの原稿のレビューに関与しています。したがって、私のような素人は、仮説が存在しない場合、p値が見つからないことを期待しています。しかし、それらは豊富ですが、この理由は私にはとらえどころのないままです。無知だとは信じがたい。 これは統計的な問題の境界線であることを理解しています。しかし、私はこの現象の背後にある理論的根拠を探しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.