統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
なぜ単純なグリッドの代わりにモンテカルロ法を使用するのですか?
関数を統合するとき、または複雑なシミュレーションで、モンテカルロ法が広く使用されているのを見てきました。ランダムなポイントを描画する代わりに、関数を統合するためにポイントのグリッドを生成しない理由を自問しています。それはより正確な結果をもたらさないでしょうか?

6
Rを使用した統計のリファレンスブック–存在し、何を含めるべきですか?
バックグラウンド これについては多くの議論があるので、StackExchangeの以前のトレッドから、そして猛烈にグーグルで答えを見つけることができると思いました。Rで(バイオ)統計のリファレンスブックを1つだけ見つけようとして半日使った後、私はまったく混乱し、あきらめなければなりませんでした。たぶん、無料の資料を組み合わせると、現時点で購入できるどの本よりも優れているかもしれません。調べてみましょう。 インターネットにはR言語の優れた無料の文献がたくさんあります。そのため、ほとんどの場合オフィスの装飾として使用される平凡な本にお金を払っても意味がありません。Rのホームサイトには、Rに関連する書籍が一覧表示されており、多くの書籍があります。より正確に言うと、115。そのうちの1つだけが「スタンドアロン統計リファレンスブック」という言葉で宣伝されています。現在8歳であり、古い可能性があります。Sを使用したModern Applied Statisticsの第4版はさらに古いです。R Bookは、参照が不足しているため、コードの形式が適切でなく、仕上がりが粗末であるため、あまりにも基本的でお勧めできません。 しかし、私は1冊の本を探しています。これは、実用的な統計(何よりもまず)とR(二次)のスタンドアロン参照として使用できます。本は私の本棚に置いて、本棚のほこりの代わりに注釈、コーヒーの染み、脂っこい指紋を集めます。これは、これまで使用してきた無料のpdfのコレクションを置き換えるものであり、Rに優れた参照ライブラリが付属していることを忘れないでください。“ 適切なアプローチは何ですか?」、「なぜですか?「技術的には、どのように機能しますか?」は、「Rでそれを行う方法」よりも多くの難問です。 私は生態学者なので、生物統計学への応用にほとんど興味があります。しかし、これらのことはしばしば結びついているため、学際的な一般的な参考文献は私にとって最も価値があるでしょう。 タスク そのような本が存在する場合(疑わしい)、本の名前(回答ごとに1つのみ)と、その本のトピックのリファレンスブックとして指定する理由を説明する本の短いレビューを提供してください。この質問は既存のものとそれほど違わないので、答えにこのトレッドを使用してください。また、理想的な参考書の機能としてそれらをリストできるように、本の欠陥をリストすることもできます。 私の質問は、Rの統計(ほとんどの種類)のリファレンスブックには何を含めるべきですか? いくつかの最初の考えは、次の一般的な機能です(更新してください)。 レンガのように厚い 簡潔だが理解しやすい 数字で埋める(提供されたRコード付き) テキストから最も重要な詳細を説明するわかりやすい表と図 最も重要な方程式を含む統計/方法に関するわかりやすい説明テキスト。 各アプローチの良い例(Rコードを使用) 広範な最新の参照リスト タイプミスの最小数 目次 私は統計学者ではないので、質問に答えるためにこの(存在しない?)本が必要になるので、内容について書くのは難しいです。のでR帳がはっきりRと統計のための参考書になろうとするが、しばしば批判されて、私は、スタンドアロンR統計参考書の目次するための出発点として、本から目次をコピーしました。追加タスク:目次に追加、提案、削除などを提供してください。 入門 R言語の要点 データ入力 データフレーム グラフィックス テーブル 数学 古典的なテスト 統計モデリング 回帰 分散分析 共分散分析 一般化線形モデル カウントデータ テーブル内のデータをカウントする 割合データ バイナリ応答変数 一般化された加算モデル 混合効果モデル 非線形回帰 ツリーモデル 時系列分析 多変量統計 空間統計 生存分析 シミュレーションモデル グラフィックスの外観を変更する …
25 r  references 

6
分布を比較するための優れたデータ視覚化技術とは何ですか?
私は博士論文を書いていますが、分布を比較するためにボックスプロットに過度に依存していることに気付きました。このタスクを達成するために他にどの方法が好きですか? また、データの視覚化に関するさまざまなアイデアを取り入れることができるRギャラリーとして、他のリソースを知っているかどうかを尋ねたいと思います。

4
Ziliak(2011)は、p値の使用に反対し、いくつかの代替案に言及しています。彼らは何ですか?
「Matrixx v。SiracusanoおよびStudent v。Fisher 統計的有意性」(DOI:10.1111 / j.1740-9713.2011.00511.x)と呼ばれる、統計的推論のためにp値に依存するデメリットを議論する最近の記事では、 Stephen T. Ziliakは、p値の使用に反対しています。最後の段落で彼は言う: データは、私たちがすでに知っていることの1つであり、確かです。私たちが実際に知りたいのは、まったく異なるものです。データが与えられた場合、仮説が真である(または少なくとも実用的に有用である)確率です。入手可能な証拠があれば、2つの薬物が異なる確率、およびその程度を知りたいと思います。転置された条件の誤fall、フィッシャーが陥ったtrapに基づいた有意性テストは、その確率を教えてくれません。パワー関数、予想損失関数、およびスチューデントとジェフリーズから派生した多くの意思決定理論およびベイジアン手法は、現在広く利用可能でオンラインで無料です。 べき関数、予想損失関数、および「その他の決定理論およびベイズ法」とは何ですか?これらの方法は広く使用されていますか?Rで利用できますか?これらの新しい推奨方法はどのように実装されますか?たとえば、これらの方法を使用して、従来の2標本のt検定とp値を使用するデータセットで仮説をテストする方法を教えてください。

3
1つの観測値の分散の信頼区間
これは、「確率論における第7回コルモゴロフ学生オリンピック」の問題です。 両方のパラメーターが不明な分布から1つの観測値与えられた場合、少なくとも99%の信頼レベルで信頼区間を与えます。XXXNormal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 私には、これは不可能であると思われます。解決策はありますが、まだ読んでいません。何かご意見は? 数日中にソリューションを投稿します。 [次の編集:以下に掲載されている公式ソリューション。Cardinalのソリューションはより長くなりますが、より良い信頼区間を提供します。また、入力してくれたMaxとGlen_bにも感謝します。]

2
MLEでRのnlm関数を使用すべきでないのはいつですか?
最尤推定にRのnlmを使用することを提案するいくつかのガイドに出くわしました。ただし、それらのいずれも(Rのドキュメントを含む)、関数を使用するか使用しないかの理論的なガイダンスを提供しません。 私が知る限り、nlmは単にNewtonの方法に沿って勾配降下を行っています。このアプローチを使用することが合理的である場合の原則はありますか?どのような選択肢がありますか?また、nlmに渡すことができる配列などのサイズに制限はありますか?

7
たとえば、性別が通常、1/2ではなく0/1にコーディングされるのはなぜですか?
データ分析のためのコーディングのロジックを理解しています。以下の私の質問は、特定のコードの使用に関するものです。 性別が女性の場合は0、男性の場合は1としてしばしばコード化される理由はありますか? このコーディングが「標準」と見なされるのはなぜですか? これを女性= 1および男性= 2と比較してください。このコーディングに問題はありますか?

1
プロファイル尤度に基づいた信頼区間の構築
私の基本統計コースでは、「大きな」サンプルサイズの漸近正規性に基づいて、母平均などの95%信頼区間を構築する方法を学びました。別に方法をリサンプリング(例えばブートストラップなど)に基づいて、別のアプローチがある「プロファイル尤度」。誰かがこのアプローチを解明できますか?μμ\mu どのような状況下で、漸近正規性とプロファイル尤度に基づいて構築された95%CIは同等ですか?このトピックに関する参考文献が見つかりませんでした。推奨される参考文献はありますか?なぜもっと広く使われないのですか?

4
モデルの不確実性への対処
CrossValidatedコミュニティのベイジアンがモデルの不確実性の問題をどのように見ているのか、そしてどのようにそれを処理することを好むのかと思いまして。私は2つの部分で質問を投げかけます。 モデルの不確実性に対処することは(あなたの経験/意見において)どのくらい重要ですか?機械学習コミュニティでこの問題を扱った論文を見つけていないので、なぜだろうと思っています。 モデルの不確実性を処理するための一般的なアプローチは何ですか(参照を提供する場合のボーナスポイント)?ベイジアンモデルの平均化について聞いたことがありますが、このアプローチの具体的な手法や制限についてはよく知りません。他に何があり、なぜあなたは別のものよりも1を好むのですか?

2
PCAは多重共線性の下で不安定ですか?
回帰状況では、推定された係数の不安定性のため、高度に相関する変数のセットがある場合、これは通常「悪い」ことを知っています(行列式がゼロに近づくにつれて、分散は無限に向かっていきます)。 私の質問は、この「悪」がPCAの状況で持続するかどうかです。共分散行列が特異になると、特定のPCの係数/負荷/重み/固有ベクトルは不安定/任意/非一意になりますか?私は、最初の主成分のみが保持され、他のすべてが「ノイズ」または「その他」または「重要でない」として却下される場合に特に興味があります。 ゼロまたはゼロに近い分散を持ついくつかの主成分だけが残っているため、それはないと思います。 これを見やすいのは、2変数の単純な極端な場合ではありません-それらが完全に相関していると仮定します。次に、最初のPCは正確な線形関係になり、2番目のPCは最初のPCに対して垂直になり、すべての観測値でPCの値はすべてゼロになります(分散0)。より一般的な場合は疑問に思う。


3
最初に試す上位5つの分類子
のような明らかな分類器の特徴に加えて 計算コスト 機能/ラベルの期待されるデータタイプと データセットの特定のサイズと次元への適合性、 まだあまり知られていない新しいデータセット(たとえば、セマンティクスと個々の機能の相関)で最初に試す上位5(または10、20?)分類子は何ですか?通常、Naive Bayes、Nearest Neighbor、Decision Tree、SVMを試します。ただし、この選択を行う理由はありません。 最も重要な一般的な分類アプローチをカバーする分類器を選択する必要があると思います。その基準に従って、またはその他の理由で、どの選択をお勧めしますか? 更新:この質問の別の定式化は、「分類に対する一般的なアプローチが存在し、最も重要/人気のある/有望な方法をカバーする特定の方法はどれですか?」です。

2
少量サンプル研究での探索的データ分析とデータdrへの対処方法
探索的データ分析(EDA)は、多くの場合、必ずしも初期の仮説セットに属するとは限らない他の「トラック」を探索することにつながります。サンプルサイズが限られており、さまざまなアンケート(社会人口統計データ、神経心理学的または医学的尺度-精神的または身体的機能、うつ/不安レベル、症状チェックリストなど)で収集された多くのデータがある研究の場合、私はそのような状況に直面します)。EDAは、追加の質問/仮説に変換されるいくつかの予期しない関係(「予期しない」ことは初期分析計画に含まれていなかったことを意味します)を強調するのに役立ちます。 過剰適合の場合と同様に、データのedや索は一般化しない結果につながります。ただし、大量のデータが利用可能な場合、限られた仮説セットを仮定することは非常に困難です(研究者または医師にとって)。 小サンプル研究の場合、EDAの輪郭を描くのに役立つ、よく知られた方法、推奨事項、または経験則があるかどうかを知りたいです。

8
イベントに参加した人数(政治集会など)を推定する方法は?
今日、ある学生が私に尋ねました。「ワシントンDCのスチュワート/コルバート「正気を取り戻すための集会」など、大規模なグループイベントに何人の人々が参加したかをどうやって知るのですか?」ニュースアウトレットは数万の推定値を報告しますが、これらの推定値を取得するためにどのような方法が使用され、それらの信頼性はどの程度ですか? ある記事は明らかに駐車許可に基づいて彼らの見積りに基づいていました... キャプチャ/再キャプチャの実験などについて話していないことに注意してください。 わからない。事前に、このような特定の方法はなく、非常にアドホックなもの(駐車許可証の販売数など)があると思います。これは本当ですか?国家安全保障の目的のために-もちろん-アナリストに衛星写真を用意してもらい、そこにいる人々の数を物理的に数えることも可能です。この方法は非常に頻繁に使用されるとは思いません。

2
一般線形モデルと一般線形モデル(恒等リンク関数を使用?)
これは私の最初の投稿ですので、いくつかの標準に従っていない場合は私に気をつけてください!私は自分の質問を検索しましたが、何も起こりませんでした。 私の質問は、一般的な線形モデリング(GLM)と一般化線形モデリング(GZLM)の実際の違いに関するものです。私の場合、GZLMに対して、共変量としてのいくつかの連続変数とANCOVAのいくつかの要因になります。各変数の主な効果と、モデルで概説する3方向の相互作用を調べたいと思います。この仮説はANCOVAでテストされているか、GZLMを使用してテストされています。ANCOVAのような一般的な線形モデルの実行の背後にある数学プロセスと推論をある程度理解し、GZLMが線形モデルと従属変数を接続するリンク関数を許可していることをある程度理解しています本当に数学を理解している)。私が本当にしないこと GZLMで使用される確率分布が正常な場合(つまり、アイデンティティリンク関数?)に、一方の分析を実行し、もう一方の分析を実行しない実際的な違いまたは理由を理解してください。実行すると、結果が大きく異なります。どちらでも実行できますか?私のデータは多少正常ではありませんが、ANCOVAとGZLMの両方である程度機能します。どちらの場合でも私の仮説は支持されますが、GZLMではp値は「より良い」です。 私の考えでは、ANCOVAは恒等リンク関数を使用した正規分布従属変数を持つ線形モデルであり、GZLMに入力できるものとまったく同じでしたが、これらはまだ異なります。 可能であれば、これらの質問に光を当ててください。 最初の回答に基づいて、追加の質問があります: それらが利用した有意性検定(すなわち、F検定対Wald Chi Square)を除いてそれらが同一である場合、どちらを使用するのが最も適切でしょうか?ANCOVAは「go-toメソッド」ですが、なぜF検定が好ましいのかわかりません。誰かが私のためにこの質問にいくらか光を当てることができますか?ありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.