統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
FisherとNeyman-Pearsonフレームワークを使用する場合
最近、フィッシャーの仮説検定の方法とネイマン・ピアソンの考え方との違いについてたくさん読んでいます。 私の質問は、哲学的な異議をしばらく無視することです。統計モデリングのフィッシャーのアプローチをいつ使用する必要があり、有意水準などのネイマン・ピアソン法を使用する必要があるのか​​?特定の実用的な問題でどの視点を支持するかを決定する実用的な方法はありますか?

4
「情報価値のない事前」とは何ですか?本当に情報のないものはありますか?
この質問からのコメントに触発されました: 事前情報で「情報価値のない」と考えるものと、情報価値のない事前情報に含まれている情報は何ですか? 私は通常、ベイジアン分析からいくつかの素晴らしい部分を借りようとする頻繁なタイプの分析である分析で事前を参照します(「それが最もホットなこと」に至るまでのいくつかの簡単な解釈である)、指定された事前分布は均一0を中心とした効果測定の境界を横切って分布しかしアサートする前に形状を-ただ平坦であることを起こります。 使用する前に、より有益な情報がありますか?
73 bayesian  prior 


7
重回帰の最小サンプルサイズの経験則
社会科学の研究提案の文脈の中で、私は次の質問をされました。 重回帰の最小サンプルサイズを決定するときは、常に100 + m(mは予測子の数)になりました。これは適切ですか? 同様の質問が頻繁に出ますが、多くの場合、経験則が異なります。また、さまざまな教科書でそのような経験則をかなり読みました。引用に関するルールの人気は、基準がどれだけ低く設定されているかに基づいているのかと疑問に思うことがあります。ただし、意思決定を簡素化する上での優れたヒューリスティックの価値も認識しています。 質問: 調査研究を設計する応用研究者の文脈の中で、最小サンプルサイズの単純な経験則の有用性は何ですか? 重回帰の最小サンプルサイズの代替経験則を提案しますか? あるいは、重回帰の最小サンプルサイズを決定するために、どのような代替戦略を提案しますか?特に、非統計学者が戦略を容易に適用できる程度に値が割り当てられるとよいでしょう。

14
(もしあれば)頻繁なアプローチがベイジアンよりも実質的に優れているのはいつですか?
背景:私はベイジアン統計の正式なトレーニングは受けていませんが(詳細については非常に興味がありますが)、多くの人がフリークエンティスト統計よりも好ましいと感じる理由の要点を理解するのに十分なことを知っています。私が教えている導入統計(社会科学)クラスの大学生でさえ、ベイジアンのアプローチが魅力的であることがわかります。「なぜnullが与えられた場合、データの確率を計算することに関心があるのでしょうか? ??帰無仮説または代替仮説と私も読んだ糸のようなこれらのほかベイズ統計の経験的な利点を証明する、しかし、私はブラスコによって、この引用に出くわした(2001;強調を追加します)。: 動物の飼育者が帰納に関連する哲学的問題に興味がなく、問題を解決するためのツールに興味がある場合、ベイジアンと頻繁な推論の両方の学校が確立されており、どちらの学校が好まれるのかを正当化する必要はありません。一部の複雑なケースを除き、どちらにも運用上の問題はありません... どちらの学校を選択するかは、一方の学校に他の学校が提供していない解決策があるかどうか、問題がどれだけ簡単に解決できるかに関連する必要があります、そして科学者が表現結果の特定の方法でどれほど快適に感じるか。 質問:Blascoの引用は、Frequentistのアプローチが実際にベイジアンのアプローチよりも好ましい場合があることを示唆しているようです。それで、私は好奇心が強いです:ベイジアンのアプローチよりも頻繁なアプローチがいつ望ましいか?私は、概念的に(つまり、帰無仮説に基づいたデータの確率が特に有用かどうかを知っているのはいつか)、そして経験的に(つまり、どのような条件下で頻度論的手法が優れているか、ベイジアンか)の両方の問題に取り組む回答に興味があります また、回答ができるだけアクセスしやすいものになっている場合も望ましいでしょう-クラスに回答を返して生徒と共有するのは良いことです(ある程度の専門性が必要であることは理解していますが)。 最後に、Frequentist統計の通常のユーザーであるにもかかわらず、私は実際にBayesianが全面的に勝つ可能性にオープンです。

7
ユークリッド距離は通常、スパースデータには適していませんか?
多次元データとスパースデータがある場合、古典的な距離(ユークリッド距離など)が弱判別性になることをどこかで見ました。どうして?ユークリッド距離がうまく機能しない2つのスパースデータベクトルの例はありますか?この場合、どの類似性を使用する必要がありますか?

4
ポアソンと指数分布の関係
ポアソン分布の待機時間は、パラメーターlambdaの指数分布です。しかし、私はそれを理解していません。ポアソンは、たとえば単位時間あたりの到着数をモデル化します。これは指数分布とどのように関係していますか?時間単位でのk個の到着の確率はP(k)(ポアソンでモデル化)、k + 1の確率はP(k + 1)であるとしましょう。指数分布はそれらの間の待ち時間をどのようにモデル化しますか?



2
リッジ回帰が「リッジ」と呼ばれるのはなぜですか、なぜ必要なのですか。が無限になったときに何が起こるのでしょうか。
リッジ回帰係数の推定は、β^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. 私の質問は: 場合、上記の式は通常のRSSに還元されることがわかります。場合はどうなりますか?係数の振る舞いに関する教科書の説明がわかりません。λ → ∞λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty 特定の用語の背後にある概念を理解しやすくするために、用語がRIDGE回帰と呼ばれるのはなぜですか?(なぜリッジ?)そして、リッジ回帰と呼ばれる新しい概念を導入する必要があるという通常/一般的な回帰で何が間違っていたのでしょうか? あなたの洞察は素晴らしいでしょう。

8
機械学習者で見つけるのは難しいスキルですか?
データマイニングと機械学習は非常に人気が高まったため、ほとんどすべてのCS学生が分類子、クラスタリング、統計NLPなどについて知っているようです。 私の質問は、データマイナーが他のスキルとは異なるスキルを身に付けるにはどうすればよいでしょうか?彼をあまりにも見つけにくい誰かに似た人にすること。

2
閉形式と勾配降下の回帰パラメータの解決
Andrew Ngの機械学習コースでは、線形回帰とロジスティック回帰を紹介し、勾配降下法とニュートン法を使用してモデルパラメーターを近似する方法を示しています。 勾配降下は、機械学習の一部のアプリケーション(逆プロパゲーションなど)で役立つことがありますが、より一般的なケースでは、閉形式のパラメーターを解かない理由があります。コスト関数と微積分による解? 一般に、閉じた形式のソリューションに対して勾配降下法などの反復アルゴリズムを使用する場合、使用できる場合、その利点は何ですか?

2
Rの重複行データフレームの削除[終了]
このサンプルデータフレームから重複行を削除するにはどうすればよいですか? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 両方の列に基づいて重複を削除したい: A 1 A 2 B 4 B 1 C 2 順序は重要ではありません。
71 r 


15
Rを使用した再現可能な研究の完全な実質的な例
質問: Rを使用して再現性のある研究の良い例があり、オンラインで無料で入手できますか? 理想的な例: 具体的には、理想的な例は以下を提供します: 生データ(および理想的にはデータを説明するメタデータ)、 データのインポート、処理、分析、出力生成を含むすべてのRコード、 最終出力を最終ドキュメントにリンクするためのSweaveまたはその他のアプローチ、 すべては、読者のコンピューターで簡単にダウンロードおよびコンパイルできる形式です。 理想的には、この例は、統計的な教育の例とは対照的に、実際の応用トピックに重点を置いたジャーナル記事または論文です。 興味の理由: 雑誌記事や論文の応用トピックに特に興味があります。これらの状況では、いくつかの追加の問題が発生するためです。 データのクリーニングと処理に関連する問題が発生し、 メタデータの管理に関連する問題が発生し、 ジャーナルと論文には、表や図の外観とフォーマットに関するスタイルガイドの期待がありますが、 多くのジャーナルと論文には、ワークフロー(分析の順序付け方法など)と処理時間(分析のキャッシュの問題など)に関する問題を引き起こす幅広い分析が含まれていることがよくあります。 完全な実例を見ると、再現性のある研究から始める研究者にとって良い教材となります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.