統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


7
正則化用語が(乗算などの代わりに)コスト関数に*追加*されるのはなぜですか?
正則化が使用されるたびに、次のコスト関数のように、コスト関数に追加されることがよくあります。 これは、コスト関数とは、誤差を最小化(左項)し、同時に係数の大きさ(右項)を最小化(または、少なくとも2つの最小化のバランスをとる)することを意味します。J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 私の質問は、なぜこの正則化用語α∥θ∥22α‖θ‖22\alpha\|\theta\|_2^2が元のコスト関数に追加され、乗算されないか、正則化のアイデアの背後にある動機の精神を保持する何かですか?単に用語を追加するだけで十分に単純であり、これを分析的に解決することができるのか、それとももっと深い理由があるのか​​?

8
テーブル設計に関する優れたリソースは何ですか?
グラフィックスの文法など、グラフィックスのさまざまな理論的取り扱いを見てきました。しかし、私はテーブルに関して同等のものを見ていません。その間、私はテーブル設計の優れた実践の非公式なモデルを開発してきました。ただし、学生に良い参考資料を提供できるようにしたいと思います。APAスタイルマニュアルには、表の設計上のいくつかのヒントを持っていますが、それは唯一の出発点です。 質問:表の数値結果の表示に関する理論的および実践的なアドバイスを提供する優れたリソースとは何ですか? 更新:優れた無料のオンラインリソースがあると特に便利です。 注:これがコミュニティWikiであるかどうかはわかりません。正解があるように感じます。
51 tables 


6
RのROC曲線を使用して最適なカットオフポイントとその信頼区間を決定する方法は?
正常細胞と腫瘍細胞を区別するために使用できるテストのデータがあります。ROC曲線によると、この目的には適しています(曲線下面積は0.9): 私の質問は: このテストのカットオフポイントと、読み取り値があいまいであると判断される信頼区間を決定する方法 これを視覚化する最良の方法は何ですか(を使用ggplot2)? グラフはROCRとggplot2パッケージを使用してレンダリングされます: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p + geom_text(aes(x=1, y= 0, hjust=1, …


3
統計と因果推論?
1984年の論文「Statistics and Causal Inference」で、Paul Hollandは統計学の最も基本的な質問の1つを挙げました。 統計モデルは因果関係について何を言うことができますか? これが彼のモットーにつながりました。 操作なしで原因なし 因果関係を考慮した実験に関する制限の重要性を強調しました。アンドリュー・ゲルマンも同様の点を指摘しています: 「何かを変更したときに何が起こるかを知るには、それを変更する必要があります。」...システムを混乱させることから学べることは、どんな量の受動的観測からも決して見つけられないことです。 彼の考えはこの記事で要約されます。 統計モデルから因果推論を行う場合、どのような考慮事項が必要ですか?
51 causality 


3
「残念な賛成票」の問題はありますか?
これは話題から外れているように聞こえるかもしれませんが、聞いてください。 スタックオーバーフローでは、ここで投稿に対する投票を得ます。これはすべて表形式で保存されます。 例えば: 投稿ID投票者ID投票タイプ日時 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等々。投票タイプ2は投票、投票タイプ3は投票です。このデータの匿名バージョンをhttp://data.stackexchange.comで照会できます 投稿のスコアが-1以下になると、投稿される可能性が高くなるという認識があります。これは単に確認バイアスである場合もあれば、実際に根付いている場合もあります。 この仮説を確認または否定するために、このデータをどのように分析しますか?このバイアスの影響をどのように測定しますか?

5
ランダムフォレストはブースティングアルゴリズムですか?
ブースティングの簡単な定義: 一連の弱い学習者が単一の強い学習者を作成できますか?弱学習器は、真の分類とわずかにしか相関しない分類子であると定義されます(ランダムな推測よりも例をラベル付けできます)。 ランダムフォレストの短い定義: ランダムフォレストは、多くの分類ツリーを成長させます。入力ベクトルから新しいオブジェクトを分類するには、入力ベクトルをフォレスト内の各ツリーに配置します。各ツリーは分類を提供し、ツリーはそのクラスに「投票」します。フォレストは、(フォレスト内のすべてのツリーに対して)最も投票数の多い分類を選択します。 ランダムフォレストの別の短い定義: ランダムフォレストは、データセットのさまざまなサブサンプルに多数の決定木分類器を適合させ、予測精度を向上させて過剰適合を制御するために平均化を使用するメタ推定器です。 私が理解しているように、ランダムフォレストは弱い分類子としてツリーを使用するブースティングアルゴリズムです。また、他の手法を使用し、それらを改善することも知っています。誰かがランダムフォレストがブースティングアルゴリズムではないことを修正しましたか? 誰かがこれについて詳しく説明できますか、なぜランダムフォレストがブースティングアルゴリズムではないのですか?



4
外れ値にロバストな高速線形回帰
外れ値のある線形データを扱っていますが、その一部は推定回帰線から5標準偏差以上離れています。私は、これらのポイントの影響を減らす線形回帰技術を探しています。 これまでのところ、すべてのデータで回帰直線を推定し、非常に大きな2乗残差(上位10%など)を持つデータポイントを破棄し、それらのポイントなしで回帰を繰り返しました。 文献には多くの可能なアプローチがあります:最小二乗、分位点回帰、m-推定量など。どのアプローチを試すべきか本当に分かりませんので、提案を探しています。私にとって重要なのは、最適化ルーチンの各ステップでロバスト回帰が計算されるため、選択した方法が高速であることです。どうもありがとう!

9
データベースのデータを視覚化するための優れたオープンソースソフトウェアを知っている人はいますか?
最近、Tableauに出会い、データベースとcsvファイルからデータを視覚化しようとしました。ユーザーインターフェイスを使用すると、ユーザーは時間と空間のデータを視覚化し、瞬時にプロットを作成できます。このようなツールは、コードを記述せずにデータをグラフィカルに観察できるため、非常に便利です。 データを取得して視覚化する必要があるデータソースは多数あるため、軸上の列をドラッグするだけでグラフを生成できるツールがあり、さらに列名をドラッグして視覚化を変更すると非常に便利です。 そのようなフリーまたはオープンソースのソフトウェアを知っている人はいますか?

6
Rを使用して統計の学習を同時に開始するのに推奨されるのはどの本ですか?
Rを使用して統計を学習するための書籍 まさに私が探している本は何ですか。 私が探しているのは、Rを使用して統計を教え、実践的な経験を提供する本です。私はアマゾンでそれをしようとする多くの本を見ましたが、Rではそうではありません。例はMinitabとSASです。 R BookとStatistics Computingはオプションですか?- まだ回答されていません。 R BookとStatistical Computing:S-Plusを使用したデータ分析入門は実行可能ですが、読者の意見は参考になり歓迎します。 この本は統計コースとどのように関係していますか? 私が探していたものをさらに正確にするには、大学の数学科からの統計に関する結果を学習している次の2つのコースを検討してください。 中間統計と確率と統計、つまり、中レベルに進む通常の統計コースを本で探していますが、ボードとペーパーだけではなく、代わりにRを学習して使用しています。それはまた、私が最初から統計を学びたいと思う本を探していることを意味します。 この本も研究者向けです。 私はソフトウェアエンジニアの研究者でもありますが、山のようなデータに遭遇し、他の多くの分野にほとんど当てはまる自動化コードを書き続けるための統計を学びたいという現状を推測しています。 つまり、すべての単一の曲線のすべての単一のプロパティのすべての詳細を学習することには興味がありませんが、自分の研究領域のデータの意味を理解することにもっと関心があります。 。 最後の動機として、統計の推測や制約に違反しているかどうかの判読可能な証拠がない間、統計的推論に基づいて結果を主張するさまざまな種類のコミュニティで科学論文を読んでいることに気づきました。 統計についてあまり詳しくないAR本は、このプラクティスをフォローアップしていないことを保証するものではありません。そのため、概要図をいじるのではなく、Rを使用する統計コースに似た本を探すことにしました。 相互検証の関連する質問。 コンピュータサイエンスに適用される計算統計の概要を提供している書籍は何ですか?-これはRを使用して統計を学習するためのものですが、質問が概要を探すこととは異なります。 オープンソースの統計書は、オンラインで利用可能なオープンソース(オープンブック)のリストを提供します。 この質問に対する回答とフィードバック。 ジュリー 提案された本は、私がすでに出くわした数少ないものでしたが、残念なことに私に合わない例です。 Rを使用した入門統計、入門統計にRを使用、統計:Rを使用した入門は、すでにAmazonで調べた本のいくつかですが、統計の概要について、または以前の統計知識が必要な仮定を立てています。概要図の問題は、ほとんどの場合、仮定や制約に注意を喚起せず、情報を理解するのに十分な説明を提供することです。 この必要性にも適合する本が存在しないか、RブックまたはS-Plusを使用したデータ分析入門がこれに当てはまると思う場合は、このタイプの回答も歓迎します。 @クリストファー・アデン Rを使用した確率と統計の概要は、最も近いもののようですが、私が探していたものにまだ一般的です。 私が期待していたのは、David S. Mooreのような統計の基本です。 すべての統計学の主題を網羅しています。 miniTabと他の2つのツールを使用して、説明した方法を実践的に学習します。 前提と制約を非常に強調しています。これは、詳細な統計コースを受講しておらず、統計を使用したい研究者にとって非常に重要です。概要の本ではほとんどカバーしません。これは研究者にとって危険です。 本の目次はこちらでご覧いただけます。統計に焦点が当てられており、ツールの使用法が理解を深め、より簡単な方法で学習した後、ツールを使用して統計を実行する方法を学生に理解させることです。ツールについてではなく、統計についてです! 私はまったく同じことを望んでいますが、Rを使用しています。 グレゴリー・デミン それは教育学の例としてRを使用し、統計を学びたいと思っていることを前提としており、何よりもオープンソースです。残念ながら、ANOVAやANCOVA、またはより高度な科目は対象外です。 @ピーター・エリス この質問で何が求められているかをカバーする教科書への良い提案。 質問に答える質問者の意見の本。 @ピーター・エリスと@グレゴリー・デミン。 AmazonのR Booksのコレクション さまざまな学生のバックグラウンド向けのR本に関するAmazonの議論は、ここにあります。 Rを使用して統計を教えるビデオ講義 2007年のGoogle Tech Talksもこの質問の動機となり、統計ではなくデータマイニングについて詳しく説明していますが、ここでは …
50 r  references 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.