統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


3
Rを使用して、処理ごとにデータを分離する散布図を作成する良い方法は何ですか?
私は一般的にRと統計について非常に新しいですが、私はそのネイティブの能力を超えていると思われる散布図を作成する必要があります。 観測値のベクトルがいくつかあり、それらを使用して散布図を作成します。各ペアは3つのカテゴリのうちの1つに分類されます。色または記号で各カテゴリを区切る散布図を作成したいと思います。これは、3つの異なる散布図を生成するよりも優れていると思います。 各カテゴリでは、ある時点で大きなクラスターが存在するという事実に別の問題がありますが、クラスターは他の2つのグループよりも1つのグループで大きくなります。 誰かがこれを行う良い方法を知っていますか?パッケージをインストールして使用方法を学習する必要がありますか?誰でも似たようなことをしましたか? ありがとう

9
推定量と統計量の違いは何ですか?
統計はサンプルから取得できる属性であることを学び、同じサイズの多くのサンプルを取得し、それらすべてについてこの属性を計算し、pdfをプロットすると、対応する属性の分布または対応する統計の分布が得られます。 また、統計は推定量になるように作られていると聞きましたが、これら2つの概念はどのように異なるのですか

4
クラスの不均衡の下でのPrecision-Recall曲線の最適化
私はいくつかの予測子を持っている分類タスクを持っています(そのうちの1つが最も有益です)、私は分類器を構築するためにMARSモデルを使用していますも元気)。これで、トレーニングデータに大きなクラスの不均衡があります(各ポジティブサンプルに対して約2700のネガティブサンプル)。情報検索タスクと同様に、私は、上位の肯定的なテストサンプルの予測をより懸念しています。このため、Precision Recall曲線のパフォーマンスは私にとって重要です。 まず、トレーニングデータでモデルをトレーニングし、クラスの不均衡をそのまま維持しました。トレーニング済みのモデルを赤で表示し、最も重要な入力を青で表示します。 不均衡データのトレーニング、不均衡データの評価: クラスの不均衡がモデルをスローしていると考えて、上位のポジティブサンプルの学習はデータセット全体のごく一部であるため、バランスの取れたトレーニングデータセットを取得するためにポジティブトレーニングポイントをアップサンプリングしました。バランスの取れたトレーニングセットでパフォーマンスをプロットすると、良いパフォーマンスが得られます。PR曲線とROC曲線の両方で、訓練されたモデルは入力よりも優れています。 (アップサンプリング)バランスデータのトレーニング、(アップサンプリング)バランスデータの評価: ただし、バランスの取れたデータでトレーニングされたこのモデルを使用して、元のバランスの取れていないトレーニングセットを予測すると、PRカーブのパフォーマンスが低下します。 (アップサンプリングされた)バランスデータのトレーニング、元のアンバランスデータの評価: だから私の質問は: PR曲線の視覚化が訓練されたモデル(赤)のパフォーマンスの低下を示し、ROC曲線がクラスの不均衡のために改善を示すのはなぜですか? リサンプリング/アップサンプリング/ダウンサンプリングのアプローチはこれを解決して、トレーニングを高精度/低リコール領域に集中させることができますか? 高精度/低リコール領域にトレーニングを集中する他の方法はありますか?

5
サンプリング分布を教えるための戦略
tl; drバージョン 入門的な学部レベルで(たとえばサンプル平均の)サンプリング分布を教えるためにどのような成功した戦略を採用していますか? 背景 9月に、David Moore によるThe Basic Practice of Statisticsを使用して、2年目の社会科学(主に政治学と社会学)の学生向けに統計の入門コースを教えます。私がこのコースを教えたのは5回目であり、私が一貫していた1つの問題は、学生がサンプリング分布の概念に本当に苦労したということです。それは推論の背景としてカバーされており、最初のしゃっくりの後、彼らが問題を抱えていないように見える確率の基本的な紹介に従っています(そして、基本的に、私は基本的なことを意味します-結局のところ、これらの学生の多くは、「数学」のあいまいなヒントでさえも避けようとしたため、特定のコースストリームに自己選択されています。おそらく60%が最低限の理解しか得られずにコースを去り、約25%が原則を理解するが他の概念との関係は理解せず、残りの15%は完全に理解すると思います。 主な問題 学生が抱えていると思われる問題は、アプリケーションにあります。正確な問題が何であるかを説明することは、彼らが単にそれを理解していないと言うこと以外は難しい。前学期に実施したアンケートと試験の回答から、難しさの一部は、2つの関連する類似した発音フレーズ(サンプリング分布とサンプル分布)の混同であると思うので、「サンプル分布」というフレーズは使用しませんもう、しかしこれは確かに、最初は混乱しますが、少しの努力で簡単に把握でき、とにかくサンプリング分布の概念の一般的な混乱を説明することはできません。 (私はそれがあるかもしれないことを認識し、私、私は以来、不快な可能性が行うことが妥当であることを無視して考えるしかし!そしてここでの問題であります私の教え一部の学生がそれと全体的な誰もが非常によくやっているようだ得るように見えるん...) 私が試したこと 私は、学部の学部管理者と議論し、コンピューターラボで必須のセッションを導入し、繰り返しデモを行うことが役立つと考えました(このコースを教える前に、コンピューティングは関係していませんでした)。これは一般的に教材全体を理解するのに役立つと思いますが、この特定のトピックに役立つとは思いません。 私が持っていた一つのアイデアは、いくつかの(例えばによって提唱位置だけですべてでそれを教えないようにするか、それを多くの重量を与えないことであるアンドリュー・ゲルマンを)。最も一般的な分母に教える気配があり、より重要なことは、サンプリングの分布だけでなく、重要な概念がどのように機能するかを本当に理解することから統計的応用についてもっと学びたいと強くてやる気のある学生を拒否するためです。 )。一方、中央値の学生は、たとえばp値を把握しているように見えるため、サンプリング分布を理解する必要はないかもしれません。 質問 サンプリング分布を教えるためにどのような戦略を採用していますか?私は(たとえば、利用可能な材料との議論がある知っているこことここと開き、この論文PDFファイルが)が、私は人々のためにどのような作品のいくつかの具体的な例を得ることができる場合、私はただ思ったんだけど(または私は仕事がなくても、どうなったと思います試さないでください!)。私の今の計画は、9月のコースを計画するとき、ゲルマンのアドバイスに従い、サンプリング分布を「強調しない」ことです。教えますが、これは一種のFYIのみのトピックであり、試験には表示されないことを生徒に保証します(おそらくボーナス質問として!?)。しかし、私は人々が使用している他のアプローチを聞くことに本当に興味があります。

3
可能性を厳密に定義する方法は?
尤度は、たとえば、いくつかの方法で定義できます。 関数からマップをすなわち、。LLLΘ × XΘ×バツ\Theta\times{\cal X}(θ 、x )(θ、バツ)(\theta,x)L (θ | X )L(θ∣バツ)L(\theta \mid x)L :Θ × X→ RL:Θ×バツ→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} ランダム関数L (⋅ | X)L(⋅∣バツ)L(\cdot \mid X) また、尤度は「観測された」尤度のみであると考えることもできL (⋅ | Xobs)L(⋅∣バツobs)L(\cdot \mid x^{\text{obs}}) 実際には、尤度は\ thetaの情報をθθ\theta乗法定数までしか持ち込まないため、尤度は関数ではなく関数の等価クラスと考えることができます パラメーター化の変更を検討する際に別の問題が発生します:ϕ = θ2ϕ=θ2\phi=\theta^2が新しいパラメーター化である場合、一般にL (ϕ ∣ x )L(ϕ∣バツ)L(\phi \mid x)で\ phiの尤度を示しϕϕ\phi、これは前の関数L (⋅ | X )L(⋅∣バツ)L(\cdot \mid x)でθ2θ2\theta^2が、でϕ−−√ϕ\sqrt{\phi}。これは虐待的だが有用な表記法であり、強調しないと初心者に困難をもたらす可能性がある。 …

2
主成分分析におけるバイプロットの解釈
この素晴らしいチュートリアルに出くわしました。Rを使用した統計分析のハンドブック。第13章主成分分析: R言語でPCAを実行する方法に関するオリンピック7大会。図13.3の解釈がわかりません。 したがって、最初の固有ベクトルと2番目の固有ベクトルをプロットしています。どういう意味ですか?最初の固有ベクトルに対応する固有値がデータセットの変動の60%を説明し、2番目の固有値-固有ベクトルが変動の20%を説明するとします。これらを互いにプロットすることはどういう意味ですか?

4
2つのポアソンサンプルの平均値が同じかどうかの確認
これは基本的な質問ですが、答えを見つけることができませんでした。私は2つの測定値を持っています。時間t1のn1イベントと時間t2のn2イベントの両方が、おそらく異なるラムダ値を持つポアソンプロセスによって生成されます。 これは実際にはニュース記事からのものであり、本質的には、あるため、この2つは異なると主張していますが、主張が有効かどうかはわかりません。(一方または他方のイベントを最大化するために)期間が悪意を持って選択されなかったとします。n1/t1≠n2/t2n1/t1≠n2/t2n_1/t_1\neq n_2/t_2 tテストを行うことはできますか、それとも適切ではありませんか?イベントの数が少なすぎるため、分布をほぼ正常に快適に呼び出すことができません。

6
信頼区間はいつ有用ですか?
私が正しく理解している場合、パラメーターの信頼区間は、指定された割合のサンプルの真の値を含む区間を生成する方法によって構築された区間です。したがって、「信頼」は、特定のサンプルから計算する間隔ではなく、方法に関するものです。 統計のユーザーとして、すべてのサンプルのスペースは仮想的なものであるため、私は常にこれにだまされていると感じています。私が持っているのは1つのサンプルであり、そのサンプルがパラメーターについて教えてくれることを知りたいです。 この判断は間違っていますか?少なくとも状況によっては、統計のユーザーにとって意味のある信頼区間を調べる方法はありますか? [この質問は、math.seの回答で信頼区間を分析した後の2番目の考えから生じますhttps://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 #7572 ]


3
Rはテキスト分類タスクにどれだけうまく対応できますか?[閉まっている]
私はRの速度を上げようとしています。最終的にはテキストの分類にRライブラリを使用したいと思います。テキストの分類を行う際に、Rの拡張性に関して人々の経験はどうなっているかと思っていました。 高次元のデータ(〜30万次元)に遭遇する可能性があります。特に分類アルゴリズムとしてSVMとランダムフォレストを使用することを検討しています。 Rライブラリは問題のサイズに合わせて拡張できますか? ありがとう。 編集1:明確にするために、私のデータセットには10​​00〜3000行(おそらくもう少し)と10のクラスがありそうです。 編集2:私はRに非常に新しいので、可能な限りより具体的になるようにポスターを要求します。たとえば、ワークフロー/パイプラインを提案している場合は、可能であれば各ステップに関係するRライブラリを必ず言及してください。いくつかの追加のポインター(例、サンプルコードなど)がケーキに着氷します。 編集3:まず、あなたのコメントをありがとう。第二に、私は謝罪します。おそらく、この問題についてもっと多くの文脈を与えたはずです。私はRには慣れていませんが、テキストの分類にはそれほど慣れていません。物事の感触をつかむために、tmパッケージを使用して、データの一部で前処理(ステミング、ストップワードの削除、tf-idf変換など)を既に実行しています。tmは約200のドキュメントでも非常に遅いため、スケーラビリティについて心配しました。それから私はFSelectorで遊び始めましたが、それでも本当に遅かったです。そして、それが私がOPを作ったポイントです。 編集4:10個のクラスとクラスごとに約300個のトレーニングドキュメントがあり、実際にはトレーニングセット全体からtermXdocマトリックスを構築しているため、非常に高い次元が発生しました。しかし、すべての1-out-of-k分類問題を一連のバイナリ分類問題に減らすのはどうでしょうか?これにより、k-1の各ステップでトレーニングドキュメントの数(したがって次元数)が大幅に削減されます。このアプローチは良いものですか?精度の点で、通常のマルチクラス実装とどのように比較されますか?

3
多くのセットの交差点を視覚化する
多くのセットの交差部分の重なりを示すのに適した視覚化モデルはありますか? 私はベン図のようなものを考えていますが、どういうわけか10以上などのより多くのセットに適しているかもしれません。ウィキペディアにはいくつかのより高いセットのベン図が表示されますが、4セットの図でさえ多くを取り入れる必要があります。 データの最終結果についての私の推測では、セットの多くが重複しないため、ベン図がうまくいく可能性がありますが、それを生成できるコンピューターツールを見つけたいと思います。Googleチャートではそれほど多くのセットが許可されていないようです。

6
二項信頼区間の推定-なぜ対称ではないのですか?
次のrコードを使用して、二項比率の信頼区間を推定しました。これは、母集団の病気の検出を見る受信者動作特性曲線設計を設計するときに「電力計算」の代わりになることを理解しているためです。 nは150であり、この病気は人口の25%であると考えられています。私は、75%の感度と90%の特異性の値を計算しました(これは人々がしているように見えるからです)。 binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95) binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95) 私もこのサイトを訪れました: http://statpages.org/confint.html これは、二項信頼区間を計算するJavaページであり、同じ答えを提供します。 とにかく、その長いセットアップの後、なぜ信頼区間が対称ではないのか、たとえば感度が 95 percent confidence interval: 0.5975876 0.8855583 sample estimate probability: 0.7631579 これが馬鹿げた質問であれば申し訳ありませんが、私が見ているどこでも彼らは対称的であると示唆しているようで、私の同僚は彼らもそうだと思っているようです。

1
センタリングはPCAにどのように違いをもたらしますか(SVDおよび固有分解の場合)?
データのセンタリング(または軽for)はPCAに対してどのような違いがありますか?数学が簡単になる、または最初のPCが変数の手段に支配されるのを防ぐと聞いたことがありますが、まだ概念をしっかりと把握できていないように感じます。 たとえば、ここで一番の答えは、どのようにデータをセンタリングすることで、回帰とPCAのインターセプトを取り除きますか?センタリングしないと、点群の主軸ではなく、原点を介して最初のPCAがどのように引き出されるかを説明します。PCが共分散行列の固有ベクトルからどのように取得されるかについての私の理解に基づいて、私はこれがなぜ起こるのか理解できません。 さらに、センタリングがある場合とない場合の私自身の計算はほとんど意味がないようです。 irisR のデータセットのsetosa花について考えます。サンプルの共分散行列の固有ベクトルと固有値を次のように計算しました。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 最初にデータセットを中央に配置すると、まったく同じ結果が得られます。センタリングは共分散行列をまったく変更しないため、これは非常に明白なようです。 df.centered <- scale(df,scale=F,center=T) e.centered<- …
30 r  pca  svd  eigenvalues  centering 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.