統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
教師あり機械学習のクラスの不均衡
これは一般的な質問であり、メソッドやデータセットに固有のものではありません。データセット内の0の数が約90%、1の数が約10%である教師あり機械学習のクラス不均衡問題にどのように対処しますか?分類器を最適にトレーニングするにはどうすればよいですか? 私が従う方法の1つは、データセットのバランスを取り、分類器をトレーニングして複数のサンプルに対してこれを繰り返すためのサンプリングです。 これはランダムだと感じています。この種の問題に取り組むための枠組みはありますか。

3
AIC、BIC、CIC、DIC、EIC、FIC、GIC、HIC、IIC —それらを同じ意味で使用できますか?
p。彼のPRNNブライアンリプリーの34人は、「AICは赤池(1974)によって「情報基準」と命名されましたが、Aは赤池を表すと一般に信じられているようです」とコメントしています。実際、AIC統計を導入する際、赤池(1974、p.719)は次のように説明しています。 "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". この引用を1974年の予測として考えると、赤池(1977、1978)とシュワルツ(1978)によって、わずか4年で2種類のBIC統計(ベイジアンIC)が提案されたことに注目することは興味深いです。Spiegelhalterらがかかった。(2002)DIC(Deviance IC)を思い付くまでにはるかに長い。CIC基準の出現は赤池(1974年)によって予測されていませんでしたが、それが決して考慮されなかったと信じることは単純です。2005年にCarlos C. Rodriguezによって提案されました(R. TibshiraniとK. KnightのCIC(共分散インフレーション基準)は異なることに注意してください)。 EIC(経験的IC)が2003年頃にモナッシュ大学の人々によって提案されたことを知っていました。私は、Focused Information Criterion(FIC)を発見しました。一部の書籍では、HannanおよびQuinn ICをHICと呼んでいます。たとえば、これを参照してください)。GIC(Generalized IC)が必要であることは知っていますが、情報投資基準(IIC)を発見しました。NIC、TICなどがあります。 私はおそらくアルファベットの残りをカバーできると思うので、AIC、BIC、CIC、DIC、EIC、FIC、GIC、HIC、IIC、...のシーケンスがどこで停止するか、アルファベットの文字が何であるかを尋ねていません使用されていないか、少なくとも2回使用されていない(たとえば、EICのEは、ExtendedまたはEmpiricalを表します)。私の質問はもっと簡単で、もっと実用的になることを願っています。これらの統計を相互に交換して使用し、それらが導き出された特定の仮定、それらが適用されるはずの特定の状況などを無視できますか? この質問の一部は、Burnham&Anderson(2001)が次のように書いていることによるものです。 ...the comparison of AIC and BIC model selection ought to be based on their performance properties such as …

2
倍の交差検証での最適な折り畳み数:leave-one-out CVは常に最良の選択ですか?
計算能力に関する考慮事項は別として、交差検証での折り畳みの数を増やすと、モデルの選択/検証が向上する(つまり、折り畳みの数が多いほど良い)と考えられる理由はありますか? 極端に議論すると、leave-one-out交差検定は必然的に倍交差検定よりも優れたモデルになりますか?KKK この質問の背景:私は非常に少数のインスタンス(たとえば、10個の陽性と10個の陰性)で問題に取り組んでおり、私のモデルが一般化できないか、非常に少ないデータで過剰適合することを恐れています。

5
QQplotの解釈-非正規性を決定する経験則はありますか?
ここでQQplotのスレッドを十分に読んで、QQplotが他の正規性テストよりも有益であることを理解しています。しかし、私はQQplotsの解釈に不慣れです。私はたくさんグーグルでした。非正規のQQplotのグラフをたくさん見つけましたが、既知の分布と「直感」との比較と思われるものを除き、それらの解釈方法に関する明確なルールは見つかりませんでした。 非正規性の判断に役立つ経験則があるか(または知っているか)知りたい。 この質問は、次の2つのグラフを見たときに浮上しました。 非正規性の決定は、データとそれらの処理に依存することを理解しています。ただし、私の質問は、一般に、観測された直線からの逸脱が正規性の近似を不合理にするのに十分な証拠を構成するのはいつですか? 価値のあることですが、Shapiro-Wilk検定は、どちらの場合も非正規性の仮説を否定できませんでした。

4
期待が算術平均と同じなのはなぜですか?
今日、数学的期待と呼ばれる新しいトピックに出会いました。私がフォローしている本は、期待は確率分布から来るランダム変数の算術平均であると言っています。しかし、それはいくつかのデータの積とその確率の合計として期待を定義します。これら2つ(平均と期待)を同じにすることができますか?確率の合計とデータの積は、どのようにして分布全体の平均になりますか?

2
スプラインはデータをオーバーフィットしていますか?
私の問題:最近、統計学者に会いましたが、スプラインはデータの探索にのみ有用であり、オーバーフィットの影響を受けるため、予測には役立ちません。彼は単純な多項式で探索することを好みました...私はスプラインの大ファンなので、これは私の直感に反するので、これらの引数がどのくらい有効であるか、そしてアンチスプラインの大規模なグループがある場合、活動家はいますか? 背景:モデルを作成するときは、フランクハレルの回帰モデリング戦略(1)を追います。彼は、制限された3次スプラインが連続変数を探索するための有効なツールであると主張します。彼はまた、多項式はしきい値、対数などの特定の関係のモデリングが不十分であると主張しています(2)。モデルの線形性をテストするために、彼はスプラインの分散分析テストを提案しています。 H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 私はスプラインでオーバーフィッティングすることをグーグルで調べましたが、それほど便利ではありませんでした(あまり多くのノットを使用しないことに関する一般的な警告は別として)。このフォーラムでは、スプラインモデリング、Kolassa、Harrell、gungが優先されているようです。 多項式についてのブログ投稿を1つ見つけました。これは、多項式の予測について語る過剰適合の悪魔です。投稿はこれらのコメントで終わります: ここで紹介する例はある程度不正です—多項式回帰は非常にロバストでないことが知られています。実際には、多項式よりもスプラインを使用する方がはるかに優れています。 ここで、この例でスプラインがどのように機能するかを確認するように促されました。 library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- datadist(noise4[1:70], …

5
R-QQPlot:データが正規分布しているかどうかを確認する方法
Shapiro-Wilk正規性テストを行った後、これをプロットしました。テストでは、人口が正規分布している可能性が高いことが示されました。ただし、このプロットでこの「動作」を確認するにはどうすればよいですか? 更新 データの単純なヒストグラム: 更新 Shapiro-Wilkテストは次のように述べています。


4
ロジスティック回帰サブセットの選択方法は?
私はRに二項家族glmを当てはめており、説明変数のグループがあり、最良のものを見つける必要があります(測定値としてのR2乗は問題ありません)。説明変数のランダムな異なる組み合わせをループするスクリプトを記述してから、どれが最高のパフォーマンスを発揮するかを記録する以外には、どうすればいいかわかりません。また、leapsパッケージleapsの関数は、ロジスティック回帰を実行していないようです。 どんな助けや提案も大歓迎です。
47 r  logistic 

6
ベイジアン統計チュートリアル
ベイジアン統計で速度を上げようとしています。私は少し統計の背景(STAT 101)を持っていますが、あまり多くはありません-事前、事後、および可能性を理解できると思います:D。 まだベイジアンの教科書を読みたくありません。私はすぐに私を立ち上げるソース(ウェブサイトが望ましい)から読みたいです。このようなものですが、詳細があります。 何かアドバイス?

15
最も紛らわしい統計用語
統計学者は、他の人が使用する方法とは少し異なる方法で多くの単語を使用します。私たちが何をしているかを教えたり説明したりすると、これは多くの問題を引き起こします。リストを開始します(そして、コメントごとに定義を追加します)。 パワーとは、誤った帰無仮説を正しく拒否する能力です。通常、これは「何かが起こっている」と正しく言うことを意味します。 バイアス-統計は、それに関連する母集団パラメーターと体系的に異なる場合、バイアスがかけられます。 有意性-結果は、以下の状況で数パーセント(多くの場合5%)で統計的に有意です:サンプルが由来する母集団の真の効果が0の場合、少なくともサンプルから得られたものと同じくらい極端な統計が発生します時間の5%。 相互作用-従属変数と1つの独立変数との関係が他の独立変数の異なるレベルで異なる場合、2つの独立変数が相互作用します しかし、他にも多くの人がいる必要があります!

5
最初のRパッケージはソースコードをパッケージ化して、独自のパッケージを作成する準備をします
Rパッケージの作成を開始する予定です。 パッケージ構築の慣習を学ぶために、既存のパッケージのソースコードを調べるのは良いことだと思いました。 勉強する良いパッケージの私の基準: 単純な統計的/技術的アイデア:ポイントは、パッケージ構築の仕組みについて学ぶことです。パッケージを理解するために、パッケージの実際のトピックに関するドメイン固有の詳細な詳細な知識は必要ありません。 シンプルで従来型のコーディングスタイル:探しているのはそれ以上ではありHello Worldませんが、それ以上ではありません。特異なトリックとハックは、最初にRパッケージを学習するときに気が散ることになります。 良いコーディングスタイル:コードはよく書かれています。一般的に、適切なコーディングの一般的な理解と、Rでのコーディングの規則の認識の両方を明らかにします。 質問: どのパッケージが勉強に適していますか? 提案されたパッケージソースコードは、上記の基準または関連する可能性のある他の基準と比較して検討するのに適しているのはなぜですか? 更新(2010年12月13日) Dirkのコメントに続いて、多くのパッケージが最初に勉強するのが良いことは間違いないことを明確にしたかった。また、パッケージがさまざまなもの(ビネット、S3クラス、S4クラス、ユニットテスト、Roxygenなど)のモデルを提供することに同意します。それにも関わらず、良いパッケージから始める具体的な提案と、それらが良いパッケージになる理由を読むのは面白いでしょう。 また、上記の質問を更新して、「パッケージ」ではなく「パッケージ」を参照するようにしました。
47 r 

3
曲線形状に基づいて時系列クラスタリングを行うことは可能ですか?
一連のアウトレットの販売データがあり、時間の経過に伴うカーブの形状に基づいてそれらを分類したいと考えています。データはおおよそ次のように見えます(ただし、明らかにランダムではなく、データが欠落しています)。 n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, new.df) } …


14
信頼区間の解釈に関する明確化?
「信頼レベル信頼区間」という概念についての私の現在の理解は、信頼区間を何度も(毎回新鮮なサンプルで)計算しようとすると、正しいパラメーターが含まれることです。時間。1 - α1 - α1−α1 - \alpha1 - α1−α1 - \alpha これは「真のパラメーターがこの間隔にある確率」と同じではないことに気づきましたが、明確にしたいことがあります。 [メジャーアップデート] 95%の信頼区間を計算する前に、計算した区間が真のパラメーターをカバーする95%の確率があります。信頼区間を計算し、特定の区間を取得した後、これを言うことはできません。真のパラメーターがことを95%確信しているというある種の非頻度論的議論さえすることはできません。可能であれば、このような反例と矛盾するからです。正確には、信頼区間とは何ですか?[ a 、b ][ a 、b ][a,b][a,b][ a 、b ][a,b][a,b] これを確率論についての議論にしたくありません。代わりに、特定の間隔が表示される方法と理由について、その間隔を表示する前の95%の確率が正確に変化する(または変化しない)数学的な説明を探しています。あなたは「インターバルを見た後、確率の概念はもはや理にかなっている」と主張していない場合は、罰金、それはここで、確率の解釈での仕事をさせないメイクセンスを。[ a 、b ][a,b][a,b] より正確に: コンピューターをプログラムして95%の信頼区間を計算するとします。コンピューターはいくつかの計算処理を行い、間隔を計算し、パスワードを入力するまで間隔の表示を拒否します。パスワードを入力して間隔を確認する前(ただし、コンピューターが既に計算した後)、間隔に真のパラメーターが含まれる確率はどれくらいですか?95%であり、この部分は議論の余地はありません:これは、この特定の質問に興味がある確率の解釈です(私が抑制している主要な哲学的問題があることを認識し、これは意図的です)。 しかし、パスワードを入力して、コンピューターに計算された間隔を表示させると、確率(間隔に真のパラメーターが含まれる)が変わる可能性があります。この確率が決して変わらないという主張は、上記の反例と矛盾します。この反例では、確率は50%から100%に変化しますが、... 確率が100%または0%以外に変化する例はありますか(編集:もしそうなら、それらは何ですか)。 特定の間隔見ても確率が変わらない例はありますか(つまり、真のパラメーターがある確率はまだ95%です)。[ a 、b ][ a 、b ][a,b][a,b][ a 、b ][a,b][a,b] コンピューターが吐き出す見た後、一般に確率はどのように(そしてなぜ)変化しますか?[ a 、b ][a,b][a,b] [編集] すべての素晴らしい回答と有益な議論をありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.