統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
いつ連続的な独立変数/機能を離散化/ビン化すべきか、そうすべきではないのか?
いつ独立変数/機能を離散化/ビン化する必要がありますか? 質問に答える私の試み: 一般に、ビニングは情報を失うため、ビン化するべきではありません。 ビニングは、実際にはモデルの自由度を高めているため、ビニング後に過剰適合を引き起こす可能性があります。「高バイアス」モデルがある場合、ビニングは悪くないかもしれませんが、「高分散」モデルがある場合、ビニングを避ける必要があります。 使用しているモデルによって異なります。それが線形モードであり、データに多くの「外れ値」がある場合、ビニング確率が優れています。ツリーモデルがある場合、外れ値とビニングはあまりにも大きな違いを生みます。 私は正しいですか?そして他に何? この質問は何度も聞かれるべきだと思ったが、これらの投稿だけでは履歴書で見つけることができない 連続変数をビン化する必要がありますか? 連続予測変数を分割することの利点は何ですか?

7
誰かが独立とランダムの違いを説明するのを助けることができますか?
統計では、独立とランダムは同じ特性を記述していますか?それらの違いは何ですか?「2つの独立したランダム変数」や「ランダムサンプリング」などの説明によく出くわします。それらの正確な違いは何だろうと思っています。誰かがこれを説明し、いくつかの例を挙げることができますか?たとえば、独立ではないがランダムなプロセスですか?

2
制限付きボルツマンマシン:機械学習でどのように使用されますか?
バックグラウンド: はい、制限付きボルツマンマシン(RBM)を使用して、ニューラルネットワークの重みを開始できます。また、深い信念ネットワークを構築するための「層ごとの」方法で使用することができる訓練すること、である(の上に番目の層(N - 1 )、次いで番目の層、及び訓練しますの上に層目番目の層、リンスを繰り返し...) nnn(n − 1 )(n−1)(n-1)n + 1n+1n+1nnn。 RBMの使用方法については、制限付きボルツマンマシン(RBM)の優れたチュートリアルのスレッドから詳細を見つける ことができます。ここでは、いくつかの論文やチュートリアルを見つけることができます。 私の質問は次のとおりです。 RBMは産業プロジェクトまたは学術プロジェクトで実際に使用されていますか はいの場合、どのプロジェクトがどのように使用されていますか? 人気のあるライブラリ(tensorflow、Caffe、Theonoなど)はRBMモジュールを提供しますか? 共有してくれてありがとう。RBMが実際に本当に役立つかどうか知りたいです。

4
相関の基礎となる仮定と有意性の回帰勾配検定の違い
私の質問は、別の質問のコメントでの@whuberとの議論から生まれました。 具体的には、@ whuberのコメントは次のとおりです。 驚くかもしれない理由の1つは、相関テストと回帰スロープテストの基礎となる仮定が異なることです。そのため、相関とスロープが実際に同じものを測定していることを理解したとしても、なぜそれらのp値は同じである必要があるのでしょうか?これは、これらの問題が単にとが数値的に等しいかどうかよりも深くなることを示しています。rrrββ\beta これは私の考えを得て、私はさまざまな興味深い答えに出くわしました。たとえば、「相関係数の仮定」という質問を見つけましたが、上記のコメントがどのように明確になるかわかりません。 ピアソンのと傾きの関係について、単純な線形回帰でもっと面白い答えを見つけました(こことここを例に参照)私に)。rrrββ\beta 質問1:相関テストと回帰スロープテストの基礎となる仮定は何ですか? 2番目の質問では、次の出力を検討してRください。 model <- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min 1Q Median 3Q Max -1.4362 -0.9740 0.2021 0.5531 1.9048 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.3807 4.4224 1.895 0.0789 . …

5
オーバーフィッティング:特効薬はありませんか?
私の理解では、適切な相互検証とモデル選択手順を踏んだとしても、モデルの複雑さ、期間に制限を課さない限り、モデルを十分に検索すると過適合が発生します。さらに、多くの場合、人々は、提供できる保護を損なうデータからモデルの複雑さに対する罰則を学ぼうとします。 私の質問は次のとおりです。上記の声明にはどれほど真実がありますか? MLの専門家は、「私の会社/研究室では、利用可能なすべてのモデル(キャレットやscikit-learnなどのライブラリから)を常に試して、どれが最適かを確認します」とよく耳にします。私はしばしば、このアプローチは交差検証に真剣であり、任意の方法でホールドアウトセットを保持している場合でも簡単にオーバーフィットできると主張します。さらに、検索が難しくなればなるほど、オーバーフィットする可能性が高くなります。言い換えれば、過剰な最適化は本当の問題であり、体系的にそれと戦うのに役立つ経験則はありません。このように考えるのは間違っていますか?

3
カーネル化されたSVMでGradient Descentは可能ですか(可能であれば、なぜ人々は2次プログラミングを使用するのですか)
カーネル化されたSVMを扱うときに、なぜ人々は2次計画法(SMOなど)を使用するのですか?Gradient Descentの何が問題になっていますか?カーネルで使用することは不可能ですか、それとも遅すぎますか(およびその理由)。 ここにもう少しコンテキストがあります:SVMをもう少しよく理解しようとして、私は次のコスト関数を使用して線形SVM分類器を訓練するために勾配降下を使用しました: J(w、b )= C∑i = 1mM X ( 0 、1 - Y(i )(wt⋅ X(i )+ b ))+12wt⋅ ワットJ(w、b)=C∑私=1mmaバツ(0、1−y(私)(wt⋅バツ(私)+b))+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} 私は次の表記法を使用しています: ww\mathbf{w}はモデルの特徴の重みであり、はそのバイアスパラメーターです。bbb バツ(i )バツ(私)\mathbf{x}^{(i)}は、トレーニングインスタンスの特徴ベクトルです。私番目私番目i^\text{th} y(i )y(私)y^{(i)}は、インスタンスのターゲットクラス(-1または1)です。私番目私番目i^\text{th} mmmはトレーニングインスタンスの数です。 CCCは正則化ハイパーパラメーターです。 この方程式から(およびに関して)(サブ)勾配ベクトルを導き出しましたが、勾配降下はうまく機能しました。ww\mathbf{w}bbb …

1
同じ箱とひげのプロット(平均/標準/中央値/ MAD /最小/最大)を持つAnscombeのようなデータセット
編集:この質問が膨らんだので、要約:同じ混合統計(平均、中央値、ミッドレンジ、およびそれらに関連する分散、および回帰)を持つ異なる意味のある解釈可能なデータセットを見つけます。 Anscombeカルテット(高次元データを視覚化する目的を参照してください)は、同じ周辺平均/標準偏差(4つのと4つので別々に)と同じOLS線形フィットを持つ4つの -データセットの有名な例です、回帰および残差平方和、相関係数。したがって、タイプの統計(周辺および結合)は同じですが、データセットはまったく異なります。y x yxxxyyyxxxyyyℓ 2R2R2R^2ℓ2ℓ2\ell_2 編集(OPコメントから)小さいデータセットサイズを別にして、いくつかの解釈を提案させてください。セット1は、分布ノイズとの標準的な線形(アフィン、正確には)関係として見ることができます。セット2は、より高度な適合の絶頂である可能性のあるきれいな関係を示しています。セット3は、1つの外れ値を持つ明確な線形統計依存性を示しています。セット4はよりトリッキーですからを「予測」する試みは失敗に結びついているようです。の設計により、値の範囲が不十分なヒステリシス現象、量子化効果(が過度に量子化される可能性があります)、またはユーザーが従属変数と独立変数を切り替えました。x x xyyyxxxxxxxxx したがって、サマリー機能は非常に異なる動作を隠します。セット2は、多項式近似によりうまく対処できます。セット4と同様に、外れ値に耐性のあるセット(など)およびセット4。編集(OPコメントから):ブログ投稿Curious Regressionsは次のように述べています:ℓ 1ℓ2ℓ2\ell_2ℓ1ℓ1\ell_1 ちなみに、Frank Anscombeがこれらのデータセットをどのように思いついたかは明らかにしなかったと聞いています。要約統計量と回帰結果をすべて同じにすることが簡単な作業だと思う場合は、試してみてください! でアンスコムの例と同様の目的のために構築されたデータセット、いくつかの興味深いデータセットは、同じ位数ベースのヒストグラムと、たとえば、与えられています。意味のある関係と統計の混合が見られませんでした。 私の質問は次のとおりℓ2ℓ2\ell_2です。同じタイプの統計を持つことに加えて、2変量(または視覚化を維持するための3変量)Anscombeのようなデータセットがあります。 それらのプロットは、測定と測定の間の法則を探しているかのように、と 関係として解釈できます。yxxxyyy それらは同じ(より堅牢な)限界特性(同じ中央値と絶対偏差の中央値)を持ち、ℓ1ℓ1\ell_1 同じ境界ボックス:同じ最小値、最大値(したがってタイプのミッドレンジおよびミッドスパン統計)。ℓ∞ℓ∞\ell_\infty このようなデータセットは、各変数に同じ「箱ひげ」プロットの要約(最小、最大、中央値、絶対偏差/ MADの中央値、平均、標準)を持ち、解釈がまったく異なります。 少なくとも絶対回帰がデータセットで同じである場合はさらに興味深いでしょう(しかし、私はすでにあまりにも多くを求めています)。ロバストな回帰とロバストでない回帰について説明する際の注意点として、リチャードハミングの引用を覚えておいてください。 計算の目的は、数値ではなく洞察です 編集(OPコメントから)同様の問題は、同一の統計情報を使用したデータの生成、非類似グラフィックス、Sangit Chatterjee&Aykut Firata、The American Statistician、2007、またはクローンデータ:まったく同じ多重線形回帰近似Jでのデータセットの生成で扱われますオースト。N.-Z. 統計 J. 2009。 Chatterjee(2007)の目的は、同じ平均と初期データセットからの標準偏差を持つ新しいペアを生成し、異なる「相違/相違」目的関数を最大化することです。これらの関数は非凸関数または非微分関数になる可能性があるため、遺伝的アルゴリズム(GA)を使用します。重要な手順はオルソ正規化で構成されます。これは、平均と(単位)分散の保存と非常に一貫しています。論文の数字(論文の内容の半分)は、入力データとGA出力データを重ね合わせます。私の意見では、GA出力は元の直感的な解釈の多くを失います。(x,y)(x,y)(x,y) 技術的には、中央値も中間値も保持されず、論文では、、および統計を保持する繰り込み手順については言及されていません。ℓ 1ℓ2ℓ2\ell_2ℓ1ℓ1\ell_1ℓ∞ℓ∞\ell_\infty


2
ニューラルネットワークの強化
つい最近、私はアダブースト、勾配ブーストなどのブースティングアルゴリズムの学習に取り組んでおり、最も一般的に使用される弱学習器はツリーであるという事実を知っています。基本学習者としてニューラルネットワークを使用するための最近の成功例(論文または記事を意味します)があることを本当に知りたいです。

4
「半教師付き学習」-これは過剰適合ですか?
私は、Kaggleコンペティション(マルウェア分類)の勝利ソリューションのレポートを読んでいました。レポートはこのフォーラムの投稿にあります。問題は、トレインセットに10000個の要素、テストセットに10000個の要素がある分類問題(9つのクラス、メトリックは対数損失)でした。 競争中、モデルはテストセットの30%に対して評価されました。もう1つの重要な要素は、モデルのパフォーマンスが非常に優れていたことです(100%に近い精度) 著者は次の手法を使用しました。 もう1つの重要なテクニックは、半教師あり学習です。最初に、最適なモデルの最大確率を選択して、テストセットの擬似ラベルを生成します。次に、トレインデータとテストデータの両方を使用して、クロス検証方式でテストセットを再度予測します。たとえば、テストデータセットは4つのパートA、B、C、Dに分割されます。トレーニングデータ全体と、疑似ラベル付きのテストデータA、B、Cを新しいトレーニングセットとして使用し、テストを予測します。 Dを設定します 同じ方法を使用してA、B、Cを予測します。Xiaozhouによって発明されたこのアプローチは驚くほどうまく機能し、ローカルクロス検証損失、パブリックLB損失、プライベートLB損失を削減します。最高の半教師あり学習モデルは、プライベートLBログ損失で0.0023を達成できます。これは、すべてのソリューションで最高のスコアです。 結果をどのように改善できるのか、本当にわかりません。それは、テストセットの30%が「漏出」し、この情報を使用する方法だったからでしょうか。 それとも、なぜ機能するのかを説明する理論的な理由はありますか?

2
不均衡なデータのロジスティック回帰に重みを追加する
不均衡なデータ(9:1)でロジスティック回帰をモデル化します。glmR の関数でweightsオプションを試してみたかったのですが、それが何をするのか100%確信できません。 私の出力変数がであるとしましょうc(0,0,0,0,0,0,0,0,0,1)。今、私は「1」に10倍の重みを与えたいです。だから私は重みの引数を与えますweights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 私がそれをするとき、それは最尤法の計算で考慮されます。私は正しいですか?「1」の誤分類は、「0」の誤分類よりも10倍悪いだけです。

3
トレーニングとして肯定的なケースのみで結果を予測する方法は?
簡単にするために、スパム/非スパム電子メールの典型的な例に取り組んでいるとしましょう。 20000通のメールがあります。これらのうち、2000年はスパムであることは知っていますが、スパムではないメールの例はありません。残りの18000がスパムかどうかを予測したいと思います。理想的には、私が探している結果は、電子メールがスパムである確率(またはp値)です。 この状況で賢明な予測を行うために、どのアルゴリズムを使用できますか? 現時点では、距離ベースの方法で、自分のメールが既知のスパムメールにどれだけ似ているかを考えています。どのようなオプションがありますか? より一般的には、教師あり学習方法を使用できますか、それを行うためにトレーニングセットに否定的なケースが必要になる必要がありますか?教師なし学習アプローチに限定されていますか?半教師あり方法はどうですか?

1
ブートストラップとベイジアンブートストラップの概念は?
ベイジアンブートストラッププロセスとは何か、それが通常のブートストラップとどのように異なるかを理解するのに苦労しています。誰かが両方の直感的/概念的なレビューと比較を提供できれば、それは素晴らしいことです。 例を見てみましょう。 [1,2,5,7,3]であるデータセットXがあるとします。 置換で複数回サンプリングして、Xのサイズに等しいサンプルサイズ([7,7,2,5,7]、[3,5,2,2,7]など)を作成し、その後、それぞれの平均を計算し、サンプルのブートストラップ分布は平均ですか? そのベイジアンブートストラップ分布は何でしょうか? そして、他のパラメーター(分散など)のベイジアンブートストラップ分布は同じ方法でどのように行われますか?

1
カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合
GLMフレームワーク内で、どの回帰タイプ(幾何、ポアソン、負の二項)をカウントデータと共に使用するのが適切な場合、自分でレイアウトしようとしています(8つのGLM分布のうち3つだけがカウントデータに使用されますが、負の二項分布とポアソン分布を中心に読みました)。 カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合 これまでのところ、次のロジックがあります:データをカウントしますか?はいの場合、平均と分散は等しくありませんか?はいの場合、負の二項回帰。いいえの場合、ポアソン回帰。ゼロインフレはありますか?はいの場合、ゼロ膨張ポアソンまたはゼロ膨張負の二項。 質問1いつ使用するかについて明確な指示がないようです。その決定を知らせる何かがありますか?私が理解していることから、ZIPに切り替えると、平均分散が等しいという仮定が緩和されるため、再びNBとかなり似たものになります。 質問2幾何学ファミリをこれに当てはめる場所、または回帰で幾何学ファミリを使用するかどうかを決定する際に、どのような種類の質問をデータに求めるべきですか? 質問3負の二項分布とポアソン分布を常に交換しているが、幾何学的ではない人がいるので、いつ使用するかについて明確に異なるものがあると推測しています。もしそうなら、それは何ですか? PS 議論のために人々がそれをコメント/微調整したい場合、私は現在の理解の図(編集可能)を(おそらくは簡略化して)作成しました。

1
ROC曲線の分析のためにベイジアン法を発明したのですか?
前文 これは長い投稿です。これを読み直している場合は、質問の部分を修正したことに注意してください。ただし、背景資料は同じままです。さらに、私は問題の解決策を考案したと信じています。そのソリューションは、投稿の下部に表示されます。私の元のソリューション(この投稿から編集済み。そのソリューションの編集履歴を参照)が必然的に偏った推定値を生成したことを指摘してくれたCliffABに感謝します。 問題 機械学習の分類問題において、モデルのパフォーマンスを評価する1つの方法は、ROC曲線、またはROC曲線下面積(AUC)を比較することです。ただし、ROC曲線またはAUCの推定値の変動性についてはほとんど議論されていません。つまり、それらはデータから推定された統計であるため、いくつかのエラーが関連付けられています。これらの推定値の誤差を特徴付けることは、たとえば、ある分類器が実際に別の分類器より優れているかどうかを特徴付けるのに役立ちます。 この問題に対処するために、ROC曲線のベイズ分析と呼ばれる次のアプローチを開発しました。問題についての私の考えには、2つの重要な所見があります。 ROC曲線は、データから推定された量で構成されており、ベイズ分析に適しています。 ROC曲線は、真の陽性率を偽陽性率F P R (θ )に対してプロットすることで構成されます。それぞれ、データから推定されます。θのT P RおよびF P R関数、クラスAをBからソートするために使用される決定しきい値(ランダムフォレストでのツリー投票、SVMでの超平面からの距離、ロジスティック回帰での予測確率など)を検討します。判定閾値の値が変化θは、別の見積もりを返しますT P RをTPR (θ )TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta)TPRTPRTPRFPRFPRFPRθθ\thetaθθ\thetaTPRTPRTPRおよび。さらに、T P R (θ )は一連のベルヌーイ試行における成功確率の推定値であると考えることができます。実際、TPRはT Pとして定義されていますFPRFPRFPRTPR(θ)TPR(θ)TPR(\theta)また、用いた実験において二項成功確率のMLEであるTPの成功とTP+FN>0合計試験。TPTP+FN,TPTP+FN,\frac{TP}{TP+FN},TPTPTPTP+FN>0TP+FN>0TP+FN>0 とF P R (θ )の出力をランダム変数と考えると、成功と失敗の数が正確にわかっている二項実験の成功確率を推定する問題に直面します(T P、F P、F N、およびT Nによって与えられ、これらはすべて固定されていると仮定します)。従来、単純にMLEを使用し、TPRとFPRがθの特定の値に対して固定されていると仮定しています。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta)TPTPTPFPFPFPFNFNFNTNTNTNθθ\theta。しかし、ROC曲線のベイジアン分析では、ROC曲線の事後分布からサンプルを描画することで得られるROC曲線の事後シミュレーションを描画します。この問題の標準的なベイジアンモデルは、成功確率に優先するベータを持つ二項尤度です。成功確率の事後分布もベータなので、各、TPRおよびFPR値の事後分布があります。これにより、2番目の観察結果が得られます。θθ\theta ROC曲線は減少していません。そうつのいくつかの値をサンプリングいったん及びF P R (θに)、サンプリングポイントのROC空間「南東」の点をサンプリングするゼロ可能性があります。しかし、形状に制約のあるサンプリングは難しい問題です。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta) ベイジアンアプローチを使用して、単一の推定セットから多数のAUCをシミュレートできます。たとえば、20個のシミュレーションは、元のデータと比較すると次のようになります。 この方法には多くの利点があります。たとえば、1つのモデルのAUCが別のモデルよりも大きい確率は、事後シミュレーションのAUCを比較することで直接推定できます。分散の推定値は、リサンプリング方法よりも安価なシミュレーションを介して取得できます。これらの推定値は、リサンプリング方法から生じる相関サンプルの問題を引き起こしません。 溶液 上記の2つに加えて、問題の性質について3番目と4番目の観察を行うことにより、この問題の解決策を開発しました。 および F P R (θ )には、シミュレーションに適した周辺密度があります。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta) 場合(副F P R …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.