統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


6
二項分布とベータ分布の関係
私は統計学者というよりもプログラマーなので、この質問があまりにも素朴ではないことを願っています。 ランダムにプログラムの実行をサンプリングするときに発生します。プログラムの状態のN = 10のランダムな時間のサンプルを取得すると、たとえば、それらのサンプルのI = 3で関数Fooが実行されていることがわかります。Fooが実行されている時間Fの実際の割合について、それが何を教えてくれるのか興味があります。 私は平均F * Nで二項分布していることを理解しています。IとNが与えられると、Fはベータ分布に従うことも知っています。実際、私はこれらの2つのディストリビューション間の関係をプログラムで検証しました。 cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1 問題は、私が関係について直感的な感覚を持っていないことです。なぜそれが機能するのかを「描く」ことはできません。 編集:すべての答えは、特に@whuberのように挑戦的でした。これはまだ理解する必要がありますが、統計を整理することは非常に役に立ちました。それにもかかわらず、私はもっと基本的な質問をするべきだったことに気付きました:IとNを考えると、Fの分布は何ですか?誰もがベータ版だと指摘しましたが、それは私が知っていました。私はついにウィキペディア(以前の共役)からそれがあるように思えたBeta(I+1, N-I+1)。プログラムでそれを調べた後、それは正しい答えのように見えます。だから、私が間違っているかどうかを知りたいです。そして、上記の2つのcdfの関係、なぜ合計が1になるのか、そして私が本当に知りたいことと何か関係があるのか​​どうか、まだ混乱しています。

9
大規模なデータセットを扱うための統計およびデータマイニングソフトウェアツール
現在、約2,000万件のレコードを分析し、予測モデルを作成する必要があります。これまでのところ、Statistica、SPSS、RapidMiner、Rを試しました。これらの中で、Statisticaはデータマイニングに最も適しているようで、RapidMinerユーザーインターフェイスも非常に便利ですが、Statistica、RapidMiner、およびSPSSは小さなデータセットにのみ適しているようです。 誰もが大規模なデータセットに適したツールを推奨できますか? ありがとうございます!

5
統計的観点から、観察研究で傾向スコアを使用して因果関係を推測できますか?
質問:統計学者(または開業医)の観点から、観察研究(実験ではなく)で傾向スコアを使用して因果関係を推測できますか? どうか、炎戦争や狂信的な議論を始めたくない。 背景: stat PhDプログラム内では、ワーキンググループといくつかのトピックセッションを通じて、因果推論のみに触れました。ただし、他の部門(HDFS、社会学など)には、それらを積極的に使用している非常に著名な研究者がいます。 私はすでにこの問題についてかなり白熱した議論を目撃しました。ここから開始するつもりはありません。とはいえ、どのような参考文献に遭遇しましたか?どのような視点がありますか?たとえば、因果推論手法としての傾向スコアに対して私が聞いた議論の1つは、変数バイアスが省略されているために因果関係を推測できないことです-重要な何かを省くと、因果連鎖を破ります。これは解決できない問題ですか? 免責事項:この質問には正しい答えがないかもしれません-cwをクリックすることで完全にクールですが、私は個人的に回答に非常に興味があり、実世界の例を含むいくつかの良い参考文献に満足しています。


4
スクラブルの文字の袋から単語を描画しない確率
タイルがあり、それぞれに文字が書かれたバッグがあるとします。あり文字'A'、とタイル 'B'で、というように、と 'ワイルドカード'タイルは、(私たちが持っている)。単語数が有限の辞書があるとします。交換せずにバッグからタイルを選びます。選択されたタイルが与えられた場合、辞書からゼロ語を形成できる確率をどのように計算(または推定)しますか?nnnnAnAn_AnBnBn_Bn∗n∗n_*n = nA+ nB+ … + nZ+ n∗n=nA+nB+…+nZ+n∗n = n_A + n_B + \ldots + n_Z + n_*kkkkkk Scrabble(TM)に慣れていない人には、ワイルドカード文字を使用して任意の文字と一致させることができます。したがって、単語[ BOOT ]は、タイル 'B'、 '*'、 'O'、 'T'で 'スペル'できます。 問題の規模を理解するために、は7のように小さく、は約100で、辞書にはサイズ以下の約100,000語が含まれています。kkknnnkkk 編集:「単語を形成する」とは、長さが以下の単語を意味します。したがって、単語[ A ]が辞書にある場合、バッグから単一の 'A'を描画するだけで、 '単語を形成しました'。辞書に長さ1の単語があると仮定できる場合、ワイルドカードの問題は根本的に単純化されます。存在する場合、ワイルドカードの描画は自動的に長さ1の単語に一致するため、ワイルドカードがない場合に集中できます。したがって、より滑りやすい形式の問題には、辞書に1文字の単語がありません。kkk また、バッグから文字が描画される順序は重要ではないことを明示的に述べる必要があります。単語の「正しい」順序で文字を描く必要はありません。


4
検証の精度が向上している一方で、検証の損失が増加している可能性はありますか
CIFAR10データセットで簡単なニューラルネットワークをトレーニングしています。しばらくすると、検証の損失が増加し始めましたが、検証の精度も向上しています。テストの損失とテストの精度は向上し続けています。 これはどのように可能ですか?検証損失が増加すると、精度が低下するようです。 PS似たような質問がいくつかありますが、そこで何が起こっているのか誰も説明しませんでした。

2
精度-リコール曲線下面積(PR曲線のAUC)および平均精度(AP)
平均精度(AP)は、精度-リコール曲線(PR曲線のAUC)の下の面積ですか? 編集: PR AUCとAPの違いに関するコメントを次に示します。 AUCは、精度の台形補間によって取得されます。代替の通常ほぼ同等のメトリックは、info.apとして返されるAverage Precision(AP)です。これは、新しい陽性サンプルが呼び出されるたびに取得される精度の平均です。精度が定数セグメントによって補間される場合、AUCと同じであり、TRECが最も頻繁に使用する定義です。 http://www.vlfeat.org/overview/plots-rank.html また、AUC及びaverage_precision_score結果は、学習scikitに同じではありません。これは奇妙なことです。なぜなら、ドキュメントには次のようなものがあるからです。 予測スコアから平均精度(AP)を計算するこのスコアは、精度-想起曲線の下の領域に対応します。 コードは次のとおりです。 # Compute Precision-Recall and plot curve precision, recall, thresholds = precision_recall_curve(y_test, clf.predict_proba(X_test)[:,1]) area = auc(recall, precision) print "Area Under PR Curve(AP): %0.2f" % area #should be same as AP? print 'AP', average_precision_score(y_test, y_pred, average='weighted') print 'AP', average_precision_score(y_test, y_pred, average='macro') print …

2
なげなわペナルティが二重指数関数(ラプラス)事前に等しいのはなぜですか?
回帰パラメーターベクトルのLasso推定値は、各事前分布が二重指数分布(ラプラス分布とも呼ばれる)であるBBBの事後モードと同等であることを多くの参考文献で読みました。BBBBiBiB_i 私はこれを証明しようとしましたが、誰かが詳細を具体化できますか?

6
なぜ重みが小さくなると正則化のモデルが単純になるのですか?
私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。 正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。 これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。 私の混乱は、私たちがウェイトのサイズにペナルティを科す理由ですか?ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか?Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。 Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み(x ^ 3およびx ^ 4)がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。 私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります(重みの小さい特徴は関数の基礎に似ているため)。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。

1
lmer混合効果モデルのpredict()関数
問題: [R]の混合効果{lme4}モデルでは利用できない他の投稿を読みました。predictlmer おもちゃのデータセットでこのテーマを探ってみました... バックグラウンド: データセットはこのソースから適応され、次のように利用できます... require(gsheet) data <- read.csv(text = gsheet2text('https://docs.google.com/spreadsheets/d/1QgtDcGJebyfW7TJsB8n6rAmsyAnlz1xkT3RuPFICTdk/edit?usp=sharing', format ='csv')) これらは最初の行とヘッダーです: > head(data) Subject Auditorium Education Time Emotion Caffeine Recall 1 Jim A HS 0 Negative 95 125.80 2 Jim A HS 0 Neutral 86 123.60 3 Jim A HS 0 Positive 180 204.00 4 Jim A …

4
scikit-learn(またはその他のPythonフレームワーク)を使用したさまざまな種類のリグレッサのアンサンブル
回帰タスクを解決しようとしています。LassoLARS、SVR、およびGradient Tree Boostingの3つのモデルがデータのさまざまなサブセットに対してうまく機能していることがわかりました。これら3つのモデルすべてを使用して予測を行い、次に「真の出力」と3つのモデルの出力のテーブルを作成すると、少なくとも1つのモデルが真の出力に実際に近いことがわかります。比較的遠く離れている可能性があります。 最小限のエラーを計算すると(各テスト例の「最良の」予測子から予測を取得した場合)、モデルのみのエラーよりもはるかに小さいエラーが発生します。そこで、これら3つの異なるモデルの予測を何らかのアンサンブルに結合しようと考えました。質問は、これを適切に行う方法ですか?3つのモデルはすべてscikit-learnを使用して構築および調整されていますが、アンサンブルにモデルをパックするために使用できる何らかの方法を提供していますか?ここでの問題は、3つのモデルすべてからの予測を単に平均化するのではなく、特定の例のプロパティに基づいて重み付けを決定する必要がある重み付けでこれを実行することです。 scikit-learnがそのような機能を提供しない場合でも、誰かがこのタスクに対処する方法を知っていれば、データ内の各例の各モデルの重みを把握するのがいいでしょう。これらの3つのモデルすべての上に構築された個別のリグレッサーによって実行される可能性があると思いますが、3つのモデルのそれぞれに最適な重みを出力しようとしますが、これがこれを行う最善の方法であるかどうかはわかりません。

2
クラスタリングでバイナリ変数と連続変数の両方を一緒に使用する方法は?
k-meansでバイナリ変数(値0および1)を使用する必要があります。ただし、k-meansは連続変数でのみ機能します。一部の人々は、k-meansが連続変数に対してのみ設計されているという事実を無視して、k-meansでこれらのバイナリ変数をまだ使用していることを知っています。これは私には受け入れられません。 質問: それでは、k-means /階層的クラスタリングでバイナリ変数を使用する統計的/数学的に正しい方法は何ですか? SAS / Rでソリューションを実装する方法は?

5
まれなイベントのロジスティック回帰に対処する戦略
限られた人口の中でまれな出来事を研究したいと思います。どの戦略が最適かわからないので、この問題に関連するヒントと参考文献をいただければ幸いです。どこから始めればいいか分からない。 私の問題は政治学の問題であり、515,843のレコードからなる有限の人口を持っています。これらは、513,334個の「0」と2,509個の「1」を持つバイナリ従属変数に関連付けられています。人口の0.49%しか占めていないため、「1」をまれなイベントとして作成できます。 「1」の存在を説明するためにモデルを構築したい約10個の独立変数のセットがあります。私たちの多くと同様に、私はKing&Zengの2001年のまれなイベントの修正に関する記事を読みました。彼らのアプローチは、ケースコントロール設計を使用して「0」の数を減らし、インターセプトに修正を適用することでした。 ただし、この投稿では、King&Zengの議論は、母集団全体で既にデータを収集している場合は必要ないと述べています。これは私の場合です。したがって、古典的なロジットモデルを使用する必要があります。私にとって残念なことに、有意な係数は得られますが、私のモデルは予測の観点からはまったく役に立ちません(私の「1」の99.48%を予測できません)。 King&Zengの記事を読んだ後、ケースコントロールデザインを試したいと思い、すべての「1」で「0」の10%だけを選択しました。ほぼ同じ係数で、モデルは全母集団に適用された場合、「1」のほぼ3分の1を予測することができました。もちろん、多くの偽陽性があります。 したがって、3つの質問があります。 1)人口に関する十分な知識があるときにKing&Zengのアプローチが不利な場合、記事で人口を知っている状況を使用して、そのポイントを証明するのはなぜですか? 2)ロジット回帰の係数が十分であり、予測力が非常に低い場合、これらの変数によって説明される変動は無意味であることを意味しますか? 3)まれなイベントに対処するための最良のアプローチは何ですか?キングのリロジットモデル、ファースのアプローチ、正確なロジットなどについて読んだ。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.