統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
加重標準偏差を計算するにはどうすればよいですか?Excelで?
だから、私はそのようなパーセンテージのデータセットを持っています: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) パーセンテージの標準偏差を見つけたいのですが、データ量に重みがあります。つまり、最初と最後のデータポイントが計算を支配する必要があります。 それ、どうやったら出来るの?そして、Excelでそれを行う簡単な方法はありますか?

3
コルモゴロフ-スミルノフ検定は離散分布で有効ですか?
サンプルを比較し、それが何らかの離散的な分布として分布しているかどうかを確認しています。しかし、コルモゴロフ-スミルノフが適用されるかどうかは、私は不確かです。ウィキペディアはそうではないことを暗示しているようです。そうでない場合、サンプルの分布をどのようにテストできますか?

6
バイナリ分類の変数選択手順
学習セットの観測値よりも多くの変数/機能がある場合、バイナリ分類に適した変数/機能の選択は何ですか?ここでの目的は、分類エラーを最適に削減する機能選択手順を説明することです。 一貫性の表記法を修正できます:場合、をグループからの観測値の学習セットとします。したがって、は学習セットのサイズです。私たちは、セット多くの特徴(特徴空間の次元をIE)であることを。ましょ表すの座標番目の。i∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p 詳細を提供できない場合は、完全な参考文献を提供してください。 編集(継続的に更新):以下の回答で提案されている手順 貪欲な前方選択 バイナリ分類のための変数選択手順 バイナリ消去のための後方消去変数選択手順 メトロポリススキャン/ MCMC バイナリ分類の変数選択手順 ペナルティ付きロジスティック回帰 バイナリ分類の変数選択手順 これはコミュニティWikiであるため、より多くの議論と更新があります。 ある意味で、変数の順序付けは許可するが変数の選択は許可しない手順を提供します(機能の数の選択方法については非常にわかりにくいので、クロス検証を使用すると思いますか?)この方向の答えは?これはあなたが変数の数を選択する方法についての情報を追加するために、回答writterするコミュニティ必要はありませんされてウィキとして(?私はここで、この方向での質問opennedているの数を選択することが非常に高い次元でのクロス検証を(非常に高次元の分類で使用される変数))

11
統計ポッドキャスト
統計分析に関連するポッドキャストとは何ですか?ITunes Uでの大学の講義の録音をいくつか見つけましたが、統計ポッドキャストについては知りません。私が知っている最も近いものは、オペレーションズリサーチポッドキャストThe Science of Betterです。統計的な問題に触れますが、特に統計的なショーではありません。
29 references 

3
PCAを介して直交回帰(合計最小二乗)を実行する方法は?
私は常にlm()R での線形回帰を実行するために使用します。この関数は、ような係数返しますyyyxxxββ\betay=βx.y=βx.y = \beta x. 今日、私は総最小二乗について学び、そのprincomp()機能(主成分分析、PCA)を使用してそれを実行できることを学びました。それは私にとって良いはずです(より正確に)。を使用していくつかのテストを行いましたprincomp(): r <- princomp( ~ x + y) 私の問題は、結果をどのように解釈するかです。回帰係数を取得するにはどうすればよいですか?「係数」とは、値を掛けて近い数を与えるために使用しなければならない数を意味します。ββ\betaxxxyyy

6
有限分散をテストしますか?
サンプルが与えられたランダム変数の分散の有限性(または存在)をテストすることは可能ですか?nullとして、{分散が存在し有限である}または{分散が存在しない/無限である}のいずれかが受け入れられます。哲学的に(そして計算上)、これは非常に奇妙に思えます。なぜなら、有限分散のない母集団と非常に大きな分散(例えば、> )の母集団の間に差がないはずなので、この問題が解決できるとは思えません。104001040010^{400} 私に提案された1つのアプローチは、中央限界定理によるものでした:サンプルがiidであり、母集団が有限平均を持っていると仮定すると、サンプルサイズが大きくなるにつれてサンプル平均に正しい標準誤差があるかどうかを何らかの方法でチェックできます。ただし、この方法が機能するかどうかはわかりません。(特に、適切なテストにする方法がわかりません。)

6
d20の公平性をテストするにはどうすればよいですか?
20面ダイス(d20)の公平性をテストするにはどうすればよいですか?明らかに、値の分布を均一な分布と比較することになります。私は大学でカイ二乗検定を使用したことを漠然と覚えています。これを適用して、ダイスが公平かどうかを確認するにはどうすればよいですか?

1
ブートストラップ予測間隔
線形回帰または他の回帰法(k最近傍、回帰木など)から得られたポイント予測の予測間隔を計算するために利用可能なブートストラップ手法はありますか? どういうわけか、ポイント予測(たとえば、kNN回帰の予測区間を参照)を単にブートストラップするために時々提案される方法は、予測区間ではなく信頼区間を提供していると感じています。 Rの例 # STEP 1: GENERATE DATA set.seed(34345) n <- 100 x <- runif(n) y <- 1 + 0.2*x + rnorm(n) data <- data.frame(x, y) # STEP 2: COMPUTE CLASSIC 95%-PREDICTION INTERVAL fit <- lm(y ~ x) plot(fit) # not shown but looks fine with respect to all relevant …

1
平均絶対パーセント誤差(MAPE)の欠点は何ですか?
平均絶対誤差率(MAPEは)、時系列や他の予測のための共通の精度や誤差尺度であり、 MAPE = 100n∑t = 1n| At− Ft|At%、メイプ=100n∑t=1n|At−Ft|At%、 \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, ここで、は実績であり、AtAtA_t対応する予測または予測です。FtFtF_t MAPEはパーセンテージであるため、シリーズ間で簡単に比較でき、人々はパーセンテージを簡単に理解して解釈できます。 ただし、MAPEには欠点があると聞きました。私はMAPEまたはMSE(のようないくつかの代替使用するかどうかについての情報に基づいた意思決定することができますので、私はより良いこれらの欠点を理解したいと思いMSE)、MAE(メイ)またはMASE(間瀬を)。
29 accuracy  mape 

2
階層化されたクロス検証を使用する理由 なぜこれが分散に関連する利益に損害を与えないのですか?
特に応答クラスのバランスが取れていない場合は、階層化されたクロス検証を使用すると有益だと言われています。交差検証の目的の1つが元のトレーニングデータサンプルのランダム性を説明することである場合、元のトレーニングセットに代表的なクラス分布があることが確実でない限り、各フォールドに同じクラス分布を持たせることはこれに対して確実に機能します。 私の論理に欠陥はありますか? 編集 この方法がCVの利益を損なうかどうかに興味があります。フォールドにマイナークラスの単一の代表者がいないことを回避するために、小さなサンプル/非常に不均衡なクラス/両方がある場合に必要な理由がわかります。 論文クロスバリデーション研究におけるApples-to-Apples:Classifier Performance Measurementの落とし穴は、層別化のケースをうまく提唱していますが、すべての議論は「層別化が保護と一貫性を提供する」に等しいようですが、十分な保護は必要ありませんデータ。 答えは単に「データが十分にあることはめったにないので、不必要に使用します」です。?

1
ポアソンモデルの相互検証のエラーメトリック
カウントを予測しようとしているモデルを相互検証しています。これがバイナリ分類の問題である場合は、フォールドアウトAUCを計算し、これが回帰問題である場合は、フォールドアウトRMSEまたはMAEを計算します。 ポアソンモデルの場合、サンプル外予測の「精度」を評価するためにどのエラーメトリックを使用できますか?AUCのポアソン拡張で、予測が実際の値をどの程度適切に並べるかを調べますか? カウントのための多くのKaggleコンテスト(たとえば、yelpレビューで得られる有用な投票数、または患者が病院で過ごす日数)は、二乗平均平方根誤差、またはRMLSEを使用しているようです。 /編集:私がやっていることの1つは、予測値の10分の1を計算してから、十分な数でビニングされた実際のカウントを調べることです。十分位数1が低く、十分位数10が高く、その間の十分位数が厳密に増加している場合、モデルを「良い」と呼んでいますが、このプロセスを定量化するのに苦労しており、より良い方法があると確信していますアプローチ。 /編集2:予測値と実際の値を取得し、「エラー」または「精度」メトリックを返す数式を探しています。私の計画は、交差検証中にフォールド外データでこの関数を計算し、それを使用してさまざまなモデル(ポアソン回帰、ランダムフォレスト、GBMなど)を比較することです。 たとえば、そのような関数の1つですRMSE = sqrt(mean((predicted-actual)^2))。別のそのような関数はAUCです。どちらの関数もポアソンデータには適切でないようです。

4
マクファデンの疑似R2解釈
支払い(1 =支払い、0 =支払いなし)と呼ばれる従属変数を持つMcFaddenの疑似R-2乗0.192のバイナリロジスティック回帰モデルがあります。この擬似R-2乗の解釈は何ですか? ネストされたモデルの相対比較ですか(たとえば、6変数モデルのMcFaddenの疑似R-2乗は0.192ですが、5変数モデル(前述の6変数モデルから1つの変数を削除した後)、この5変数モデルには疑似R 0.131の2乗。モデルにその6番目の変数を保持しますか?または絶対量です(たとえば、McFaddenの擬似Rが0.192の特定のモデルは、McFaddenの擬似を持つ既存のモデルよりも優れています) 0.180のR二乗(ネストされていないモデルでも)?これらはMcFaddenの擬似R二乗を見るための単なる可能な方法です;しかし、私はこれらの2つのビューが道を外れていると仮定しているため、ここでこの質問をしています。 私はこのトピックについて多くの研究を行ってきましたが、McFaddenの疑似R 2乗0.192を解釈できるという観点で、私が探している答えをまだ見つけていません。洞察や参考文献は大歓迎です!この質問に答える前に、これがロジスティック回帰モデルを説明するのに最適な尺度ではないことを認識していますが、この統計をより深く理解したいと思います!


3
scikit-learnを使用した多項式回帰
多項式回帰にscikit-learnを使用しようとしています。私が読んだ多項式回帰は、線形回帰の特殊なケースです。scikitの一般化された線形モデルのいずれかが、高次の多項式に適合するようにパラメーター化できるかもしれないと思っていましたが、それを行うオプションはありません。 私はポリカーネルでサポートベクターリグレッサーを使用することに成功しました。これは私のデータのサブセットでうまく機能しましたが、大きなデータセットに適合するにはかなり時間がかかりますので、(ある程度の精度を交換しても)さらに高速なものを見つける必要があります。 ここで明らかな何かを見逃していますか?

4
RMSLE(二乗平均平方根誤差)をどのように解釈しますか?
RMSLE(Root Mean Squared Logarithmic Error)を使用して機器のカテゴリの販売価格を予測するパフォーマンスを評価する機械学習コンテストを行っています。問題は、最終結果の成功をどのように解釈するかわからないことです。 たとえば、私はのRMSLE達成した場合に、私はそれ指数パワー上げることができるとRMSEのようにそれを解釈しますか?(つまり)?1.0521.0521.052E 1.052 = 2.863 = R M S Eeeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE それから、私の予測は実際の価格から平均でだったと言えますか または、メトリックを解釈するより良い方法はありますか?または、他のモデルの他のRMSLEと比較することを除いて、メトリックをまったく解釈できますか? ±$2.863±$2.863\pm \$2.863

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.