統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

7
検証の精度が変動するのはなぜですか?
MRIデータを使用して癌に対する反応を予測する4層CNNがあります。ReLUアクティベーションを使用して、非線形性を導入します。列車の精度と損失はそれぞれ単調に増加および減少します。しかし、私のテストの精度は大きく変動し始めます。学習率を変更して、レイヤー数を減らしてみました。しかし、それは変動を止めるものではありません。私もこの答えを読み、その答えの指示に従ってみましたが、再び運はありませんでした。誰が私が間違っているのかを理解するのを手伝ってもらえますか?

6
信頼できる間隔にフラットな事前分布がある場合、95%の信頼区間は95%の信頼できる間隔に等しいですか?
私はベイジアン統計に非常に新しいので、これはばかげた質問かもしれません。それでも: 一様分布を指定する事前確率を使用した信頼できる間隔を検討します。たとえば、0から1で、0から1は効果の可能な値の全範囲を表します。この場合、95%の信頼区間は95%の信頼区間に等しいでしょうか?

4
パーセンタイルブートストラップを使用すべきではないというのは本当ですか?
確率と統計、(現在利用可能な春2014から18.05入門用MITオープンコースウェア・ノートでは、ここで)、それは述べて: ブートストラップパーセンタイル方式は、そのシンプルさから魅力的です。しかし、それはのブートストラップ分布に依存に基づいて、特定の真の分布によく近似される試料ˉ X。ライスは、「信頼限界を備えたブートストラップサンプリング分布の分位数のこの直接方程式は、最初は魅力的に思えるかもしれませんが、その根拠はやや不明瞭です。」[2]要するに、ブートストラップパーセンタイル方法を使用しないでくださいx¯∗x¯∗\bar{x}^{*}x¯x¯\bar{x}。代わりに経験的ブートストラップを使用します(経験的ブートストラップをパーセンタイルブートストラップと混同しないことを期待して、両方を説明しました)。 [2] John Rice、数学的統計とデータ分析、第2版、p。272 少しオンラインで検索した後、これはパーセンタイルブートストラップを使用すべきではないと明言している唯一の引用です。 Clarke et al。のテキスト「データマイニングと機械学習の原理と理論」から読んだことを思い出します。ブートストラップの主な理由は、その事実であるということです F N1n∑i=1nF^n(x)→pF(x)1n∑i=1nF^n(x)→pF(x)\dfrac{1}{n}\sum_{i=1}^{n}\hat{F}_n(x) \overset{p}{\to} F(x)F^nF^n\hat{F}_n経験CDFです。(これ以上の詳細は思い出せません。) パーセンタイルブートストラップメソッドを使用すべきでないのは本当ですか?もしそうなら、が必ずしも知られていない(つまり、パラメトリックブートストラップを実行するのに十分な情報が利用できない)場合、どのような選択肢がありますか?FFF 更新 明確化が要求されているので、これらのMITノートから"経験的ブートストラップ"とは、以下の手順を参照:彼らコンピュート及びδ 2 = (θ * - θ)1 - α / 2とθ *のブートストラップ推定値をθとθのフルサンプル推計θδ1=(θ^∗−θ^)α/2δ1=(θ^∗−θ^)α/2\delta_1 = (\hat{\theta}^{*}-\hat{\theta})_{\alpha/2}δ2=(θ^∗−θ^)1−α/2δ2=(θ^∗−θ^)1−α/2\delta_2 = (\hat{\theta}^{*}-\hat{\theta})_{1-\alpha/2}θ^∗θ^∗\hat{\theta}^{*}θθ\thetaθ^θ^\hat{\theta}θθ\theta、得られた推定された信頼区間は次のようになり[θ^−δ2,θ^−δ1][θ^−δ2,θ^−δ1][\hat{\theta}-\delta_2, \hat{\theta} - \delta_1]。 本質的には、主なアイデアは、このです:経験的ブートストラップは、点推定値と実際のパラメータとの差に比例量を推定し、すなわちθ^−θθ^−θ\hat{\theta}-\theta、下部及び上部のCIの境界を思い付くこの違いを使用しています。 "パーセンタイルブートストラップ"は以下を意味する:使用の信頼区間としてθ。この状況では、ブートストラップを使用して関心のあるパラメーターの推定値を計算し、信頼区間のこれらの推定値のパーセンタイルを取得します。[θ^∗α/2,θ^∗1−α/2][θ^α/2∗,θ^1−α/2∗][\hat{\theta}^*_{\alpha/2}, \hat{\theta}^*_{1-\alpha/2}]θθ\theta

3
Naive Bayesはどのように線形分類器ですか?
私はここで他のスレッドを見ましたが、答えが実際の質問を満たしたとは思いません。私が絶えず読んでいるのは、Naive Bayesが線形分類器であるということです(例:ここ対数オッズデモンストレーションを使用し)である(線形決定境界を描画する)ことです。 ただし、2つのガウス雲をシミュレートし、決定境界に適合させて、そのような結果を得ました(naiveBayes()を使用してrのライブラリe1071) ご覧のとおり、決定境界は非線形です。パラメーター(条件付き確率)は、分類子自体がデータを線形に分離するというよりも、対数空間における線形結合であると言っているのですか?

2
線形回帰モデルの係数を見つけるために勾配降下が必要ですか?
Coursera教材を使用して機械学習を学習しようとしていました。この講義では、Andrew Ngは勾配降下アルゴリズムを使用して、誤差関数(コスト関数)を最小化する線形回帰モデルの係数を見つけます。 線形回帰の場合、勾配降下が必要ですか?誤差関数を分析的に微分し、係数を解くためにゼロに設定できるようです。そうですか?

4
ロジスティック回帰-エラー期間とその分布
ロジスティック回帰(およびその想定される分布)にエラー用語が存在するかどうかについて、さまざまな場所で次のことを読みました。 エラー用語は存在しません エラー項には二項分布があります(応答変数の分布に従って) エラー項にはロジスティック分布があります 誰かが明確にできますか?

3
平均二乗誤差と残差平方和
以下のウィキペディアの定義を見てください: 平均二乗誤差(MSE) 残差平方和(RSS) それは私に見える MSE=1NRSS=1N∑(fi−yi)2MSE=1NRSS=1N∑(fi−yi)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 ここで、はサンプル数、は推定値です。NNNfifif_iyiyiy_i ただし、ウィキペディアの記事のいずれもこの関係について言及していません。どうして?何か不足していますか?
31 residuals  mse 

2
libsvmデータ形式[終了]
サポートベクターの分類にlibsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)ツールを使用しています。ただし、入力データの形式については混乱しています。 READMEから: トレーニングおよびテストデータファイルの形式は次のとおりです。 <label> <index1>:<value1> <index2>:<value2> ... . . . 各行にはインスタンスが含まれ、「\ n」文字で終了します。分類の場合<label>、クラスラベルを示す整数です(マルチクラスがサポートされます)。回帰の場合<label>は、任意の実数のターゲット値です。1クラスのSVMの場合、使用されないため、任意の数にすることができます。このペア<index>:<value>は、特徴(属性)値を与えます<index>。1から始まる整数<value> で、実数です。唯一の例外は、<index>0から始まる事前計算済みカーネル です。事前に計算されたカーネルのセクションを参照してください。インデックスは昇順でなければなりません。テストファイルのラベルは、精度またはエラーの計算にのみ使用されます。不明な場合は、最初の列に数字を入力します。 次の質問があります。 の使用は何<index>ですか?どんな目的に役立ちますか? 異なるデータインスタンスの同じインデックス値に対応はありますか? 間にインデックスが欠落/スキップした場合はどうなりますか? libsvmのパッケージに含まれるデータファイル* heart_scale *は12行目でインデックスが2から始まる<value>ため、質問します。注:パッケージに付属のtools / checkdata.pyツールには、* heart_scale *ファイルが正しいと記載されています。

2
Rのランダムフォレスト分類における一連の予測変数の相対的重要性
randomForestRの分類モデルに対する変数セットの相対的な重要度を決定したいのですが、importance関数はMeanDecreaseGini個々の予測変数のメトリックを提供します。セット内の各予測変数でこれを合計するのと同じくらい簡単ですか? 例えば: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of b1+b2?

4
バイアスのブートストラップ推定はいつ有効ですか?
ブートストラップは推定器のバイアスの推定値を提供できるとしばしば主張されます。 もしいくつかの統計の推定値であり、そして(とブートストラップ複製である)、次いで、バイアスのブートストラップ推定値である これは非常にシンプルで強力なようで、不安にさせるほどです。 〜T II∈{1、⋯、N}BIAST≈1t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i-\hat t \end{equation} 統計の偏りのない推定器をすでに持っていなければ、これがどのように可能かを頭に浮かぶことはできません。たとえば、推定値が観測値に依存しない定数を単に返す場合、上記のバイアスの推定値は明らかに無効です。 この例は病理学的ですが、ブートストラップの推定値が妥当であることを保証する推定器と分布についての合理的な仮定は何なのかわかりません。 正式な参考文献を読んでみましたが、私は統計学者でも数学者でもないので、何も明らかにされませんでした。 推定値がいつ有効になると予想されるかについて、だれでも概要を提供できますか?あなたが主題に関する良い参考文献を知っているなら、それも素晴らしいでしょう。 編集: 推定器の滑らかさは、ブートストラップが機能するための要件としてしばしば引用されます。変換のローカルな可逆性が必要なこともありますか?定数マップは明らかにそれを満たしていません。
31 bootstrap  bias 

3
投げ縄回帰モデルのAICとBICを計算することはできますか?
投げ縄回帰モデルや、パラメータが部分的にしか方程式に入力されていない他の正規化モデルのAICまたはBIC値を計算することは可能ですか?自由度をどのように決定しますか? Rを使用して、投げ縄回帰モデルをパッケージのglmnet()関数に適合glmnetさせています。モデルのAIC値とBIC値を計算する方法を知りたいです。このようにして、値を正則化なしで適合するモデルと比較する場合があります。これは可能ですか?
31 r  model-selection  lasso  aic  bic 

2
生残差対標準化残差対スチューデント化残差-いつ使用するか
これは同様の質問のように見え、多くの回答を得られませんでした。 クックのDなどのテストを省略し、残差をグループとして見て、適合度を評価するときに他の人が残差を使用する方法に興味があります。生の残差を使用します: 正規性を評価するためのQQプロット 対残差の散布図で、(a)異分散性および(b)シリアル自己相関の眼球チェック用。yyy と残差をプロットして、外れ値が発生する可能性のあるの値を調べるには、スチューデント化された残差を使用することを好みます。私の好みの理由は、標準化された残差は非常に類似した結果を提供しますが、どの値でどの残差が問題であるかを簡単に表示できることです。どの理論が使用されているかは、どの大学に行ったかに依存するというものです。y yyyyyyyyyy これは、他の人が残差を使用する方法に似ていますか?他の人はこの数のグラフを要約統計と組み合わせて使用​​しますか?

3
データはどの分布に従うのですか?
私には1000個のコンポーネントがあり、これらが障害をログに記録した回数と、障害をログに記録するたびにデータを収集してきたとしましょう。要するに、私はこれらの1000個のコンポーネントのそれぞれの修復時間(秒単位)を記録しています。データはこの質問の最後に記載されています。 これらすべての値を取得descdistし、fitdistrplusパッケージからRでカレンとフレイのグラフを作成しました。私の希望は、修復の時間が特定のディストリビューションに従っているかどうかを理解することでした。boot=500ブートストラップされた値を取得するためのプロットを次に示します。 このプロットは、観測がベータ分布に該当することを示していることがわかります(または、その場合、何が明らかになっているのでしょうか?) ?(私はこれらの結果の背後にある実用的な現実世界の直観を探しています)。 編集: packageのqqPlot関数を使用したQQplot car。最初に、fitdistr関数を使用して形状とスケールのパラメーターを推定しました。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 次に、私はこれをしました: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 編集2: 対数正規QQplotで更新します。 私のデータは次のとおりです。 c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, …

1
損失関数とエラー関数の違いは何ですか?
「損失」という用語は「エラー」と同義ですか?定義に違いはありますか? また、「損失」という用語の起源は何ですか? 注意:ここで言及されているエラー関数は、通常のエラーと混同しないでください。

4
なぜニューラルネットワークでReLUを使用し、どのように使用するのですか?
なぜニューラルネットワークで整流線形ユニット(ReLU)を使用するのですか?それはどのようにニューラルネットワークを改善しますか? ReLUはアクティベーション関数であると言うのはなぜですか?ニューラルネットワークのソフトマックス活性化関数ではないですか?次のように、ReLUとsoftmaxの両方を使用すると推測しています。 softmax出力のニューロン1 ----> ニューロン2の入力であるニューロン1の出力のReLU ---> softmax出力のニューロン2-> ... そのため、ニューロン2の入力は基本的にReLU(softmax(x1))です。これは正しいです?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.