統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
LarsとGlmnetがLa​​sso問題に対して異なるソリューションを提供するのはなぜですか?
私は、より良好なRパッケージを理解したいLarsとGlmnet:ラッソ問題解決するために使用され、 (p変数およびNサンプルについては、3ページのwww.stanford.edu/~hastie/Papers/glmnet.pdfを参照)M I nは(β0β)∈ Rp + 1[ 12N∑私 = 1N( y私− β0− xT私β)2+ λ | |β| |l1]m私n(β0β)∈Rp+1[12N∑私=1N(y私−β0−バツ私Tβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppNNN したがって、同じおもちゃのデータセットに両方を適用しました。残念ながら、2つの方法は同じデータ入力に対して同じソリューションを提供しません。誰が違いがどこから来るのかを知っていますか? 結果を次のように取得しました。いくつかのデータ(8個のサンプル、12個の特徴、Toeplitzデザイン、すべてが中心)を生成した後、Larsを使用してLassoパス全体を計算しました。次に、Larsによって計算されたラムダのシーケンス(0.5を乗算)を使用してGlmnetを実行し、同じソリューションを取得したいと考えましたが、実行しませんでした。 ソリューションが似ていることがわかります。しかし、どのように違いを説明できますか?以下に私のコードを見つけてください。関連する質問があります:LASSOソリューションを計算するためのGLMNETまたはLARS?、しかし、私の質問に対する答えは含まれていません。 セットアップ: # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features <- 12 nb.samples <- 8 nb.relevant.indices <- 3 snr <- 1 …

4
Angry Birdsをプレイするための機械学習システムをどのように設計しますか?
あまりにも多くのAngry Birdsをプレイした後、私は自分の戦略を観察し始めました。各レベルで3つ星を獲得するための非常に具体的なアプローチを開発したことがわかりました。 そのため、Angry Birdsをプレイできる機械学習システムの開発の課題について疑問に思いました。ゲームを操作して鳥を放つのは簡単です。しかし、私が抱えていた1つの質問は、システムの「ビルディングブロック」についてです。 機械学習システムは、単純な概念または問題についての理解で機能するようです。多くの場合、これは入力として機能としてエンコードされます。そのため、システムには、戦略を生成するためにいくつかの高レベルの概念を理解する能力が必要と思われます。 これは本当ですか?また、そのようなシステムを開発する上での課題や困難な部分は何ですか? 編集#1: ここにいくつかの説明があります。ポイントを最大化する必要があるため、3つ星を取得するのは難しい問題です。これは、2つの非排他的な方法で実行できます。1)使用する鳥の数を最小限に抑えます(未使用の鳥ごとに10,000ポイントを獲得します)。2)ガラス、木材、その他のオブジェクトの破壊を最大化しました。破壊されたオブジェクトごとにポイントが付与されます。1羽の鳥で10,000ポイント以上のオブジェクトを破壊することができます。 「高レベルの概念」についてもう少し説明します。上記のポイントを最大化するには、各鳥の特別な力を使用する必要があります。したがって、それは、マップのレイアウトに応じて、異なる軌道で異なる鳥を発射することを意味します。そして、プレイ中に特定の順序で特定の鳥と特定の領域を破壊する戦略を開発します。 各鳥を使用して特定のエリアを破壊する方法を理解していないと、システムは3つ星を獲得することを学ぶことができなかったようです。それで、そのようなものをどのように管理し、エンコードしますか?システムがこれらの高レベルの概念を学習できることをどのように確認しますか?

1
相互作用のクラス内相関(ICC)
各サイトの各被験者の測定値があるとします。サブジェクトとサイトの2つの変数は、クラス内相関(ICC)値の計算に関して重要です。通常lmer、Rパッケージの関数を使用lme4して実行します lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) ICC値は、上記のモデルの変量効果の分散から取得できます。 しかし、最近私は本当に困惑する論文を読みました。上記の例を使用して、著者は、nlmeパッケージの関数lmeを使用して、論文の3つのICC値を計算しました。論文にはこれ以上の詳細は記載されていません。次の2つの観点から混乱しています。 lmeでICC値を計算する方法は?lmeでこれらの3つのランダム効果(被験者、サイト、およびそれらの相互作用)を指定する方法がわかりません。 主題とサイトの相互作用のためにICCを考慮することは本当に意味がありますか?モデリングまたは理論的な観点から計算できますが、概念的にはこのような相互作用の解釈に問題があります。

3
AICまたはp値:モデル選択のためにどれを選択しますか?
私はこのRに関してはまったく新しいのですが、どのモデルを選択すればよいかわかりません。 最も低いAICに基づいて各変数を選択して、段階的な前方回帰を行いました。どのモデルが「ベスト」かわからない3つのモデルを思いつきました。 Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 モデル#3にはAICが最も低く(ネガティブは大丈夫だと聞いた)、p値がまだかなり低いため、モデル#3を使用する傾向があります。 Hatchling Massの予測変数として8つの変数を実行しましたが、これら3つの変数が最適な予測変数であることがわかりました。 AICが少し大きかったとしても、p値はすべて小さかったため、次の段階的なモデル2を選択しました。これが最高だと思いますか? Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model …

2
箱ひげ図を作成できるように、多数のサンプルを記述する統計セットを蓄積することは可能ですか?
私は統計学者ではなく実践的なソフトウェア開発者であり、大学の統計学の授業はかなり前のことであることをすぐに明確にしなければなりません… それは、個々のサンプルの束を保存することを必要としない、箱ひげ図を作成するために使用できる記述統計のセットを蓄積する方法があるかどうかを知りたいですか? 私がやろうとしているのは、複雑なマルチキュープロセス内のキューサービス時間のグラフィカルな要約を作成することです。私は過去にtnftoolsと呼ばれるパッケージを使用していました。これにより、大きなサンプルを蓄積し、後処理して応答時間と外れ値の素敵なグラフを作成できました。 理想的には、プロセスの実行中に一連の記述統計を「オンザフライ」で蓄積し、必要に応じて分析のためにデータを抽出できるようにしたいと考えています。ただし、メモリ/ IOがシステムのパフォーマンスに許容できない影響を与えるため、プロセスにサンプルを蓄積させることはできません。

4
Leave-one-out相互検証に関するShaoの結果はいつ適用されますか?
Jun Shaoは、彼の論文「Cross-Validationによる線形モデル選択」で、多変量​​線形回帰の変数選択の問題について、leave-one-out相互検証(LOOCV)の方法が「漸近的に一貫していない」ことを示しています。平易な英語では、変数が多すぎるモデルを選択する傾向があります。シミュレーション研究で、Shaoは、わずか40回の観測であっても、LOOCVが他の交差検証手法よりも劣っていることを示しています。 この論文は多少議論の余地があり、多少無視されています(公開から10年後、私の計量化学の同僚はそれを聞いたことがなく、変数選択にLOOCVを喜んで使用していました...)。また、その結果は元の限られた範囲をいくらか超えているという信念もあります(私はこれに罪を犯しています)。 それでは、これらの結果はどこまで拡大するのでしょうか?次の問題に適用できますか? ロジスティック回帰/ GLMの変数選択? Fisher LDA分類の変数選択? 有限(または無限)カーネルスペースを持つSVMを使用した変数選択? 分類におけるモデルの比較、異なるカーネルを使用するSVMなど 線形回帰のモデルの比較、たとえばMLRとリッジ回帰の比較? 等

1
ランダム変数によって生成された
多くの場合、統計の(自己)研究の過程で、「σσ\sigmaランダム変数によって生成される代数」という用語に出会いました。私はウィキペディアの定義を理解していませんが、最も重要なのは、その背後にある直感を理解していないことです。なぜ/ときに我々が必要なのですσ−σ−\sigma-ランダム変数によって生成された代数を?それらの意味は何ですか?私は次のことを知っています: σσ\sigmaセットに-代数ΩΩ\Omegaの部分集合の空でない集合されΩΩ\Omega含まΩΩ\Omega、補完下と可算組合の下で閉じています。 σσ\sigma代数を導入して、無限のサンプル空間に確率空間を構築します。特に、ΩΩ\Omegaが数え切れないほど無限である場合、測定不能なサブセット(確率を定義できないセット)が存在する可能性があることがわかります。したがって、私たちはただのパワーセットを使用することはできませんΩΩ\Omega P(Ω)P(Ω)\mathcal{P}(\Omega)イベントの私達のセットとしてFF\mathcal{F}。興味深いイベントの確率を定義できるように、まだ十分な大きさの小さなセットが必要です。また、一連のランダム変数の収束について話すことができます。 要するに、私はσの公正で直感的な理解を持っていると思う代数を。私はのための同様の理解がしたい σ -ランダム変数によって生成された代数:定義、我々は彼らを必要とする理由、直感、例を...σ−σ−\sigma-σ−σ−\sigma-

3
画像形式(png、jpg、gif)は、画像認識ニューラルネットのトレーニング方法に影響しますか?
深い畳み込みニューラルネットでは、画像認識、画像分類などに関して多くの進歩があったことを認識しています。 しかし、たとえばPNG画像でネットをトレーニングすると、そのようにエンコードされた画像でのみ機能しますか?これに影響する他の画像プロパティは何ですか?(アルファチャンネル、インターレース、解像度など?)

3
カテゴリ変数をダミーコードする必要があるのはなぜですか
カテゴリ変数をダミーコードする必要がある理由がわかりません。たとえば、4つの可能な値0,1,2,3を持つカテゴリ変数がある場合、2つの次元で置き換えることができます。変数の値が0の場合、2次元に0,0があり、3の場合、2次元に1,1などがあります。 なぜこれを行う必要があるのか​​分かりませんか?

5
線形モデルの仮定と残差が正規分布していない場合の対処
私は、線形回帰の仮定が少し混乱しています。 これまでのところ、次のことを確認しました。 すべての説明変数は応答変数と線形に相関していました。(これが事実でした) 説明変数間に共線性がありました。(共線性はほとんどありませんでした)。 私のモデルのデータポイントのクックの距離は1未満です(これは、すべての距離が0.4未満であるため、影響ポイントがないためです)。 残差は正規分布します。(これはそうではないかもしれません) しかし、私は次を読みました: (a)従属変数および/または独立変数の分布自体が著しく非正規である、および/または(b)線形性の仮定に違反しているため、正規性の違反がしばしば発生します。 質問1 これにより、独立変数と従属変数を正規分布する必要があるかのように聞こえますが、私が知る限り、そうではありません。私の従属変数は、独立変数の1つと同様に正規分布していません。彼らはすべきですか? 質問2 残差のQQnormalプロットは次のようになります。 これは正規分布とわずかに異なりshapiro.test、残差が正規分布からのものであるという帰無仮説も棄却します。 > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差と近似値は次のようになります。 残差が正規分布していない場合はどうすればよいですか?線形モデルはまったく役に立たないということですか?

5
回帰における不均衡なデータのサンプリング
分類のコンテキストで不均衡なデータを処理することに関して良い質問がありましたが、私は人々が回帰のためにサンプリングするために何をするのかと思っています。 問題の領域はサインに対して非常に敏感ですが、ターゲットの大きさに対してはわずかに敏感であるとします。ただし、その大きさは十分に重要であるため、モデルは分類(ポジティブクラスとネガティブクラス)ではなく回帰(連続ターゲット)である必要があります。そして、この問題領域では、トレーニングデータのセットはポジティブターゲットよりも10倍多いネガティブになると言います。 このシナリオでは、ポジティブターゲットの例をオーバーサンプリングしてネガティブターゲットの数と一致させ、モデルをトレーニングして2つのケースを区別します。明らかに、不均衡なデータではトレーニングアプローチがひどく機能するため、何らかのサンプリングを行う必要があります。予測を行うときに、このオーバーサンプリングを「元に戻す」適切な方法は何でしょうか?おそらく、自然なトレーニングデータのターゲットの(負の)平均または中央値で翻訳しますか?


5
ベイズの定理直観
私は、事前、事後、尤度、および限界確率の観点から、ベイズの定理の直観に基づいた理解を発展させようとしました。そのために、次の式を使用します ここで、は仮説または信念を表し、はデータまたは証拠を表します。 私は事後の概念を理解しました-それは、以前の信念と出来事の可能性を結合する統一体です。私が理解していないのは、可能性が何を意味するのか?そして、なぜ限界は ABP(B|A)=P(A|B)P(B)P(A)P(B|A)=P(A|B)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}AAABBB分母の確率? いくつかのリソースを確認した後、この引用に出会いました。 尤度は、イベントの重量の発生により与えられる ...ある事後イベントの確率イベントのことを考えると、発生しています。A P (B | A )BBBAAAP(B|A)P(B|A)P(B|A)ABBBAAA 上記の2つのステートメントは、私と同じように見えますが、異なる方法で書かれています。誰も2つの違いを説明できますか?

4
ディープラーニングモデルの場合、softmax出力が不確実性の指標として適切ではないのはなぜですか?
私は現在、主にセマンティックセグメンテーション/インスタンスセグメンテーションの画像データで、畳み込みニューラルネットワーク(CNN)を使用しています。ネットワーク出力のソフトマックスを「ヒートマップ」として頻繁に視覚化して、特定のクラスのピクセルごとのアクティベーションの高さを確認しました。低活性化は「不確実」/「自信がない」と解釈し、高活​​性化は「特定」/「自信がある」予測と解釈しました。基本的に、これは、softmax出力(内の値)をモデルの確率または(不)確実性尺度として解釈することを意味します。(0,1)(0,1)(0,1) (たとえば、ピクセル全体で平均された低いソフトマックスアクティベーションを持つオブジェクト/エリアは、CNNが検出するのが難しいと解釈したため、CNNはこの種のオブジェクトの予測について「不確か」です。) 私の認識では、これはよく機能し、トレーニング結果に「不確実な」領域のサンプルを追加すると、これらの結果が改善されました。しかし、ソフトマックスの出力を(不)確実性の尺度として使用/解釈するのは良い考えではなく、一般的にはお勧めできないと、さまざまな側面からよく耳にします。どうして? 編集:ここで私が尋ねていることを明確にするために、この質問に答える際のこれまでの洞察について詳しく説明します。しかし、同僚、監督者から繰り返し言われたように、なぜそれが一般的に悪い考えであるのか、以下の議論のどれも私に明らかにしませんでした。 分類モデルでは、パイプラインの最後に取得された確率ベクトル(softmax出力)は、モデルの信頼度として誤って解釈されることがよくあります。 またはここの「背景」セクションで: たたみ込みニューラルネットワークの最終ソフトマックスレイヤーによって与えられた値を信頼スコアとして解釈するのは魅力的かもしれませんが、これを読みすぎないように注意する必要があります。 上記の原因は、ソフトマックス出力を不確実性の尺度として使用するのが悪い理由です。 実画像に対する知覚できない摂動は、深いネットワークのソフトマックス出力を任意の値に変更する可能性があります これは、softmax出力が「知覚できない摂動」に対してロバストではないことを意味します。したがって、その出力は確率として使用できません。 別の論文では、「softmax output = Confidence」という考え方が取り上げられており、この直観ではネットワークは簡単にだまされる可能性があり、「認識できない画像に対する信頼性の高い出力」が得られると主張しています。 (...)特定のクラスに対応する(入力ドメイン内の)領域は、そのクラスのトレーニングサンプルが占めるその領域のスペースよりもはるかに大きい場合があります。この結果、画像はクラスに割り当てられた領域内にあるため、softmax出力の大きなピークで分類されますが、トレーニングセットのそのクラスで自然に発生する画像からは遠くなります。 これは、トレーニングデータから遠く離れたデータは、モデルが(それを見たことがないので)確信できないため、高い信頼を得ることはないことを意味します。 ただし、これは一般的に、NN全体の一般化特性を単純に疑問視しているのではありませんか?すなわち、ソフトマックス損失を伴うNNは、(1)「知覚できない摂動」または(2)認識できない画像などのトレーニングデータから遠く離れた入力データサンプルにうまく一般化しないということです。 この推論に続いて、私はまだ理解していません、なぜ実際にトレーニングデータ(すなわち、ほとんどの「実際の」アプリケーション)に対して抽象的および人為的に変更されていないデータで、ソフトマックス出力を「疑似確率」として解釈するのが悪いのか考え。結局のところ、彼らは私のモデルが正しいとは限らない場合でも、そのモデルが確信していることをよく表しているようです(この場合、モデルを修正する必要があります)。そして、モデルの不確実性は常に「単なる」近似ではありませんか?

5
生または直交多項式回帰?
変数をに回帰させたい。生の多項式または直交多項式を使用してこれを行う必要がありますか?私はこれらを扱っているサイトで質問を見ましたが、私はそれらを使用することの違いが何であるかを本当に理解していません。 x 、x 2、… 、x 5yyyx 、x2、… 、x5x,x2,…,x5x,x^2,\ldots,x^5 なぜだけ係数を取得するために「正常な」回帰を行うことはできませんの、Yが= Σ 5 iは= 0 β I X Iをβ私βi\beta_iy= ∑5i = 0β私バツ私y=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i(p値及び全ての他の素敵なものと一緒に)、代わりに生の多項式を使用するか直交多項式を使用するかを心配する必要がありますか?この選択は、私がやりたいことの範囲外にあるように思えます。 私が現在読んでいる統計書(TibshiraniらによるISLR)では、これらのことは言及されていませんでした。実際、彼らはある意味で軽視されていました。 その理由は、lm()R の関数で、y ~ poly(x, 2)直交多項式の使用にy ~ x + I(x^2)量を使用し、生の多項式の使用に量を使用することです。しかし116ページで著者は最初のオプションを使用すると言っています。後者は「面倒」であり、これらのコマンドが実際に完全に異なるものに影響を与える(そして結果として異なる出力を持つ)ことを示しません。 (3番目の質問)ISLRの著者は、なぜ読者をそのように混乱させるのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.