統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
回帰における遅延従属変数の包含
遅れた従属変数を回帰モデルに含めることが合法かどうかについて、私は非常に混乱しています。基本的に、このモデルがYの変化と他の独立変数との関係に焦点を当てている場合、右側に遅延従属変数を追加すると、他のIVの前の係数がYの前の値から独立していることを保証できます。 LDVを含めると、他のIVの係数が下方にバイアスされると言う人もいます。シリアル相関を減らすことができるLDVを含めることができると言う人もいます。 私は、この質問がどのような回帰の観点からかなり一般的であることを知っています。しかし、私の統計知識は限られており、時間の経過に伴うYの変化が焦点である場合、回帰モデルに遅延従属変数を含めるべきかどうかを判断するのは本当に困難です。 時間の経過に伴うYの変化に対するXの影響に対処する他のアプローチはありますか?DVとしてもさまざまな変化スコアを試しましたが、その状況でのRの2乗は非常に低いです。

4
内部対外部の交差検証とモデル選択
私の理解では、相互検証とモデル選択により、次の2つのことに対処しようとしています。 P1。サンプルでトレーニングする際の母集団の予想損失を推定する P2。この推定の不確実性(分散、信頼区間、バイアスなど)を測定して報告する 標準的な方法では、反復検証を繰り返します。これにより、推定量の分散が減少するためです。 ただし、レポートと分析に関しては、次の理由により、内部検証の方が外部検証よりも優れていると理解しています。 報告することをお勧めします: 推定器の統計。たとえば、完全なサンプル(この場合はCVサンプル)の信頼区間、分散、平均など。 報告よりも: 次の理由により、元のサンプルのホールドアウトサブセットでの推定量の損失: (i)これは単一の測定値になります(CVで推定量を選択した場合でも) (ii)この単一の測定の推定量は、ホールドアウトセット用のスペースを確保する必要があるため、最初のサンプルよりも小さいセット(CVセットなど)でトレーニングされていました。これにより、P1のより偏った(悲観的な)推定になります。 これは正しいです?そうでない場合はなぜですか? バックグラウンド: サンプルを2つのセットに分割することを推奨する教科書は簡単に見つかります。 CVのその後繰り返しに分けて設定し、電車やバリデーションセット。 ホールドアウトのみ推定性能を報告するために端部に使用される(テスト)セット、 私の目標は、この投稿の冒頭で問題P1とP2に実際に対処することだと考えて、この教科書アプローチのメリットと利点を理解する試みです。CVサンプルの分析はより有益であるため、ホールドアウトテストセットのレポートは悪い習慣であるように思えます。 ネストされたKフォールドと繰り返しKフォールド: 原則として、ホールドアウトと通常のK-foldを組み合わせて、ネストされたK-foldを取得でき ます。これは、私たちは私たちの推定量の変動を測定できるようになるが、それは訓練された合計モデルの同じ数(折り目の合計#)のためのものである推定もたらすであろうK倍を繰り返すように私には見え少ないバイアスとより正確なネストされたK-よりを折ります。これを見るには: 繰り返しKフォールドは、同じKのネストされたKフォールドよりもサンプル全体の大部分を使用します(つまり、バイアスが低くなります) 100回の反復では、ネストされたKフォールド(K = 10)で推定器の10個の測定値しか得られませんが、Kフォールドで100個の測定値が得られます(測定値を増やすとP2の分散が低くなります) この推論の何が問題になっていますか?

2
キャレットでcvとrepeatedcvの本当の違いは何ですか?
これは、質問キャレットの再サンプリング方法に似ていますが、同意された方法で質問のこの部分に実際に答えたことはありません。 キャレットの鉄道機能の提供cvとrepeatedcv。言うことの違いは何ですか: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) 対 MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) cvセットをk分割(パラメーターnumber)に分割してから、最初からやり直してパラメーターrepeatsを何回も実行することを理解しています。 私は考えることができる唯一の事は、多分規則的であるcvとのrepeatsそれぞれの時間を折るために使用するのと同じ正確な指標?基本的にcv毎回同じ正確なフォールドで実行しますが、おそらくrepeatedcv新しいフォールドを毎回選択しますか? 誰か明確にできますか?

3
AICモデル比較の前提条件
AICモデルの比較を機能させるために満たす必要がある正確な前提条件は何ですか? このような比較をしたとき、私はこの質問に出くわしました。 > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 このようにしてlog、変数の変換を正当化しましたusili。しかし、たとえば従属変数が異なるときにモデルをAIC比較できるかどうかわかりませんか? 理想的な答えには、前提条件(数学的な仮定)のリストが含まれます。

2
ロジット値は実際にはどういう意味ですか?
多くの場合、0から1の間の数字を出すロジットモデルがありますが、これをどのように解釈できますか? 0.20のロジットの場合を考えてみましょう ケースがグループBとグループAに属する可能性が20%あると断言できますか? それはロジット値を解釈する正しい方法ですか?

1
PCA、LDA、CCA、およびPLS
PCA、LDA、CCA、およびPLSはどのように関連していますか?それらはすべて「スペクトル」および線形代数であり、非常によく理解されているように見えます(たとえば、50年以上の理論が構築されています)。それらは非常に異なることに使用されます(次元削減のためのPCA、分類のためのLDA、回帰のためのPLS)にもかかわらず、それらは非常に密接に関連していると感じています。

4
連続機能とカテゴリ機能の両方を使用した予測
予測モデリング手法の中には、連続予測変数を処理するように設計されているものもあれば、カテゴリ変数または離散変数を処理する方が優れているものもあります。もちろん、1つの型を別の型に変換する手法(離散化、ダミー変数など)があります。ただし、単純にフィーチャのタイプを変換せずに、両方のタイプの入力を同時に処理するように設計された予測モデリング手法はありますか?そうである場合、これらのモデリング手法は、より自然に適合するデータに対してよりうまく機能する傾向がありますか? 私が知っている最も近いものは、通常、決定木がうまく離散データを処理し、それらが必要とせず、連続的なデータを扱うことになりますアップフロント離散化を。ただし、これは私が探していたものとはまったく異なります。効果的に連続フィーチャ上の分割は、動的な離散化の一種にすぎません。 参考のために、関連する重複しない質問を次に示します。 連続変数を予測するとき、決定木分割はどのように実装する必要がありますか? カテゴリー予測因子と連続予測因子が混在している場合、重回帰を使用できますか? カテゴリデータを連続として扱うのは理にかなっていますか? 連続およびカテゴリー変数データ分析

6
複数の時系列にわたる同じモデルの推定
私は時系列の初心者の経験があり(いくつかのARIMA推定/予測)、完全には理解できない問題に直面しています。どんな助けも大歓迎です。 私はすべて同じ時間間隔と同じ頻度で複数の時系列を分析しています。すべて同じタイプのデータを記述しています。各シリーズは1つの変数に過ぎず、私が見ている他の対応する予測変数はありません。 すべてのシリーズを記述する単一のモデルを推定するように依頼されました。たとえば、すべてのシリーズに適合する同じ次数、係数などを持つ1つのARIMA(p、d、q)を見つけることができると想像してください。私のスーパーバイザーは、各シリーズを個別に推定することを望んでおらず、シリーズ間の依存関係を伴うある種のVARモデルを実行することも望んでいません。 私の質問は次のとおりです。このようなモデルを何と呼びますか。それをどのように推定/予測しますか?コード例を使用する方が簡単な場合は、SASとRの両方を話します。

1
ガウスモデルの最小二乗とMLEの等価性
私は機械学習が初めてで、自分で学習しようとしています。最近、私はいくつかの講義ノートを読んでいて、基本的な質問がありました。 スライド13は、「最小二乗推定はガウスモデルの最尤推定と同じです」と述べています。簡単なように思えますが、これは見えません。誰かがここで何が起こっているのか説明してもらえますか?私は数学を見ることに興味があります。 リッジとラッソ回帰の確率論的観点も後で見ようと思うので、私に役立つ提案があれば、それも高く評価されます。

3
2つの正規平均の比の信頼区間を計算する方法
私はのための限界を導出したい二つの手段の比の信頼区間を。 仮定、および 独立している、平均比。解決しようとしました: だが、その方程式は多くの場合解くことができなかった(根がない)。私は何か間違っていますか?より良いアプローチはありますか?ありがとう100 (1 - α )%100(1−α)%100(1-\alpha)\%バツ1〜N(θ1、σ2)バツ1〜N(θ1、σ2)X_1 \sim N(\theta_1, \sigma^2)バツ2〜N(θ2、σ2)バツ2〜N(θ2、σ2)X_2 \sim N(\theta_2, \sigma^2)Γ = θ1/ θ2Γ=θ1/θ2\Gamma = \theta_1/\theta_2Pr (− z(α / 2 ))≤ X1- Γ X2/ σ1 + γ2−−−−−√≤ Z(α / 2 ))= 1 - αPr(−z(α/2))≤バツ1−Γバツ2/σ1+γ2≤z(α/2))=1−α\text{Pr}(-z(\alpha/2)) \leq X_1 - \Gamma X_2 / \sigma \sqrt {1 + \gamma^2} \leq z(\alpha/2)) …


2
サポートベクターマシンと回帰
サポートベクターマシンが分類を処理する方法についてはすでに優れた議論がありましたが、サポートベクターマシンが回帰に一般化する方法については非常に混乱しています。 私を啓発したい人はいますか?

4
特徴の数と観測値の数
「堅牢な」分類器をトレーニングするために必要な特徴の数と観測の数の関係についての論文/本/アイデアはありますか? たとえば、トレーニングセットとして2つのクラスから1000個の特徴と10個の観測値があり、テストセットとして10個の他の観測値があるとします。分類子Xをトレーニングすると、テストセットで90%の感度と90%の特異性が得られます。この精度に満足しているとしましょう。これに基づいて、それは優れた分類器であると言えます。一方、10ポイントのみを使用して1000変数の関数を近似しました。


1
SARIMAXを直感的に理解する方法
電気負荷の予測に関する論文を理解しようとしていますが、内部の概念、特にSARIMAXモデルに苦労しています。このモデルは、負荷を予測するために使用され、理解できない多くの統計概念を使用します(私はコンピューターサイエンスの学部生です-統計の中で私を素人と見なすことができます)。私はそれがどのように機能するかを完全に理解する必要はありませんが、少なくとも直観的に何が起こっているのかを理解したいと思います。 私は、SARIMAXを小さなピースに分割し、これらの各ピースを個別に理解し、それらをまとめようとしています。助けてくれませんか?ここに私がこれまでに持っているものがあります。 私はARとMAで始めました。 AR:自己回帰。私は回帰とは何かを学びましたが、私の理解から、単に質問に答えます:値/ポイントのセットが与えられた場合、これらの値を説明するモデルを見つけるにはどうすればよいですか?そのため、たとえば、これらすべての点を説明できる線を見つけようとする線形回帰があります。自己回帰は、以前の値を使用して値を説明しようとする回帰です。 MA:移動平均。私は実際ここでかなり迷っています。移動平均とは何かを知っていますが、移動平均モデルは「通常の」移動平均とは何の関係もないようです。モデルの式はARにぎこちなく似ているようで、インターネットで見つけた概念を理解できないようです。MAの目的は何ですか?MAとARの違いは何ですか? これでARMAができました。私は、その後から来統合限り私は理解しているように、単純に増加または減少のいずれか、ARMAモデルは傾向を持つことができるようにするという目的を果たします。(これは、ARIMAが非静止を許可するということと同等ですか?) 季節性からSが来ると、ARIMAに周期性が追加されます。これは、例えば、負荷予測の場合、基本的に毎日午後6時に負荷が非常に似ていると言います。 最後に、外生変数からのXは、基本的に天気予報などの外部変数をモデルで考慮することを可能にします。 ようやくSARIMAXができました!私の説明は大丈夫ですか?これらの説明は厳密に正確である必要はないことを認識してください。誰かがMAが直感的に行うことを説明できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.