タグ付けされた質問 「data-augmentation」

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
一般的なデータセットのデータ増強技術?
多くの機械学習アプリケーションでは、いわゆるデータ増強方法により、より良いモデルを構築できます。たとえば、猫と犬の枚の画像のトレーニングセットを想定します。回転、ミラーリング、コントラスト調整などにより、元の画像から追加の画像を生成できます。100100100 画像の場合、データの増加は比較的簡単です。ただし、(たとえば)サンプルのトレーニングセットと、さまざまなものを表す数百個の連続変数があるとします。データ拡張は、もはやそれほど直感的ではないようです。そのような場合に何ができますか?100100100

3
データ増強と訓練検証分割の方法
機械学習を使用して画像分類を行っています。 トレーニングデータ(画像)があり、そのデータをトレーニングセットと検証セットに分割するとします。また、ランダムな回転とノイズ注入によってデータを増強します(元の画像から新しい画像を生成します)。拡張はオフラインで行われます。 データ増強を行う正しい方法はどれですか? 最初にデータをトレーニングセットと検証セットに分割し、次にトレーニングセットと検証セットの両方でデータ拡張を行います。 最初にデータをトレーニングセットと検証セットに分割してから、トレーニングセットでのみデータの拡張を行います。 最初にデータのデータ増強を行い、次にデータをトレーニングと検証セットに分割します。

3
時系列予測のデータ増強戦略
時系列予測で「データ拡張」を行う2つの戦略を検討しています。 まず、背景について少し説明します。時系列{ A i }の次のステップを予測する予測子PPPは、通常、時系列の過去の状態だけでなく、予測子の過去の状態にも依存する関数です。{Ai}{Ai}\lbrace A_i\rbrace P({Ai≤t−1},PSt−1)P({Ai≤t−1},PSt−1)P(\lbrace A_{i\leq t-1}\rbrace,P_{S_{t-1}}) システムを調整/トレーニングして適切なPPPを取得する場合は、十分なデータが必要です。利用可能なデータでは不十分な場合があるため、データの拡張を検討します。 最初のアプローチ 我々は、時系列があると{Ai}{Ai}\lbrace A_i \rbraceと、1≤i≤n1≤i≤n1 \leq i \leq n。そして、我々が持っていることも想定ϵϵ\epsilon以下の条件を満たしている:0&lt;ϵ&lt;|Ai+1−Ai|∀i∈{1,…,n}0&lt;ϵ&lt;|Ai+1−Ai|∀i∈{1,…,n}0<\epsilon < |A_{i+1} - A_i| \forall i \in \lbrace 1, \ldots,n\rbrace。 新しい時系列{Bi=Ai+ri}{Bi=Ai+ri}\lbrace B_i = A_i+r_i\rbraceを構築できます。ここで、ririr_iは分布N(0,ϵ2)N(0,ϵ2)N(0,\frac{\epsilon}{2}) 。 次に、{Ai}{Ai}\lbrace A_i \rbraceでのみ損失関数を最小化する代わりに、{Bi}{Bi}\lbrace B_i \rbraceでも損失関数を最小化します。したがって、最適化プロセスがmmmステップを取る場合、予測子を2m2m2m回「初期化」する必要があり、約2m(n−1)2m(n−1)2m(n-1)予測子の内部状態を計算します。 第二のアプローチ {Bi}{Bi}\lbrace B_i \rbrace{Bi}{Bi}\lbrace B_i \rbrace{Ai}{Ai}\lbrace A_i \rbracem(n−1)m(n−1)m(n-1) もちろん、ここでは計算作業は少なくなります(ただし、アルゴリズムは少し醜いです)が、今のところ問題ではありません。 疑い 問題は次のとおりです。統計的な観点から、「最良の」オプションはどれですか。なぜ? 最初の方が内部状態に関連する重みを「正規化」するのに役立ち、2番目の方が観測された時系列の過去に関連する重みを正規化するのに役立つため、私の直感は最初の方が優れていることを教えてくれます。 …



1
MCMCとデータ拡張
私はMCMCデータ拡張に関する質問を検討してきました。質問の一般的な形式は次のとおりです。 プロセスで収集されたデータがを示唆しており、rateパラメーターの事前として示唆されているとします。データは標準的な形式(つまり、からまでの各値の出現数)で記録および表示されますが、収集されたデータは、X_ {i} \ leq 1(つまりX_ {i} = 0およびX_ {i} = 1のすべてのオカレンスは1つのカテゴリーにグループ化されます)。Xi∼Pois(λ)Xi∼Pois(λ)X_{i} \sim \text{Pois}(\lambda)λ∼Exp(λ0)λ∼Exp(λ0)\lambda \sim \text{Exp}(\lambda_{0})XiXiX_{i}000nnnXi≤1Xi≤1X_{i} \leq 1Xi=0Xi=0X_{i} = 0Xi=1Xi=1X_{i} = 1 上記のデータ、可能性、事前情報を考慮して、質問では次のことが求められます。 後部形λλ\lambda、 X_ {i} = 0である発生回数Xi=0Xi=0X_{i} = 0。 私はこの質問にどのように答えるかは本当にわかりませんが、ギブスサンプリングがデータ拡張に使用できることを知っています。これをどのように行うことができるかについて誰かが何か情報を持っていますか? 編集: 私はそれが主に2番目の部分(X_ {i} = 0である発生の数Xi=0Xi=0X_{i} = 0)であることを確信できません。最初の部分(\ lambdaの後方形式λλ\lambda)については、可能性と以前の提案が与えられたので、私は推論しました(ただし、修正してよかったのですが)。 与えられた: π(λ|x⃗ )∝p(x⃗ |λ)×p(λ)π(λ|x→)∝p(x→|λ)×p(λ) \pi(\lambda|\vec{x}) \propto p(\vec{x}|\lambda) \times p(\lambda) したがって、上記のモデルの場合: π(λ …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.