タグ付けされた質問 「online」

オンラインアルゴリズムとは、反復して実行される計算のことで、計算中にデータが到着します。インターネットに焦点を当てた質問については、「インターネット」タグを使用してください。


4
オンライン異常値検出
高スループットイメージングパイプラインの一部として、自動セグメント化された顕微鏡画像を処理して、欠陥のある画像や欠陥のあるセグメンテーションを検出したい。生の画像とセグメンテーションごとに計算できる多数のパラメータがあり、画像に欠陥があると「極端」になります。たとえば、画像内のバブルは、検出された「セル」の1つに巨大なサイズなどの異常、またはフィールド全体の異常に低いセル数をもたらします。これらの異常なケースを検出する効率的な方法を探しています。理想的には、次の特性を持つメソッドをお勧めします(ほぼ望ましい順に)。 事前定義された絶対しきい値は必要ありません(ただし、事前定義されたパーセンテージは問題ありません)。 すべてのデータをメモリに保存したり、すべてのデータを確認したりする必要はありません。メソッドが適応可能で、さらに多くのデータが表示されたら基準を更新しても問題ありません。(明らかに、わずかな確率で、システムが十分なデータを確認する前に異常が発生し、見逃される可能性があります。) は並列化可能です。たとえば、最初のラウンドでは、並行して動作する多くのノードが中間候補の異常を生成し、最初のラウンドが完了した後、2番目のラウンドの選択を受けます。 私が探している異常は微妙ではありません。これらは、データのヒストグラムを見ると明白にわかる種類です。しかし、問題のデータ量、および画像が生成されているときにリアルタイムでこの異常検出を実行するという最終目標は、人間の評価者によるヒストグラムの検査を必要とするソリューションを排除します。 ありがとう!
10 outliers  online 

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
オンラインの時系列予測を処理する方法は?
私は以下の問題を扱ってきました。私は一種のリアルタイムシステムを持っており、タイムフレームごとに現在の値を読み取り、時系列(1、12、2、3、5、9、1など)を作成します。オンラインで(新しい値が読み込まれるたびに)次の値を予測する方法(統計および機械学習)を知りたいのですが。RのARIMAとWekaのSMOregを試してみましたが、良い予測が得られましたが、新しい値が来るたびに計算をやり直さなければならないので、それらは少し遅いです。 PSメソッドが信頼区間を持っている場合も素晴らしいです。

1
ストリームデータの分類器のインクリメンタルオンライン学習の手法
この抽象的な問題に直面するための良いテクニックはどれですか? 物理的なセンサーからのデータのように、連続信号のデータストリームがあります。その信号には実際の(離散化された)値があり、属性はありません。依存性の特徴(例:パワー、自己相関、エントロピー)が抽出される場合があります。有限セットの1つのラベルを信号のウィンドウに割り当てることができます。このラベルをトレーニングラベルにします。ウィンドウの始点と終点、およびウィンドウラベルを選択する必要があります。 信号が受信されたときと同じように、タスクは次のウィンドウをオンラインで分類することです。 私はインクリメンタルアルゴリズムを求めています。より多くのトレーニングラベルが与えられれば、検出パフォーマンスが向上するという意味です。ただし、トレーニングラベルが1つしかない場合でも分類できる必要があります。 Windows境界の検出が原因で問題が難しすぎる場合は、小さな定数でサイズを修正できるとしましょう。したがって、アルゴリズムは信号の小さなスライスを分類し、同じラベルを持つ隣接するスライスをマージします。その簡略化されたアプローチを使用する場合は、それが合理的である理由を正当化してください。

1
確率的勾配降下法を使用した混合ガウスモデルの近似
私は、確率的勾配降下法を使用してガウス混合モデルに適合するオンラインカテゴリ学習モデルに取り組んでいます。このモデルは、Toscano&McMurray(2010)で使用されているオンライン学習モデルに基づいています。 勾配降下法はカテゴリーの平均と頻度/混合確率を推定するのにかなりうまく機能しているようですが、混合成分の共分散の推定に問題があります。勾配降下法の更新に使用してきた偏微分は、Petersen&Pedersen(2008)(p。 で始まります p (x )= ∑kρkNバツ(μk、Σk)p(バツ)=ΣkρkNバツ(μk、Σk)p(x) = \sum _k \rho_k \mathcal N_x(\mu_k,\Sigma_k) ピーターセン&ペダーセンは、共分散行列に関して偏微分を与えるとしてΣΣ\Sigma δlnp (x )δΣj= ρjNバツ(μj、Σj)ΣkρkNバツ(μk、Σk)12[ - Σ− 1j+ Σ− 1j(X - μj)(X - μj)TΣ−1j]δln⁡p(バツ)δΣj=ρjNバツ(μj、Σj)ΣkρkNバツ(μk、Σk)12[−Σj−1+Σj−1(バツ−μj)(バツ−μj)TΣj−1]\frac{\delta \ln p(x)}{\delta \Sigma_j}=\frac{\rho_j\mathcal N_x(\mu_j,\Sigma_j)}{\sum _k \rho_k \mathcal N_x(\mu_k,\Sigma_k)}\frac{1}{2}[-\Sigma_j^{-1}+\Sigma_j^{-1}(x-\mu_j)(x-\mu_j)^T\Sigma_j^{-1}] Pythonで実装しているので、各の勾配降下ステップは次のです(これはわずかな簡略化であり、すべてのコンポーネントのは更新を実行する前に計算されます)。 Δ ΣΣjΣj\Sigma_jΔ ΣΔΣ\Delta\Sigma j.sigma += learning_rate*(G(x)/M(x))*0.5*(-inv(j.sigma) + inv(j.sigma).dot((x-j.mu).dot((x-j.mu).transpose())).dot(inv(j.sigma))) ここで、jは混合の番目の成分を表すオブジェクトであり、j.sigmaとj.muはその成分の平均と分散です。G(x)/ M(x)は、を計算するいくつかのコードのρ jのNは、 xは(μ J、Σ jは)jjjρjNバツ(μj、Σj)ΣkρkNバツ(μk、Σk)ρjNバツ(μj、Σj)ΣkρkNバツ(μk、Σk)\frac{\rho_j\mathcal …

3
限られたメモリでのオンラインの分散推定
時間内に発生するイベントに関連するメトリックの平均と分散を計算することを目的とするコンポーネントを作成していますが、内部メモリは限られています。 イベントがショップに入場する訪問者であり、メトリックが年齢であると想像してください。 期間中、私のコンポーネントは各訪問者の年齢のイベントを受け取ります。コンポーネントに各年齢の履歴を記憶させたくありません。理想的には、平均A、分散V、およびイベント数のみを格納するライトコンポーネントが欲しいNです。 ageのある各イベントの後にE、これらの3つの値を更新します。 N<=N+1 A<=(A*N+E)/(N+1) V<=??? 何のためにV?私は次のようなものを考えています: V<=(V*N+(E-A)^2)/(N+1) 私の以前の人Vは古いAものを使用しているため、正確ではないことを知っています。これは平均ではありません。 Q1-正確な式はありますか? Q2-そうでない場合、私の提案は適切な見積もりですか?偏っていますか?N増加すると、正しく収束しますか? Q3-より良い式はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.