タグ付けされた質問 「image-processing」

入力が画像である信号処理の形式。通常、デジタル画像を2次元信号(または多次元)として扱います。この処理には、画像の復元と拡張(特に、パターン認識と投影)が含まれます。

1
ニューラルネットワークでのボトルネックレイヤーの意味
私はFaceNetの論文を読んでいて、導入部の3番目の段落で次のように述べています。 ディープネットワークに基づく以前の顔認識アプローチは、一連の既知の顔IDでトレーニングされた分類レイヤーを使用し、中間のボトルネックレイヤーを、トレーニングで使用されるIDセットを超えて認識を一般化するために使用される表現として採用します。 中間のボトルネックレイヤーとは何を意味しているのでしょうか。

1
U-Matrixを自動的にクラスター化する方法は?
自己組織化マップをトレーニングした後、U-Matrixを計算できます。手動で視覚化してクラスターを特定するツールはいくつかありますが、このプロセスを自動で実行するアルゴリズムがあるかどうか(つまり、人間が図を見てクラスターを特定できないか)は疑問です。 これを行う方法はありますか?私はRでコードを書いています。インターネット上ではそのようなものは何も見つかりません。そのため、誰かがここで手助けしてくれるかもしれません。

2
点群データの円形パターンを検出する
私が取り組んでいるいくつかのボリューム再構成アルゴリズムでは、(LIDARデバイスからの)3Dポイントデータで任意の数の円形パターンを検出する必要があります。パターンは空間で任意に方向付けることができ、(完全ではありませんが)薄い2D平面にあると見なされます。これは、同じ平面に2つの円がある例です(ただし、これは3Dスペースであることを覚えておいてください)。 私は多くのアプローチを試みました..最も単純な(しかし、これまでのところ最もうまく機能している)方法は、最近傍グラフの互いに素な集合に基づいてクラスタリングすることです。これは、パターンが遠く離れている場合は十分に機能しますが、例のような円が実際に互いに近い場合は、それほど効果はありません。 K平均法を試してみましたが、うまくいきません。円形の点の配置は、これにはあまり適していないのではないかと思います。さらに、Kの値が事前にわからないという問題もあります。 最近傍グラフでのサイクルの検出に基づいて、より複雑なアプローチを試しましたが、得られた結果は、非常に脆弱であるか、計算コストがかかりました。 私は多くの関連トピック(ハフ変換など)についても読みましたが、この特定のコンテキストでは完全に適用されるようには見えません。どんなアイデアやインスピレーションもいただければ幸いです。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

3
セマンティックセグメンテーションの損失関数
技術用語の誤用を謝罪します。私は、畳み込みニューラルネットワーク(CNN)によるセマンティックセグメンテーションのプロジェクトに取り組んでいます。タイプEncoder-Decoderのアーキテクチャを実装しようとしているため、出力は入力と同じサイズです。 ラベルはどのようにデザインしますか?どの損失関数を適用する必要がありますか?特にクラスの不均衡が激しい状況では(ただし、クラス間の比率はイメージごとに異なります)。 問題は2つのクラス(対象オブジェクトと背景)を扱います。Kerasをtensorflowバックエンドで使用しています。 これまでのところ、予想される出力をピクセル単位のラベリングを適用して入力画像と同じ次元になるように設計しています。モデルの最終層には、ソフトマックスアクティベーション(2つのクラスの場合)またはシグモイドアクティベーション(ピクセルがオブジェクトクラスに属する確率を表すため)があります。次のタイプのタスクに適した目的関数の設計に問題があります。 function(y_pred,y_true)、 Kerasとの合意による。 関係するテンソルの寸法(モデルの入力/出力)を具体的に示してください。どんな考えや提案も大歓迎です。ありがとうございました !

1
群集の写真の人数を測定するにはどうすればよいですか?
背景:イスラエル(そして一般的に中東)は抗議に満ちています。 写真を与えられたら、その写真に何人の人がいるかを推定することに興味があります(多くの場合、大群衆の写真)。 この問題に対して何らかの解決策を提供できるモデリングは何ですか?(そしてもちろん、それは任意のオープンソースパッケージで実行できます。たとえば、Rですか?)

1
数字認識ツールとしてのSVMの利点
私は数字認識に非常に慣れていないので、多くのチュートリアルがSVM分類を使用していることに気づきました。たとえば、 http://hanzratech.in/2015/02/24/handwritten-digit-recognition-using-opencv-sklearn-and-python.html http://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html たとえば、ツールと比較して、そのツールに(ドメイン固有の)利点があるかどうかを知りたい ディープラーニングニューラルネットワーク k-meansに基づく分類 コメントありがとうございます。また、SVMが数字を認識するための間違ったツールである理由も明確化されます。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

1
ディープラーニングによるワンショットオブジェクト検出
近年、オブジェクト検出の分野は、ディープラーニングパラダイムの普及後、大きな進歩を遂げました。YOLO、SSD、FasterRCNNなどのアプローチは、オブジェクト検出の一般的なタスクにおいて最新技術を保持します[ 1 ]。 ただし、特定のアプリケーションシナリオで、検出するオブジェクト/ロゴの参照画像が1つしか与えられていない場合、ディープラーニングベースの方法は適用性が低く、SIFTやSURFなどの局所特徴記述子がより適切な代替手段として表示されます。導入コストはほぼゼロです。 私の質問は、ディープラーニングがオブジェクトクラスごとに1つのトレーニング画像だけでオブジェクト検出にうまく使用されているアプリケーション戦略(できれば、それらを説明する研究論文だけでなく、利用可能な実装)を指摘できますか? アプリケーションシナリオの例: この場合、SIFTは画像内のロゴを正常に検出します。

2
トリプレットネットワークのL2正規化の目的
顔認識のためのトリプレットベースの遠隔学習は非常に効果的です。紙の特定の側面に興味があります。顔の埋め込みを見つける一環として、L2正規化を使用して隠しユニットを正規化します。これにより、表現が超球上にあるように制約されます。なぜそれが役立つか必要なのですか?

1
U-Netはどのようにしてピクセル分類を単一の空間領域にグループ化しますか?
「U-Net」として知られるニューラルネットワーク(Ronneberger、Fischer、およびBrox 2015)は、Kaggleの最近の超音波神経セグメンテーションコンテストで著名な技​​術でした。そこでは、高いスコアが、手描きの領域。 (クリストファーヘフェレからの写真) (おそらくダウンサンプリングされた画像から)すべてのピクセルの分類を続行する場合、隣接するピクセルが同じクラスになる傾向があるという事前の知識を組み込む多くの方法が必要であり、さらにすべての正の分類が単一の空間領域。しかし、私はこれらのU-Netsがどのようにそれをしているのか理解できません。畳み込み演算子とプーリング演算子の迷路ではありますが、これらはすべてのピクセルを分類します。 分離の境界線が関係していますが、紙はそれらが「形態学的演算を使用して計算される」と述べており、これは私がU-Net自体から完全に分離していることを意味します。これらの境界線は、境界線のピクセルがより強調されるように、重みを変更するためにのみ使用されます。それらは分類タスクを根本的に変えるようには見えません。 すべてのピクセルを分類する際、「U-Net」と呼ばれるこの深い畳み込みニューラルネットワークは、予測領域が単一の空間領域になるという事前知識をどのように組み込んでいますか?

3
ニューラルネットワークで分類する前に画像データセットでPCAを使用する
画像データマトリックスがあります バツ∈RN x p X∈ℜN x pX \in \Re^{N \ \text{x}\ p} どこ N= 50000N=50000N=50000 画像の例の数であり、 p = 3072p=3072p=3072 画像のピクセル数です。 p = 3072 = 32 × 32 × 3p=3072=32×32×3p = 3072 = 32 \times 32 \times 3、各画像は3チャンネルであるため 32 × 3232×3232 \times 32画像。さらに、50000の画像のそれぞれは、10の可能なクラスの1つに属しています。つまり、クラス ' car'の5000個の画像、クラス ' 'の5000個の画像birdなどがあり、合計10個のクラスがあります。これはCIFAR-10データセットの一部です。 ここでの最終的な目標は、このデータセットで分類を実行することです。この目的のために、教授はこれについてPCAを試し、それらの機能を分類子に配置することを述べました。私の分類子として、1つの非表示レイヤーとsoftmax出力を持つ完全に接続されたニューラルネットワークを使用しています。 私の問題は、私がPCAを正しい方法で実行したと信じていることですが、私の方法が誤って適用されている可能性があると思います。 これは私がやったことです: 私のデータのPCAを計算するために、これは私がこれまでに行ったことです: …

1
画像データのゼロ平均と単位分散とは何ですか?
ディープラーニングは初めてです。いくつかの概念を理解しようとしています。「平均」は平均値であり、「分散」は平均からの偏差です。いくつかの研究論文を読んだことがありますが、いずれも最初にデータを前処理すると言っています。しかし、これらの概念は画像の前処理とどのように関連していますか?これらの概念が画像データの前処理として使用されるのはなぜですか? 実際、これらの手法が分類にどのように寄与するかを理解できません。Googleで検索しましたが、説明が少ないキーワードで検索されている可能性があります 。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.