タグ付けされた質問 「image-segmentation」

2
平均シフトを使用した画像セグメンテーションの説明
誰かがMean Shiftセグメンテーションが実際にどのように機能するかを理解するのを手伝ってくれませんか? ここに私がちょうど作った8x8の行列があります 103 103 103 103 103 103 106 104 103 147 147 153 147 156 153 104 107 153 153 153 153 153 153 107 103 153 147 96 98 153 153 104 107 156 153 97 96 147 153 107 103 153 153 147 156 153 153 …

8
写真の紙の角を検出するアルゴリズム
写真の請求書/領収書/用紙のコーナーを検出する最良の方法は何ですか?これは、OCRの前に、後続の遠近補正に使用されます。 私の現在のアプローチは: RGB>グレー>しきい値付きキャニーエッジ検出>膨張(1)>小さいオブジェクトの削除(6)>境界オブジェクトのクリア>凸領域に基づいて大きいブログを選択 > [コーナー検出-実装されていません] このタイプのセグメンテーションを処理するには、より堅牢な「インテリジェント」/統計的アプローチが必要だと思います。トレーニングの例はあまりありませんが、おそらく100枚の画像をまとめることができます。 幅広いコンテキスト: 私はプロトタイプにmatlabを使用しており、OpenCVおよびTesserect-OCRでシステムを実装する予定です。これは、この特定のアプリケーションで解決する必要がある多くの画像処理問題の最初のものです。だから私は自分のソリューションを展開し、画像処理アルゴリズムに慣れるようにしています。 アルゴリズムで処理したいサンプル画像は次のとおりです:挑戦したい場合は、大きな画像がhttp://madteckhead.com/tmpにあります。 (ソース:madteckhead.com) (ソース:madteckhead.com) (ソース:madteckhead.com) (ソース:madteckhead.com) 最良の場合、これは次のようになります。 (ソース:madteckhead.com) (ソース:madteckhead.com) (ソース:madteckhead.com) ただし、他の場合は簡単に失敗します。 (ソース:madteckhead.com) (ソース:madteckhead.com) (ソース:madteckhead.com) 素晴らしいアイデアをありがとうございます。大好き! 編集:ハフ変換の進行状況 Q:ハフラインをクラスター化してコーナーを見つけるアルゴリズムは何ですか?回答からのアドバイスに従って、ハフ変換を使用し、ラインを選択し、フィルタリングすることができました。私の現在のアプローチはかなり粗雑です。私は、請求書が常に画像とずれて15度未満になると仮定しました。これが当てはまる場合、行に対して妥当な結果が得られます(以下を参照)。しかし、コーナーを推定するためにラインをクラスター化(または投票)するための適切なアルゴリズムについて完全に確信はありません。ハフ線は連続していません。そして、ノイズの多い画像では、平行な線が存在する可能性があるため、線の起点メトリックからの何らかの形または距離が必要です。何か案は? (ソース:madteckhead.com)

3
「セグメンテーション」や「シーンラベリング」と比較した「セマンティックセグメンテーション」とは何ですか?
セマンティックセグメンテーションは単なるPleonasmですか、それとも「セマンティックセグメンテーション」と「セグメンテーション」の間に違いがありますか?「シーンのラベル付け」または「シーンの解析」に違いはありますか? ピクセルレベルのセグメンテーションとピクセル単位のセグメンテーションの違いは何ですか? (サイド質問:この種のピクセル単位のアノテーションがある場合、オブジェクト検出を無料で取得しますか、それともまだ何かする必要がありますか?) 定義の出典を教えてください。 「セマンティックセグメンテーション」を使用するソース ジョナサンロング、エヴァンシェルハマー、トレヴァーダレル:セマンティックセグメンテーションのための完全たたみ込みネットワーク。CVPR、2015およびPAMI、2016 ホン、スンフン、ヒョンウ、ハンヒョンウ:「半教師付きセマンティックセグメンテーションのための分離されたディープニューラルネットワーク」。arXivプレプリントarXiv:1506.04924、2015。 V. Lempitsky、A。Vedaldi、およびA. Zisserman:セマンティックセグメンテーションのパイロンモデル。神経情報処理システムの進歩、2011年。 「シーンラベリング」を使用するソース Clement Farabet、Camille Couprie、Laurent Najman、Yann LeCun:シーンのラベル付けの階層的機能の学習。パターン分析および機械知能、2013年。 「ピクセルレベル」を使用するソース Pinheiro、Pedro O.、Ronan Collobert:「畳み込みネットワークによる画像レベルからピクセルレベルのラベリングへ」コンピュータビジョンとパターン認識に関するIEEE会議の議事録、2015年(http://arxiv.org/abs/1411.6228を参照) 「pixelwise」を使用するソース Li、Hongsheng、Rui Zhao、Xiaogang Wang:「ピクセルごとの分類のための畳み込みニューラルネットワークの非常に効率的な前方および後方伝播」arXivプレプリントarXiv:1412.4526、2014。 Google Ngram 「セマンティックセグメンテーション」は、「シーンのラベル付け」よりも最近使用されているようです。

1
OCRのクリーニング画像
OCRの画像をクリアしようとしています:(行) 時々画像をさらに処理するためにこれらの行を削除する必要があり、かなり近づきつつありますが、多くの場合、しきい値がテキストから取りすぎています。 copy = img.copy() blur = cv2.GaussianBlur(copy, (9,9), 0) thresh = cv2.adaptiveThreshold(blur,255,cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY_INV,11,30) kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9,9)) dilate = cv2.dilate(thresh, kernel, iterations=2) cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) cnts = cnts[0] if len(cnts) == 2 else cnts[1] for c in cnts: area = cv2.contourArea(c) if area > 300: x,y,w,h = …

2
Pytorch:unetアーキテクチャでカスタムウェイトマップを使用する正しい方法
u-netアーキテクチャには、カスタムのウェイトマップを使用して精度を高めるための有名なトリックがあります。詳細は次のとおりです。 さて、ここや他の複数の場所で質問することで、2つのアプローチについて知ることができます。 1)最初はtorch.nn.Functionalトレーニングループでメソッドを使用することです- loss = torch.nn.functional.cross_entropy(output, target, w) ここで、wは計算されたカスタムの重みです。 2)2つ目はreduction='none'、トレーニングループ外の損失関数の呼び出しで使用することです。 criterion = torch.nn.CrossEntropy(reduction='none') そして、トレーニングループでカスタムウェイトを掛けます- gt # Ground truth, format torch.long pd # Network output W # per-element weighting based on the distance map from UNet loss = criterion(pd, gt) loss = W*loss # Ensure that weights are scaled appropriately loss …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.