タグ付けされた質問 「classification」

研究または観察の対象を、それらの共通の特徴に従ってグループ化するシステムです。分類の問題は、オブジェクト(ケース)のセットが何らかの方法でクラスに分離される、形式化されたタスクです。

5
スケールおよび回転不変フィーチャ記述子
フィーチャ検出で使用するために、いくつかのスケールおよび回転不変フィーチャ記述子をリストできますか。 このアプリケーションは、マルチクラス分類器を使用して、UAVによってキャプチャされたビデオ内の車と人間を検出するためのものです。 これまでのところ、SIFTとMSER(アフィン不変)を見てきました。私もLESHを見ました、LESHはローカルエネルギーモデルに基づいていますが、回転不変ではない方法で計算され、ローカルエネルギーを利用して回転不変を構築する方法を考えようとしています機能記述子、私はここを読みます商用アプリケーションで使用できるSIFT / SURFの無料の代替手段は何ですか?、「関心点に方向を割り当て、それに応じて画像パッチを回転させると、回転不変性が無料で得られます」が、これがさらに当てはまるかどうか、またはこれを私の問題にどのように適用できるかわかりません感謝します、ありがとう

4
音分類のための特徴抽出
サウンドファイルから機能を抽出し、サウンドを特定のカテゴリ(犬の樹皮、車両エンジンなど)に属するものとして分類しようとしています。次のことについて明確にしたい: 1)これはまったく実行可能ですか?音声を認識し、さまざまな種類の犬の樹皮を区別できるプログラムがあります。しかし、音のサンプルを受け取り、それがどんな音なのかを言うことができるプログラムを持つことは可能ですか?(参照する多くのサウンドサンプルを含むデータベースがあると仮定します)。入力音のサンプルは、少しノイズが多い場合があります(マイク入力)。 2)最初のステップは音声特徴抽出だと思います。この記事では、MFCCを抽出し、それらを機械学習アルゴリズムに供給することを提案します。MFCCで十分ですか?一般的に音の分類に使用される他の機能はありますか? お時間をいただきありがとうございます。

1
SIFT機能とSVMを使用した画像分類
SIFT / SURF / ORB機能とサポートベクターマシンを使用してバッグオブワードモデルを使用して画像分類を実行する方法を誰かが説明できることを望んでいますか? 現時点では、画像のSIFT特徴ベクトルを計算し、SVMを実装していますが、ワードバッグモデルを使用してSIFT特徴を「ベクトル量子化」し、ヒストグラムを作成する方法に関する文献を理解することは困難ですSVMのトレーニングとテストに使用できる固定サイズのベクトル。 トピックに関するチュートリアルや文献へのリンクは大歓迎です、ありがとう

2
GLCMを使用してテクスチャを取得し、SVM Classifierを使用して分類するにはどうすればよいですか?
私は肝臓腫瘍のセグメンテーションと分類のプロジェクトをしています。肝臓と腫瘍のセグメンテーションにはそれぞれRegion GrowingとFCMを使用しました。次に、テクスチャフィーチャの抽出にグレーレベルの共起行列を使用しました。分類にはサポートベクターマシンを使用する必要があります。しかし、特徴ベクトルをSVMへの入力として与えることができるように、特徴ベクトルを正規化する方法がわかりません。誰でもMatlabでそれをプログラムする方法を教えてもらえますか? GLCMプログラムに、入力として腫瘍のセグメント化された画像を与えました。私は正しかったですか?もしそうなら、私の出力も正しいと思う。 私のglcmコーディングは、私が試した限りでは、 I = imread('fzliver3.jpg'); GLCM = graycomatrix(I,'Offset',[2 0;0 2]); stats = graycoprops(GLCM,'all') t1= struct2array(stats) I2 = imread('fzliver4.jpg'); GLCM2 = graycomatrix(I2,'Offset',[2 0;0 2]); stats2 = graycoprops(GLCM2,'all') t2= struct2array(stats2) I3 = imread('fzliver5.jpg'); GLCM3 = graycomatrix(I3,'Offset',[2 0;0 2]); stats3 = graycoprops(GLCM3,'all') t3= struct2array(stats3) t=[t1,t2,t3] xmin = min(t); xmax = max(t); …

2
異なる(音楽的?)トーンの識別に使用する方法論
私はこの問題をどのように攻撃するのが最善かを研究し、解明しようとしています。音楽処理、画像処理、信号処理にまたがるので、それを見る方法は無数にあります。純粋なsig-procドメインでは複雑に見えるかもしれないことは、画像や音楽の処理を行う人々によって簡単に(そしてすでに解決されているので)アプローチするための最良の方法について尋ねたかったのです。とにかく、問題は次のとおりです。 問題の私の手描きを許せば、次を見ることができます: 上の図から、3つの異なる「タイプ」の信号があります。最初のパルスは、からまで周波数を「ステップアップ」して、繰り返すパルスです。特定のパルス持続時間と特定のパルス繰り返し時間を持っています。f 4f1f1f_1f4f4f_4 2番目のものはにのみ存在しますが、パルス長が短く、パルス繰り返し周波数が高速です。f1f1f_1 最後に、3番目はトーンです。f1f1f_1 問題は、信号1、信号2、および信号3を区別できる分類器を作成できるように、どのようにこの問題に取り組むかです。つまり、シグナルの1つをフィードすると、このシグナルがそうであることがわかります。対角線混同行列を与える最適な分類子は何ですか? いくつかの追加のコンテキストと私がこれまで考えてきたこと: 私が言ったように、これは多くの分野にまたがっています。私が座ってこれと戦争に行く前に、どの方法論がすでに存在しているのかを尋ねたかった。ホイールを誤って再発明したくありません。さまざまな視点から見た考えをいくつか紹介します。 信号処理の観点: 私が検討したことの1つは、ケプストラム分析を行い、ケプストラムのGabor Bandwidthを他の2と区別するために使用し、次にケプストラムの最高ピークを測定することでした。シグナル-2から1。それが私の現在の信号処理作業ソリューションです。 画像処理の観点:ここでは、スペクトログラムに対して実際に画像を作成できるので、その分野の何かを活用できるのではないかと考えています。私はこの部分に精通していませんが、ハフ変換を使用して「ライン」検出を行い、ラインを「カウント」(ラインとブロブではない場合はどうですか?)してそこから行くのはどうですか?もちろん、スペクトログラムを撮影する任意の時点で、表示されるすべてのパルスが時間軸に沿ってシフトする可能性がありますので、これは問題になりますか?わからない... 音楽処理の観点:確かに信号処理のサブセットですが、signal-1には特定の、おそらく反復的な(音楽的?)品質があり、music-procの人々は常に見ており、すでに解決済みです多分楽器を区別する?確かではありませんが、考えは私に起こりました。おそらく、この立場はそれを見る最良の方法であり、時間領域の塊を取り、それらのステップレートをからかいますか?繰り返しますが、これは私の分野ではありませんが、これは以前に見られたものだと強く疑っています... 3つの信号すべてを異なる種類の楽器として見ることができますか? また、かなりの量のトレーニングデータがあることも付け加える必要があります。そのため、これらの方法のいくつかを使用すると、特徴抽出を行うことができ、K-Nearest Neighborを使用できますが、それは単なる考えです。 とにかく、これは私が今立っている場所です、どんな助けも感謝しています。 ありがとう! コメントに基づく編集: はい、、、、はすべて事前に知られています。(いくつかの差異が、は非常に少ない。例えば、私たちがいることを知っていると言うことができます = 400kHzには、それは401.32 kHzででてくるかもしれません。しかしまでの距離ので、高いです比較して500 kHzであるかもしれない。)信号-1常にこれらの4つの既知の周波数を踏むことになります。Signal-2には常に1つの周波数があります。f 2 f 3 f 4 f 1 f 2 f 2f1f1f_1f2f2f_2f3f3f_3f4f4f_4f1f1f_1f2f2f_2f2f2f_2 信号の3つのクラスすべてのパルス繰り返し率とパルス長もすべて事前にわかっています。(ある程度の分散がありますが、非常にわずかです)。ただし、信号1と2のパルス繰り返し率とパルス長は常にわかっていますが、それらは範囲です。幸いなことに、これらの範囲はまったく重複していません。 入力はリアルタイムで入力される連続時系列ですが、信号1、2、および3は相互に排他的であると仮定できます。つまり、信号の1つだけが任意の時点で存在するということです。また、任意の時点で処理するためにどれだけの時間チャンクを使用するかについて、多くの柔軟性があります。 データはノイズを含む可能性があり、既知の、、、ない帯域に偽のトーンなどがある可能性があります。これはかなり可能です。ただし、問題を「始める」ために、中程度のSNRを想定できます。f 2 f 3 f 4f1f1f_1f2f2f_2f3f3f_3f4f4f_4

3
DCTによるテクスチャ分類
離散コサイン変換の特徴を使用して画像のテクスチャを分類することは、どの程度実行可能でしょうか?グーグル「テクスチャ分類dct」では、ニューラルネットワークを使用して、このトピックに関する学術論文を1つだけ検索します。 私のアプリケーションでは、ラベル付けされた画像の大きなコーパスがあり、画像全体が一貫したテクスチャです(たとえば、毛布、木の樹皮、芝生のフィールドのクローズアップショット)。 前の質問への回答に触発されて、次のアプローチを検討していました。 各画像をピクセルのNxNブロックに分割します 各ブロックのDCTを取る 各DCTを1xM配列に平坦化し、K-Meansクラスタリングアルゴリズムに送り、各DCTのクラスターラベルを取得します。 #3から画像ごとに各ラベルをカウントすることにより、各画像のクラスタリングラベルのヒストグラムを計算します 一連の[(histogram、image label)]を供給することによりSVM分類器を訓練する これはどれくらいうまくいくでしょうか?SIFT / SURFアルゴリズムを介して抽出された機能を使用して同様のシステムを実装しましたが、約60%の精度しか得られませんでした。 DCTを使用してテクスチャを分類できる他の方法はありますか?

2
画像パッチを定性的に比較するための適切なメトリック
画像内の小さな正方形のパッチを「一致」させようとしています。一見すると、これら2つの配列のユークリッド距離スタイルの比較を単純に実行して「類似性」の測定値を取得することは合理的に思えます。これは多くの場合正常に機能します(このメトリックによると、「最良の」パッチ(最小値)はクエリパッチと非常によく似ています)。ただし、これが非常に悪い一致を生成する多くの場合があります。たとえば、次の2つのパッチペアがあるとします。 レンガの壁の2つのパッチ、スコア134(これは平均絶対ピクセル差のコンポーネントの合計です): レンガの壁の1つのパッチ、草の1つのパッチ、スコア123です。 人間にとって、草は「明らかに」レンガと一致しませんが、この測定基準はそうではありません。問題は、局所的な統計的変動にあります。 ヒストグラム比較のようなものを使用すると、すべての空間情報が完全に失われます。たとえば、パッチが上部の草と下部のレンガの場合、下部の草と上部のレンガのパッチと正確に一致します(再度、別の「明らかに間違っている」一致)。 これらのアイデアの両方を何らかの方法で組み合わせて、上記のペア1で「類似」と評価されるが、パッチとその垂直ミラーの例では類似していないメトリックはありますか? どんな提案でも大歓迎です!

3
クラスを線形分離可能な高次元の特徴空間にデータを変換すると、なぜ過剰適合につながるのでしょうか。
私の本(WebbとWileyによる統計的パターン分類)で、SVMと線形的に分離できないデータに関するセクションを読みました。 多くの実際の実用的な問題では、クラスを分離する線形境界はなく、最適な分離超平面を検索する問題は意味がありません。高度な特徴ベクトルを使用して、クラスが線形分離可能な高次元の特徴空間にデータを変換したとしても、これはデータの過剰適合につながり、一般化能力が低下します。Φ(x)Φ(x)\Phi(x) データをクラスが線形分離可能な高次元の特徴空間に変換すると、過剰適合と一般化能力の低下につながるのはなぜですか?

1
異なる位置で測定された信号のピークを自動的に分類するにはどうすればよいですか?
空間のさまざまな位置で、時間の経過とともに音を測定するマイクを持っています。録音されるすべての音は、空間内の同じ位置から発生しますが、ソースポイントから各マイクへの経路が異なるためです。信号は(時間)シフトし、歪む。先験的な知識を使用して、時間シフトを可能な限り補正しましたが、データにはまだ時間シフトが存在しています。測定位置が近いほど、信号は類似しています。 自動的にピークを分類することに興味があります。これは、以下のプロットの2つのマイク信号を「見て」、位置と波形から2つの主要な音があることを「認識」して、それらの時間位置を報告するアルゴリズムを探していることを意味します。 sound 1: sample 17 upper plot, sample 19 lower plot, sound 2: sample 40 upper plot, sample 38 lower plot これを行うために、各ピークの周りでチェビシェフ展開を行い、チェビシェフ係数のベクトルをクラスターアルゴリズムへの入力として使用することを計画していました(k-means?)。 ここに例として、2つのピーク(青い円)の周りの9つのサンプル(赤い)の5項チェビシェフシリーズで近似された2つの近くの位置(青い)で測定された時間信号の一部を示します。 近似はかなり良いです:-)。 しかしながら; 上のプロットのチェビシェフ係数は次のとおりです。 Clu = -1.1834 85.4318 -39.1155 -33.6420 31.0028 Cru =-43.0547 -22.7024 -143.3113 11.1709 0.5416 また、下のプロットのチェビシェフ係数は次のとおりです。 Cll = 13.0926 16.6208 -75.6980 -28.9003 0.0337 Crl =-12.7664 …

1
車両のセグメンテーションと追跡
私はしばらくの間、UAVからキャプチャされたビデオで車両を検出および追跡するプロジェクトに取り組んでいます。現在、車両および背景画像から抽出されたローカルフィーチャの機能のバッグ表現でトレーニングされたSVMを使用しています。次に、スライディングウィンドウ検出アプローチを使用して、画像内の車両の位置を特定し、追跡します。問題は、このアプローチははるかに遅く、私の検出器は私が望むほど信頼性が高くないため、Imがかなりの数の誤検知を取得することです。 したがって、分類器を適用する前に検索スペースを減らすために、車をバックグラウンドからセグメント化しておおよその位置を見つけることを検討してきましたが、これをどのように行うかわからず、誰かが助けてくれることを望んでいましたか? さらに、レイヤーを使用したモーションセグメンテーションについて読んでいます。オプティカルフローを使用してフローモデルでフレームをセグメント化しています。この方法の経験はありますか。この方法が当てはまるかどうかについて、何か意見があれば教えてください。私の問題。 更新:私はこの質問をスタックオーバーフローにも投稿しましたが、素晴らしい回答がありました。このアイデアはすでに実装されており、驚くほどうまく機能しており、この手法に加えてオプティカルフローを使用して調査しています。 以下は、サンプルビデオの2つのフレームです フレーム0: フレーム5:

1
形状にクラスター化されたデータの認識
鳥のさえずりを検出して分類するためにPythonでプロジェクトに取り組んでおり、waveファイルを周波数対時間データに変換する必要がある状況にいます。これはそれほど問題ではありませんでしたが、さまざまな音節をグループに分類できるようにするには、データが特定の形にクラスター化されるときに検出する何かを書く必要があります。データがどのように見えるかを理解するために、プロットしたときにデータがどのように見えるかのイメージを次に示します。 SciPyを使用してそれらの間のピアソン相関を実行できるように、個々の音節(両側に分離がある各形状)を取得して変数または独自のファイルに保存する方法が必要です。 また、私はPythonを好みますが、別の方法でコーディングできる場合は、他の言語でコーディングすることもできます。 ありがとう!

3
加速度計データを分類する方法は?
iPhoneの加速度計を使用して、車が加速したかブレーキをかけたかを検出しようとしています。 下の図では、収集したデータをプロットしています。(データを収集するために、電話は、車の中で、電話の上部を正面に向けて平らに置いていました)。 私が今持っている問題は、車が加速した場所とブレーキをかけた場所を視覚的にはっきりと確認できることです(以下を参照)。しかし、プログラムでそれを行う方法を理解することはできません。 基本的に私が欲しいのは、特定の時間帯に車がブレーキまたは加速した頻度を知ることです。(ウィンドウサイズは約10〜30秒)。 任意の助けをいただければ幸いです。 前もって感謝します!

2
2つの類似した脳波信号をどのように区別できますか?
非常によく似た2つのEEG信号があります。違いは振幅のみです。しかし、それらは2つの異なる認知プロセスから来ています。統計情報に関して2つの非常に類似した信号を区別するために、FFT以外にいくつかの方法は何ですか?私にお知らせください。ありがとうございました BSS。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.