FSA文法間の「類似性」を測定する方法は?


10

私は、特定のテキスト文字列とそのすべての部分文字列を受け入れる非循環有限状態オートマトンを生成するパターンマッチングアルゴリズムを使用しています。FSAアルゴリズムは、音楽ストリーム(MIDIデータなど)の記号表現で実行されています。音楽ストリームは、各曲をラベルのない「セグメント」に分割するように前処理されています。AN FSAは、各楽曲の各セグメントに対して生成される:私が持っている場合曲は、各々 、に分割YセグメントIがありますN Y別個のFSAを。nyny

各セグメントのFSAをコーパス内の他のFSAと比較したいと思います。最終的な目標は、類似性空間内でクラスタリングを実行し、それらの構築メトリックがどの程度類似しているかに従ってセグメントの「クラス」を生み出すことです。したがって、特に興味深いのは、各FSAが定義する文法です(セグメント内の音楽コンテンツのほぼ特定のコンポーネントに対応)。このようなものを比較するのに良いかもしれないテクニックはありますか?KLダイバージェンスが頭に浮かびます(たとえば、それを使用して、特定のFSAに関連付けられた文字列の分布を比較します)。ただし、より良い/より効率的な手法があるかもしれません。

また、この質問が(1)ささいなほど簡単であるか、(2)より深い誤解を示しているか、(3)他の場所で回答されているかについてもお詫びします。私は本当のナブです、皆さん!


3
「類似」の意味を教えてください。メトリックを選択する必要があります。すべての目的に適した正しい指標はありません。詳細な情報がないと、どの指標を使用するかを説明できません。質問を編集して、類似性を測定する理由、類似性メトリックの結果を使用して何を行うのか、どのような研究を行ったのかを説明することをお勧めします。最初に、それらの文字列から派生したFSAの類似性を測定するのではなく、基礎となる文字列間の類似性の測定値を調べることから始めます。編集距離が思い浮かびます。
DW

多くの文字列メトリックがあります。どちらが効果的かは状況によって異なります。(注:この記事にリストされている文字列「メトリック」の一部は、実際には数学的な意味でのメトリックではありません。)
ラファエル

文字列メトリックスは良いですが、私が望んでいるものではありません。特定の文字列を互いに比較する代わりに、それらの文字列を生成する可能性があったルールのシステム(正式な文法/ FSA)を比較したいと思います。特定の文字列を生成できる文法が無限にあることを認識しているため、検索を特定のルールセットを使用して構築された文法(FSA)に制限しています。私はそこに二つの個別の文字列がメトリック与えられた文字列に応じて正式に類似している場合であってもよいが、文法は彼らがかなり異なっている生成するために必要かもしれないと想像
フリップ

問題の記述から、各FSAは1つのストリングとそのすべてのサブストリングを受け入れています。基本的に、このFSAは、受け入れる最長の文字列によって特徴付けられます。その全体の構造はそれに由来しています。したがって、FSAを構成する文字列を直接比較するのではなく、FSAを比較する意味はほとんどありません。あなたのFSA構築手法は、あなたが重要だと考えるいくつかの機能を強調しているかもしれません。次に、何が重要かを理解するために、彼らがどのように見えるかを知る必要があります。それは戻って来ます:類似しているもの、どのメトリック。現状では、この質問は意味がありません。
バブー2015

回答:


1

あなたは別の角度からより多くの幸運を持ち、曲の類似性の研究を調査しているかもしれません、それを研究している研究者がいます、そしてあなたのアプローチはうまくいく一方で他のアプローチがあります。歌詞、ジャンルなど、多くの要素/基準を調べる大規模なデータベースがあります。たとえば、ミュージックゲノムプロジェクト

さまざまなアルゴリズムがある場合、調査が役立つことがあります。ここにグラフマッチングに関する2つの調査があります。


0

FSAは有向グラフであるため、質問は「有向グラフ間の類似性を測定するアルゴリズム」として一般化できます。「グラフ類似性アルゴリズム」をグーグル検索すると、ページとヒットのページが表示されますが、おそらくそれらの1つがあなたの目的に適していますか?

FSAと一般的なダイグラフの違いがエッジラベル、つまりFSAの遷移記号になると、これらを考慮に入れるためにこれらのアルゴリズムを変更する必要があります。


このような方法では、いくつかの主要なプロパティが失われます。たとえば、同じ言語のさまざまな表現に完全な類似性を持たせたい場合がありますが、グラフを比較すると、同じ言語の2つのオートマトンが異なるものとして報告される可能性があります。
jmite 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.