2
FSA文法間の「類似性」を測定する方法は?
私は、特定のテキスト文字列とそのすべての部分文字列を受け入れる非循環有限状態オートマトンを生成するパターンマッチングアルゴリズムを使用しています。FSAアルゴリズムは、音楽ストリーム(MIDIデータなど)の記号表現で実行されています。音楽ストリームは、各曲をラベルのない「セグメント」に分割するように前処理されています。AN FSAは、各楽曲の各セグメントに対して生成される:私が持っている場合曲は、各々 、に分割YセグメントIがありますN ⋅ Y別個のFSAを。nnnyyyn⋅yn⋅yn \cdot y 各セグメントのFSAをコーパス内の他のFSAと比較したいと思います。最終的な目標は、類似性空間内でクラスタリングを実行し、それらの構築メトリックがどの程度類似しているかに従ってセグメントの「クラス」を生み出すことです。したがって、特に興味深いのは、各FSAが定義する文法です(セグメント内の音楽コンテンツのほぼ特定のコンポーネントに対応)。このようなものを比較するのに良いかもしれないテクニックはありますか?KLダイバージェンスが頭に浮かびます(たとえば、それを使用して、特定のFSAに関連付けられた文字列の分布を比較します)。ただし、より良い/より効率的な手法があるかもしれません。 また、この質問が(1)ささいなほど簡単であるか、(2)より深い誤解を示しているか、(3)他の場所で回答されているかについてもお詫びします。私は本当のナブです、皆さん!