自然言語処理の問題の複雑さ[終了]


7

NP-CompleteとNP-Hardのどちらが自然言語処理の問題ですか?

私は検索しました そして タグ(および関連する複雑性タグ)が含まれていますが、結果は得られていません。

推奨されるNLPの質問はどれも役に立ちません。最も近いものは次のとおりです。

NP完全問題のWikipediaのリストは、 NLPのための任意の複雑な結果が表示されません。

私が見つけた唯一のリードは、J。Morin(1995)による論文「自然言語処理における理論的かつ効果的な複雑さ」です。

ヘルプやポインタは大歓迎です!


1
これは私には広すぎる質問のようです。NLPは、些細なことから判断できないことまですべてをカバーする幅広い問題を提供します。どのクラスのタスクに興味がありますか?その紙にはどのような「鉛」が含まれていますか?
ラファエル

チョムスキー理論/解析を介してNLP(ゆるく定義された)と結び付けられたCS解析の歴史を考えると、これは確かにかなり驚くほど広いです!つまり、CFG解析は、おそらく初期のNLP理論と結びつく可能性があります。しかし、NLPをより現代的であるように、より注意深く/限定的/狭く/厳密に定義することなどが役立つ場合があります。また、NLPには多くの統計分析、確率、不正確さがあり、正確な決定の問題がその複雑さをモデル化するための過度に意味のある方法ではない可能性があります。それは、複雑性理論が常にそれほど適用可能であるわけではない機械学習にさらに当てはまります...
vzn

文献の別の/斬新な方向性として、AIコンプリート
vzn '27 / 11/14

回答:


2

LFG(語彙機能文法)の認識はNP-Completeです。

リクエストごとに編集:字句関数文法(LFG)[1]は、チョムスキーの変換構文の理論の代替として開発された自然言語構文の理論です。チョムスキーの理論のいくつかのバージョンは、計算上、無制限の文法と同等です。対照的に、LFGは、機能システムによって拡張された文脈自由文法で構成される文法形式を提供します。

それは、NP完全な特徴システムです。証明は基本的に、最初に機能システムが命題論理と同じくらい強力であることを認識し、次に文法が文を管理するすべての命題制約を満たすことに依存していることに気づくことで機能します。したがって、別の装いの下に隠れている充足可能性の問題です。

[1] Ronald M KaplanおよびJoan Bresnanによる「語彙機能文法:文法表現のための形式システム」。この論文は当初、『文法関係の精神的表現』編に掲載されました。Joan Bresnan(ケンブリッジ、マサチューセッツ:MIT Press、1982)。


2
答えがそれ自体で成り立つように詳しく説明してください。LFGとは何ですか?大まかに証明はどのように機能しますか?公開された参考文献はありますか?
ラファエル

4

多分、最初に自然言語処理(NLP)問題とは何かを定義する必要があります。

たとえば、Context-Free(CF)文法と言語は言語学者(Chomskyタイプ2言語、Bar-Hillelの著作など)によって導入されました。あいまいさは、実際の文分析の言語学、およびCF文法(あいまいさ)と言語(固有のあいまいさ)の正式な研究における主要な問題です。文法のあいまいさは半決定的です。

ですから、曖昧さの問題はあなたの質問に対する答えであるべきだと思います。NLPの問題として分類されますか?

ここで、機能構造(つまり、構造化属性)を備えたCFバックボーンなど、いくつかの最新の構文の形式を採用すると、すぐにチューリングパワーを得ることができます(バリアントによっては、NPハード、またはチューリング完全であることが証明されているLFGを参照)。したがって、注意しないと、夢に見る可能性のある複雑さの問題がすべて発生します。

詳細については、SE言語学の次の質問もご覧ください。「コンピューターサイエンスにおけるP対NPの推測は、言語学に直接関連していますか?

、私自身の答え、私は実際に質問の意義を批判、あるいは少なくともその解釈のいくつかの。翻訳やその他の目的で、文の分析に関して言語学で考慮されている問題の多くは、非常に短時間で解決できる小さな問題です。一部の言語学者は、言語構造に実際の再帰が存在することについて異議を唱える場合さえあります。したがって、漸近的に定義される複雑さ分析の言語的関連性について疑問に思うかもしれません。最初の問題は、漸近分析が意味を持つために漸近線に十分近づくかどうかです。

ただし、大量のデータを処理する必要がある場合、この発言はNLPの一部の側面には適用されません。私は少なくとも2つのケースを知っています:

  • 大規模なコーパスでのデータマイニング。

  • 言語学の逆問題:言語を特徴付けるデータを構造的に抽出するための大規模コーパスの分析と、音素、さまざまな品詞の語彙(別名前終端記号)、接頭辞と接尾辞、または活用形などの構成要素の広範なリストを生成する メカニズム、いくつかの例を示します。

私はデータマイニングの専門家ではないため、処理されるコーパスのサイズに関連する複雑性の問題が実際に発生するかどうかはわかりません。その場合、漸近的な複雑さは確かに問題になります。しかし、それが主に多数の小さな追加タスクで構成されている場合、漸近的な複雑さが非常に重要であることはさらに疑わしいです。ただし、一部のデータマイニング手法は独立したドキュメント間の相関関係で機能し、コーパスに依存する複雑さの問題を引き起こすと思います。

言語の逆問題、つまり言語の識別(おそらく、データマイニングの問題と考えることができます)の場合、私たちは確かに大規模なコーパスのすべての部分を相関させることによって情報を抽出しようとしています。次に、漸近的な複雑さが非常に重要になります。残念ながら、私は特定の問題を心に留めていません。おそらくそのようなシステムには実用的な目的があり、それらを開発する人々はより複雑な形式を単純に回避する傾向があり、二次式はおそらくすでに利用可能なリソースを超えているでしょう。しかし、文献の検索はおそらくいくつかの複雑な問題を引き起こすでしょう。

もう1つのポイントは、言語学には物理学のような明確な法則がないことです。まったく同じ言語を話す人は2人ではないため、現在の言語コンセンサスと考えられるものに十分近いということの方が重要です。したがって、目的が非常にわかりにくい場合は、通常、適切な近似で十分です。私が見た手法は、主に、コーパス構造に基づくいくつかの関数の反復再計算によってパラメータを特定するための固定小数点手法でした。これは、それほど大きな違いがなくなるまで(さらに、残りの病理学的ケースを取り除くためのユーザー入力)です。

自然言語の記述は通常、漸近分析が意味を持つのに十分な大きさであるため、文法および他の形式化された言語構造のプロパティの分析も、あいまいさについて前述したように、非常に複雑な問題の原因となる可能性があります。


1

私のコメントのように、P / NPの複雑さは時として非常に強力ですが、すべての複雑さの質問を釘のように見せかけるハンマーになることがあります。AI、言語翻訳の分野では、統計的、確率的、不正確、機械学習の側面では、時には理想的な測定であり、理論的な計算の複雑さは、より適用されたAI /機械学習において常に中心的または関連するespと見なされるとは限りません。ある意味では、フィールド全体が、適用された問題の複雑さを測定するためのより経験的な側面を持っています。ただし、ここでは他の回答でまだ指摘されていない1つの角度があります。NLP言語翻訳にはいくつかのP / NPの考慮事項があります。たとえば、これらの2つの論文

  • 巡回セールスマン問題としてのフレーズベースの統計的機械翻訳 / Zaslavskiy、Dymetman、Cancedda

  • 統計的機械翻訳の計算の複雑さ / Udupa、Magi

    IBMモデル1-2は概念的にも計算的にも単純ですが、上位(より有用)なモデルを含む計算は難しいことを証明しています。これらの困難な問題のいずれにも多項式時間解が存在することはほとんどありません(ただし、P=NP そして PP=P)、私たちの結果は、これらの計算のための多項式時間近似を開発する必要性を強調して正当化します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.