多分、最初に自然言語処理(NLP)問題とは何かを定義する必要があります。
たとえば、Context-Free(CF)文法と言語は言語学者(Chomskyタイプ2言語、Bar-Hillelの著作など)によって導入されました。あいまいさは、実際の文分析の言語学、およびCF文法(あいまいさ)と言語(固有のあいまいさ)の正式な研究における主要な問題です。文法のあいまいさは半決定的です。
ですから、曖昧さの問題はあなたの質問に対する答えであるべきだと思います。NLPの問題として分類されますか?
ここで、機能構造(つまり、構造化属性)を備えたCFバックボーンなど、いくつかの最新の構文の形式を採用すると、すぐにチューリングパワーを得ることができます(バリアントによっては、NPハード、またはチューリング完全であることが証明されているLFGを参照)。したがって、注意しないと、夢に見る可能性のある複雑さの問題がすべて発生します。
詳細については、SE言語学の次の質問もご覧ください。「コンピューターサイエンスにおけるP対NPの推測は、言語学に直接関連していますか?」
で、私自身の答え、私は実際に質問の意義を批判、あるいは少なくともその解釈のいくつかの。翻訳やその他の目的で、文の分析に関して言語学で考慮されている問題の多くは、非常に短時間で解決できる小さな問題です。一部の言語学者は、言語構造に実際の再帰が存在することについて異議を唱える場合さえあります。したがって、漸近的に定義される複雑さ分析の言語的関連性について疑問に思うかもしれません。最初の問題は、漸近分析が意味を持つために漸近線に十分近づくかどうかです。
ただし、大量のデータを処理する必要がある場合、この発言はNLPの一部の側面には適用されません。私は少なくとも2つのケースを知っています:
私はデータマイニングの専門家ではないため、処理されるコーパスのサイズに関連する複雑性の問題が実際に発生するかどうかはわかりません。その場合、漸近的な複雑さは確かに問題になります。しかし、それが主に多数の小さな追加タスクで構成されている場合、漸近的な複雑さが非常に重要であることはさらに疑わしいです。ただし、一部のデータマイニング手法は独立したドキュメント間の相関関係で機能し、コーパスに依存する複雑さの問題を引き起こすと思います。
言語の逆問題、つまり言語の識別(おそらく、データマイニングの問題と考えることができます)の場合、私たちは確かに大規模なコーパスのすべての部分を相関させることによって情報を抽出しようとしています。次に、漸近的な複雑さが非常に重要になります。残念ながら、私は特定の問題を心に留めていません。おそらくそのようなシステムには実用的な目的があり、それらを開発する人々はより複雑な形式を単純に回避する傾向があり、二次式はおそらくすでに利用可能なリソースを超えているでしょう。しかし、文献の検索はおそらくいくつかの複雑な問題を引き起こすでしょう。
もう1つのポイントは、言語学には物理学のような明確な法則がないことです。まったく同じ言語を話す人は2人ではないため、現在の言語コンセンサスと考えられるものに十分近いということの方が重要です。したがって、目的が非常にわかりにくい場合は、通常、適切な近似で十分です。私が見た手法は、主に、コーパス構造に基づくいくつかの関数の反復再計算によってパラメータを特定するための固定小数点手法でした。これは、それほど大きな違いがなくなるまで(さらに、残りの病理学的ケースを取り除くためのユーザー入力)です。
自然言語の記述は通常、漸近分析が意味を持つのに十分な大きさであるため、文法および他の形式化された言語構造のプロパティの分析も、あいまいさについて前述したように、非常に複雑な問題の原因となる可能性があります。