単語リストのソース


11

私は、いくつかの言語の名詞、副詞、形容詞、動詞のソースを探しています。

リストはすでに分割されてて、OED(および英語以外の同等物)を手作業で再作成する必要はありません。

定義についてはあまり気にしません。一部の単語は複数の品詞になる可能性があることを理解しています-それは問題ありません。

ここの誰かがそのようなソースを知っていますか?そうでない場合、誰かが私を正しい方向に向けることができますか?

次のいずれかの形式で問題ありません(または、人々がアイデアを持っている場合は同様です)。

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • 「名詞」、「動詞」などの平文ファイル
  • mysqlテーブル

回答:


8

私はプリンストン大学のWordNetをいくつかのプロジェクトに使用しました。これは英語の字句データベースです。グローバルWordNetは、すべての言語で同じことをしようとしているプロジェクトの拡張機能です。

http://wordnet.princeton.edu/wordnet/related-projects/の関連プロジェクトにも興味があるかもしれません


1
WordNetがその道です。すべてのトップ研究者がこれを使用しています。
リトウィックボーズ

4

これはまったく役に立たないかもしれない、私は知らない。ただし、MediaWikiには、特定のカテゴリに属する​​すべてのページをリストするためのAPIがあります。Wiktionary.orgで使用してみてください。

ノート:

  • 各クエリは500件の結果のみを返します。ただし、最後に、次の500件の結果を取得するために別のクエリで使用するパラメーターも指定します。
  • 他のサブカテゴリも含め、指定したカテゴリのすべてが含まれます。
  • 結果はアルファベット順のように見えますが、大文字で始まるものはすべて小文字の前に来るものです。

例:

これがお役に立てば幸いです、それが私が思いつくものです。


1

@teknikqaのワードネットの提案を2番目に紹介しますが、APIをチェックすることをお勧めします。

ストーリータイム:言語分析の部分があるAIコースがありました。wordnetのperl APIを使用して、上位3つの定義タイプを自動的に検索し、フレージングをほぼリアルタイムで END OF STORYTIMEに分類しました

多くの言語用のAPIがあります

参考までに、このプロジェクトはA +

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.