出典が異なる同じ言葉の違いを比較したい。つまり、「民主主義」などの不明確な言葉の使い方が著者によってどのように異なるかです。
簡単な計画は
- 「民主主義」という用語を述べた本を平文とする
- それぞれの本には、交換する
democracy
とdemocracy_%AuthorName%
word2vec
これらの本でモデルを訓練する- 間の距離を計算し
democracy_AuthorA
、democracy_AuthorB
及びその他の再ラベルは、「民主主義」の言及
したがって、各作者の「民主主義」は、比較のために使用される独自のベクトルを取得します。
しかし、word2vec
信頼できるベクトルを訓練するには、数冊の本よりはるかに多くのラベルが必要です(各ラベルが付けられた単語は、本のサブセットでのみ発生します)。公式ページには、言葉の十億を含むデータセットを推奨しています。
私は、そのような推論を行うために、word2vec
または利用可能な場合は代替ツールを作成するために、1人の著者の本のサブセットがどのくらいの大きさであるかを尋ねたかっただけですか?
1
あなたが民主主義のトピックについてのみ使用している本は、そうでない場合でも、本の内容間の大きな違いによって距離測定基準が圧倒されない可能性がありますか?これは、非常に高い次元の空間にいて、次元の呪いの手に触れられている問題の副作用です。関心のある単語の周囲の小さなテキスト領域のみを取得すると役立つ場合がありますが、それでも重要な問題があります。
—
image_doctor 2015
はい、それがその本質です。これは、おそらく間違って考え抜かれた比喩です。本の章が色で表されていると想像してください。そして、本は全体として、章のすべての色の混合として表されます。西ヨーロッパの民主主義に関する本は、その章の合計として、全体的に赤みがかった色合いになる可能性があります。私たちが観光を青で表すならば、民主主義とそれが経済発展に及ぼす影響についての単一の章を含むキューバの観光に関する本は、強い青の色相を持つでしょう。したがって、2冊の本を全体として見た場合、非常に異なって見えます。
—
image_doctor 2015
これは、2冊の本のベクトルが特徴空間でかなり離れているため、かなり異なるように見えるため、データサイエンティストが言いたいことを表現する、よりアクセスしやすい方法です。データをいじらないで必要な例の数を事前に定量化することは本当に難しいですが、言語は微妙で階層化されているため、できるだけ多くの例が必要になるでしょう。最終的には、試すまでわかりません。これは具体的な答えではありませんが、誰かが同様のことを直接経験したのでない限り、おそらくあなたが得られる最良の方法です。
—
image_doctor 2015
word2vecはすでに「関心のある単語の周りの小さなテキスト領域」のみを使用しています。
—
jamesmf
window
文脈で多くの単語があなたの単語のためのモデルを訓練するために使用されているかのパラメータセットwは
@politicalscientist私はこのプロジェクトを終えていませんでした。
—
アントン・タラセンコ