私はこのようなデータセットを持っています:
postID Sentence drugYesOrNo
1 He went out with his friends
2 He behaved nicely while talking with me
3 He stopped using drugs after a while 1
4 He did not meet any friend during last week
1 He slowly cut usage of drugs 1
2 He smiled like he is good
3 He did not seem happy with his situation
ご覧のとおり、2つの機能があります。最初の特徴は私たちの文であり、2つ目の特徴は、この文が患者が薬物を止めたかどうかの兆候であることを示しています。
最初の列は、段落の一部であるその文を示しています。たとえば、ここの文1〜4は1つの段落であり、どの文が薬物の中止を正確に示しているかを確認するためにそれらを分割しています。したがって、最初の段落の文3はこれを示しています。
2番目のケースでは、文1-3は段落の一部です。ここの文1は、この人が薬物の使用をやめたことを示しています(これは人が続けるのは良くないことです)
私の目標は、テキストデータにディープラーニングテキスト分類子を適用してモデルを作成することです。そのため、新しい段落を受け取ったときに、その人が薬物を止めたかどうかを予測できます。
最初の質問です。このケーススタディでは、どの深層学習テキスト分類器が最も効果的ですか。
次に、ご覧のとおり、段落を一連の文に切り分けました。しかし実際には、モデルをテストするための段落を与えます。あなたの考えでは、これに対処するための最良のアプローチは何ですか?
頭に浮かんだのは、段落をテストして受信しているときに、段落を文に分割し、それらの文をモデルに与えることですが、それが良いアプローチかどうかはわかりません。
これらの文は900ありますが、ここでも大量のデータが含まれているため、ディープラーニング分類器を適用するのは間違いでしょう。
あなたの視点を教えてくれれば幸いです:)
コメントを読んだ後に更新する
私は数人の人にそのようなデータセットを作ってくれるよう頼みました。段落を見て、分割して、どの文にその意味があるかを言うことです(薬物をやめるかどうか)。どの文がその意味を持っているかを明示的に言うように依頼せず、どの段落がその意味を持っているかを指摘しただけの場合(薬物を止めるかどうか)。どの文がその意味を持っているかを正確にラベル付けすることは、どの段落がその意味を持っているよりも良い考えだと思いますか?私は十分に明確であることを願っています:)