どの深層学習テキスト分類子が健康データに適していますか


7

私はこのようなデータセットを持っています:

postID  Sentence                                         drugYesOrNo
1       He went out with his friends    
2       He behaved nicely while talking with me 
3       He stopped using drugs after a while                 1
4       He did not meet any friend during last week 
1       He slowly cut usage of drugs                         1
2       He smiled like he is good   
3       He did not seem happy with his situation    

ご覧のとおり、2つの機能があります。最初の特徴は私たちの文であり、2つ目の特徴は、この文が患者が薬物を止めたかどうかの兆候であることを示しています。

最初の列は、段落の一部であるその文を示しています。たとえば、ここの文1〜4は1つの段落でありどの文が薬物の中止を正確に示しているかを確認するためにそれらを分割しています。したがって、最初の段落の文3はこれを示しています。

2番目のケースでは、文1-3は段落の一部です。ここの文1は、この人が薬物の使用をやめたことを示しています(これは人が続けるのは良くないことです)

私の目標は、テキストデータにディープラーニングテキスト分類子を適用してモデルを作成することです。そのため、新しい段落を受け取ったときに、その人が薬物を止めたかどうかを予測できます。

最初の質問です。このケーススタディでは、どの深層学習テキスト分類器が最も効果的ですか。

次に、ご覧のとおり、段落を一連の文に切り分けました。しかし実際には、モデルをテストするための段落を与えます。あなたの考えでは、これに対処するための最良のアプローチは何ですか?

頭に浮かんだのは、段落をテストして受信しているときに、段落を文に分割し、それらの文をモデルに与えることですが、それが良いアプローチかどうかはわかりません。

これらの文は900ありますが、ここでも大量のデータが含まれているため、ディープラーニング分類器を適用するのは間違いでしょう。

あなたの視点を教えてくれれば幸いです:)

コメントを読んだ後に更新する

私は数人の人にそのようなデータセットを作ってくれるよう頼みました。段落を見て、分割して、どの文にその意味があるかを言うことです(薬物をやめるかどうか)。どの文がその意味を持っているかを明示的に言うように依頼せず、どの段落がその意味を持っているかを指摘しただけの場合(薬物を止めるかどうか)。どの文がその意味を持っているかを正確にラベル付けすることは、どの段落がその意味を持っているよりも良い考えだと思いますか?私は十分に明確であることを願っています:)

回答:


5

はい、段落を文に分割し、それらの文をモデルに渡す必要があります。深い構造は次のようになります。

最初のレイヤーでは、文章を一連のベクトルとして表すために、単語埋め込みレイヤーを配置する必要があります。2番目の層では、シーケンスベクトルを単一のベクトルとしてモデル化できるようにLSTMを配置する必要があります。これで、線形、Relu、またはS字型のアクティベーション関数を使用して連続するレイヤーを追加し、モデルをより深くすることができます。最後の層では、シグモイド活性化関数を使用してバイナリ分類を行う必要があります。


ご回答有難うございます。LSTMが良い結果を出すには、1000段落またはほぼ5000文で十分だと思いますか?
sariii

どういたしまして。はい、十分そうです。
pythinker

なぜ段落を一連の文として見るのではなく、それを段落として見るように提案しなかったのですか。したがって、この場合は段落があり、段落全体をモデルに渡します。その後、段落に、患者が薬物の使用をやめたことを示す文があった場合、それは1です。それ以外の場合は、0です。つまり、どの文がその情報を持っているかを示すこのような分割は、モデルが正確に予測するのに役立つと思いますか?申し訳ありませんが、確認したいのですが、論理的な作業になります。:)
sariii 2018年

より正確に言うと、段落を処理するときは、段落をサブ段落に分割して、各サブ段落がラベルのみに対応するようにする必要があります(薬物の使用の有無にかかわらず)。次に、各サブパラグラフを単一の観測値としてモデルに渡す必要があります。
pythinker

正確にはどういう意味かわかりませんでした:| ペルシャ語で言うこともできます。質問に戻りましょう。私は数人の人にそのようなデータセットを作ってくれるよう頼みました。つまり、段落を見て、分割して、どの文がその意味を持つかを言います。どの文がその意味を持っているかを明示的に言うように依頼せず、どの段落がその意味を持っているかを指摘しただけの場合(薬物を止めるかどうか)。どの段落がその意味を持っているのではなく、どの文がその意味を持っているのかを正確に綴ることは良い考えだと思いますか?私は十分に明確であることを願っています:)
sariii
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.