タグ付けされた質問 「natural-language-processing」

14
テキスト内のコードを確実に検出する簡単な方法は?
GMailにはこの機能があり、添付ファイルがあると思われるメールを送信しようとすると警告が表示されます。 GMail see the attachedは電子メールで文字列を検出したが、実際の添付ファイルは検出しなかったため、[送信]ボタンをクリックすると、[OK /キャンセル]ダイアログが表示されます。 スタックオーバーフローに関連する問題があります。つまり、ユーザーがこのような投稿を入力すると: 私の問題は、データベースを変更する必要があるが、作成しないことです 新しい接続。例: DataSet dsMasterInfo = new DataSet(); データベースdb = DatabaseFactory.CreateDatabase( "ConnectionString"); DbCommand dbCommand = db.GetStoredProcCommand( "uspGetMasterName"); このユーザーはコードをコードとしてフォーマットしませんでした! つまり、Markdownごとに4つのスペースでインデントしたり、コードボタン(またはキーボードショートカットctrl+ k)を使用してインデントしたりしませんでした。 したがって、私たちのシステムは多くの編集を受け入れており、人々は何らかの方法でこれを理解できない人のためにコードを手動でフォーマットする必要があります。これは多くの反抗につながります。エディターのヘルプを何度か改善しましたが、ユーザーの家に行き、キーボードの正しいボタンを押すだけで、次に何をすべきかわからなくなります。 そのため、Google GMailスタイルの警告を検討しています: コードを投稿するつもりでしたか? 私たちはコードのように見えるものを書きましたが、ツールバーのコードボタンまたはctrl+ kコードフォーマットコマンドを使用して、4つのスペースをインデントすることでコードとしてフォーマットしませんでした。 ただし、この警告を表示するには、質問内のフォーマットされていないコードと思われるものの存在を検出する必要があります。これを行う簡単で半信頼性の高い方法は何ですか? Markdownごとに、コードは常に4つのスペースまたはバックティック内でインデントされるため、正しくフォーマットされたものはすぐにチェックから破棄されます。 これは単なる警告であり、評判の低いユーザーが最初の質問をする(または最初の回答を提供する)場合にのみ適用されるため、約5%以下であれば、いくつかの誤検知は問題ありません。 スタックオーバーフローに関する質問はどの言語でも構いませんが、実際にはチェックを「ビッグ10」言語に制限することができます。タグページごとに、C#、Java、PHP、JavaScript、Objective-C、C、C ++、Python、Rubyになります。 Stack Overflowクリエイティブコモンズデータダンプを使用して、潜在的なソリューションを監査し(またはStack Overflowの上位10個のタグからいくつかの質問を選んで)、それがどのように機能するかを確認します。 擬似コードは問題ありませんが、使いやすくしたい場合はc#を使用します。 シンプルであればあるほど(動作する限り)。キッス!ソリューションで、10種類のコンパイラで投稿をコンパイルする必要がある場合、またはベイジアン推論エンジンを手動でトレーニングするために大勢の人がいる場合、それは...正確には思いませんでした。

2
名前のスペルを間違えにくいものを見つけるには?
ここに、データマイニングと洗練されたアルゴリズムを使用して解決できると思われる質問がありますが、その方法はよくわかりません。どのデータソースを使用し、どのアルゴリズムを適用するかについてのポインタは大歓迎です。 背景:私はポーランドウクライナ人の赤ちゃんを期待しているルーマニアハンガリー人であり、どの国に落ち着きたいのかについて、まだ心を決めていません。ご想像のとおり、特定の名前を選択することは非常に重要であり、熱い議論です。私の側から見ると、ある国から別の国に移動したときに誰かが私の名前のスペルを間違えたときに経験しなければならないすべての面倒にまだ心を痛めています。たとえば、場合にのみ、あなたが「Adriさんのことになったことを見つけるために、あなたはルーマニアに祝福されるだろう「エイドリアン」と呼ばれたE n」は、いくつかの公式のフランスの文書です。ですから、私の唯一の要件は、ヨーロッパの一部の国で赤ちゃんの名前のつづりを間違えないようにすることです。 問題の声明:フランス、ドイツ、スウェーデン、ポーランド、ルーマニアなどの国のセットを考えると、適切に発音された場合、地元の人々がつづりを間違えにくい名のリストを見つけてください。 より正式には、p(c、n)を、国cで名前nのスペルが間違っている確率を返す関数とします。与えられたCに国のセットをして p₀確率を、見つけるNように与えられた名前のセット すべてのためのn ∈ NおよびC ∈ C、P(C、N)<p₀ 最初の考え:中心的な問題はp(c、n)を実装する方法です。ヒューリスティックで近似することを試みることができます。明らかに、次の2つの場合に名前のつづりが間違っている可能性があります。 その国ではほとんど使われていません。 別の国の名前に似ていますが、その国ではあまり使われていません。 これら2つの質問に効率的に回答するために、ウィキペディアなどのインターネットをどのように使用できるかわかりません。1つの国で、かなり頻繁に使用される名前のみをどのようにリストしますか?同様に綴られたものをどのように探しますか?

2
解析されたデータの自然言語処理の永続化
最近、スタンフォードのCoreNLPを使用して自然言語処理(NLP)の実験を開始しましたが、テキストマイニングアプリケーションなどのNLP解析データを保存する標準的な方法にはどのようなものがありますか? 面白いと思う方法の1つは、子を隣接リストとして保存し、再帰クエリをうまく利用することです(Postgresはこれをサポートしており、非常にうまく機能していることがわかりました)。 しかし、私は長年にわたってこの分野で働いている人々によって採用されてきた分析の種類に応じて、おそらくこれを行うための多くの標準的な方法があると思います。それでは、NLPで解析されたデータの標準的な永続化戦略とは何ですか?

6
皮肉を検出するスクリプトを教える方法は?[閉まっている]
現在のところ、この質問はQ&A形式には適していません。回答は事実、参考文献、または専門知識によってサポートされると予想されますが、この質問は議論、議論、世論調査、または広範な議論を求める可能性があります。この質問を改善し、場合によっては再開できると思われる場合は、ヘルプセンターをご覧ください。 8年前に閉鎖されました。 私は現在、基本的に指定されたフレーズと一致し、一致ポイントに基づいて事前定義された応答を提供する楽しいスクリプトを作成しています。ライブフィードに基づいて情報を取得したり、タスクを実行したり、逸話を伝えたり、彼女とチャットしたりできます。 既にbadwords、caps lock、またはその両方の検出機能が組み込まれています。プログラムには女の子の名前があり、私はロジック用語でできるだけ女の子らしい女の子になるようにしようとしました(たとえば、ほとんどの女の子が質問に答えるために700ミリ秒かかることは誰もが知っています、もちろん冗談です)。以下に小さな例を示します。 クライアント:あなたの問題は何ですか? キク:私と一緒に使ってはいけません! クライアント:####あなた Kiku:どうしてあなたは私にそんなに意地悪なのですか:/ しかし、私は本当に皮肉の機能を追加したいと思います。皮肉に何かを書くと、彼女はそれを検出し、それに応じて対応します。さて、これはトリッキーな部分です。スクリプトをどのように教えますか、皮肉は何ですか? より具体的に私に。今日使用されている最も一般的な皮肉な言葉は何ですか?または、その統計を取得する方法は?特定のフレーズのコンテキストをスクリプトに理解させるにはどうすればよいですか? 更新 この質問は多くの誇大広告になっているので、私は物事がもう少しクリアされるべきだと思います。スクリプトが皮肉を完全に検出することは基本的に不可能であることは非常に明白です。少なくとも合理的な問題では。ただし、ある程度の皮肉が検出される可能性があると思います。 現在のところ、スクリプトで非常に限定的な皮肉を検出できるようになっています。いくつかの一般的な皮肉な言葉を事前に定義しました(しかし、それだけでは役に立ちません)。そして、大文字と引用符で囲まれた:THANKS you are so smartやのような単純なものに最初に一致しますoh you are so "SMART"。 スクリプトの主な機能はタスクを実行するか、情報を取得することであり、あとがきはそれが意図したものかどうかを尋ねます。それから私は、「感謝」を特別な変数として追加することを考えました。だから、yeah thanksまたはwhatever thanks可能な皮肉をトリガすると、スクリプトがあなたに尋ねます:「?私は皮肉を検出ください」あなたの最善の策は、「申し訳ありません」と言うことです。そうしないと、警告ポイントが追加され、制限に達すると、無視され始めます。 これらの非常に単純なアルゴリズムは実際に機能するように見えるため、このアイデアには、もちろん多くのチューニングと微調整の後、未来があります。ただし、同じアイデアを念頭に置いてオープンソースソフトウェアを作成する方が賢い人がいるかもしれません。次に、この機能をWeb上の多くの機能にフックできます。カスタマーケアはおそらく最も恩恵を受けるでしょうが、この種のソフトウェアは「フラグ可能」コンテンツの検出にも使用できます。

3
適切な次の単語の予測を実現するために使用できるアルゴリズムは何ですか?
「次の単語の予測」を実装する良い方法は何ですか?たとえば、ユーザーが「私は」と入力すると、システムは次の単語として「a」と「not」(またはおそらく他の人)を提案します。私はマルコフ連鎖といくつかのトレーニングテキストを使用して(明らかに)これを達成する方法を知っています。しかし、私はこの方法が非常に制限的であり、非常に単純なケースに適用されることをどこかで読みました。 ニューラルネットワークと遺伝的アルゴリズムの基本を理解しています(深刻なプロジェクトで使用したことはありませんが)。適切なトレーニングテキスト(たとえば、新聞記事やユーザー自身の入力)が与えられると、次の単語に対して合理的に適切な提案を行うことができるアルゴリズムがあるのでしょうか。アルゴリズムではない(リンクしている)場合は、この問題を攻撃するための一般的な高レベルの方法を歓迎します。

2
パーソナルアシスタントは通常どのように文を生成しますか?
これは、言語学分野におけるNLG研究の方向性に関するこの質問のフォローアップのようなものです。 Siri、Google Now、Cortanaなどのパーソナルアシスタントツールはどのように自然言語生成(NLG)を実行しますか?具体的には、文章テキスト生成部。私は、テキストを音声に変換する部分ではなく、テキスト生成部分だけに関心があります。 その情報がおそらく入手できないので、私はそれぞれがそれをどのように行うか正確に探していません。 その品質の文生成を実装するにはどのような設定が必要なのでしょうか。 データベースにはどのようなデータが必要ですか(高レベル)? 可能なすべての単語とその意味の辞書に加えて、注釈が付けられ、統計的に分析された多くの本/コーパスに辞書を追加する必要がありますか? それは実際に人々が自然な方法で話した(テレビ番組やポッドキャストなどから)録音をしてテキストに変換し、それを何らかの形で "システム"に追加することを必要としますか?(本当に「人間」のような文章を得るために) あるいは、彼らが使用している単純な構文ベースの文パターンだけがあり、巨大な意味論的「意味」データベースがないのですか?誰かが正規表現タイプのものをたくさん書いたところ。 そのような自然に書かれた人間のような文章に使用されるアルゴリズムは何ですか? 質問する理由の1つは、NLG分野がSiriやGoogle Nowなどが成し遂げていることを実行することは非常に遠いようだということです。では、彼らはどんなことをしているのでしょうか?(ちょうど文のテキスト生成部分)。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.