タグ付けされた質問 「text-processing」

4
文から単語を抽出し、それぞれの品詞を特定するにはどうすればよいですか?[閉まっている]
ここで何が求められているかを伝えるのは難しいです。この質問は曖昧、曖昧、不完全、過度に広範、または修辞的であり、現在の形式では合理的に答えることができません。この質問を明確にして、再開できるようにするには、ヘルプセンターに アクセスしてください。 6年前に閉鎖されました。 私は文を取り、それに含まれる各単語を識別し、各単語が品詞のどの部分であるかを定義する何かを書きたいです。 例えば Hello World、私は文です これを返します verb noun, pronoun verb adjective noun 理想的には、最終的にそれをさらに一歩進めて文を取り、プログラムでそれが解釈しようとしていることを理解し、おそらくそれについて何かをしたいと思います。 だから私の質問は、誰かがこのようなことを聞​​いたことがありますか?

7
週次データシリーズ間のトランザクションを決定するためのアルゴリズム?
私は小さなレポートツール(sqliteバックエンド)を開発しようとしています。このツールは「トランザクション」元帳として最もよく説明できます。私がやろうとしていることは、毎週のデータ抽出からの「トランザクション」を追跡することです。 「新規」(または追加)- 抽出によって表示されていないため、アプリがこのリソースを以前に追跡していない可能性があるため、リソースはアプリにとって新しいものです。 「更新」(またはヒット)-そのリソースが最近使用されており、保存期間がもう1週間更新されています。 「削除」(またはドロップ)-このアイテムは、前回のレポート以降、使用されていません(オプションですが、リソースの需要の週ごとの変化をグラフ化するには便利です)。 私が持っているのは、私が制御できないレガシーのアーカイブ/レコード管理システムからの毎週のデータ抽出(パイプ区切りのフラットファイル)だけです。 各行は基本的にこれに蒸留することができます: resource_id | resource info | customer_id | customer_info サンプルデータ: 10| Title X | 1 | Bob 11| Another title | 1 | Bob 10| Title X | 2 | Alice 目標は、(最後のヒットに基づいて)Xか月間使用されていないリソースについて簡単にレポートできるようにすることです。リソースが人気がある場合、アクセスを容易にするためにリソースが保持される保持期間があります。18か月間使用されていないリソースは、他の場所で長期アーカイブ用にマークされています。 これは一般的な問題です。データセット間で何が新しい/同じ/削除されたかを判断するための汎用アルゴリズムがあるかどうか(dbと最新の抽出)

4
コマンド処理アプリケーションを実装するにはどうすればよいですか?
数値を受け取り、その数値でコマンドを処理するシンプルな概念実証アプリケーション(REPL)を作成したいと考えています。 例:1から始めます。次にadd 2、「」と書いて、3を与えます。次にmultiply 7、「」と書いて、21を与えます。次に、素数かどうかを知りたいので、「is prime」と書きます(現在の数値- 21)、それは私に偽りを与えます。「is odd」は私に真実を与えるでしょう。等々。 さて、コマンドが少ない単純なアプリケーションの場合、単純なものでもコマンドswitchを処理できます。しかし、拡張性が必要な場合、機能を実装するにはどうすればよいですか?コマンドパターンを使用しますか?言語用のシンプルなパーサー/インタープリターを構築できますか?「multiply 5 until >200」のようなより複雑なコマンドが必要な場合はどうなりますか?再コンパイルせずにそれを拡張する(新しいコマンドを追加する)簡単な方法は何でしょうか? 編集:いくつかのことを明確にするために、私の最終的な目標はWolframAlphaに似たものを作ることではなく、(数値の)プロセッサのリストを作ることです。しかし、最初はゆっくりと始めたいと思います(単一の数値について)。 私は、Haskellを使用してリストを処理する方法に似たものを念頭に置いていますが、非常に単純なバージョンです。コマンドパターン(または同等のコマンド)のようなもので十分か、それとも目標を達成するために新しいミニ言語とパーサーを作成する必要があるのか​​と思いますか。 Edit2:すべての回答に感謝します。すべては私にとって非常に役に立ちましたが、エマッドカリームが最も私を助けてくれたので、それを答えとして選びます。再度、感謝します!

2
ユーザーに構成、名前=値のペアの編集を許可するときに空白を処理するためのベストプラクティスは何ですか?
たとえば、悪名高いパス変数をユーザーに定義させます。どのように解釈しapppath = C:\Program Files\Appますか? これは、プログラミング言語がホワイトスペースを無視する慣習を採用しているように見え、読みやすさのために等号の前後に残しますが、アプリケーションではホワイトスペースを含む有効な変数値である可能性があります(サフィックスであると考えてください)。 キーにも空白を含めることができますか? アプリケーションの一般的なベストプラクティスは何ですか?私が持っている場合: key-example = value-example キーの存在"key-example"または"key-example "と値を存在"value-example"またはと解釈する必要があり" value-example"ますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.