タグ付けされた質問 「machine-learning」

一部のデータセットによって「トレーニング」されるアルゴリズムに関連しています。

1
AST形状を定量的に比較する
同様のソースコードプログラム(C、C ++、Go、またはGCCでコンパイルされたもの)の抽象構文ツリーの形状をどのように比較できますか? 私は推測するソースコードの盗用検出は、そのような技術を使用しますが、私はそれと呼ばれることだろうかの見当がつかない... たとえば、統一を使用してASTを比較できますが、それはブール値の回答しか提供しません。数値の「距離」、またはある種の数値ベクトル(たとえば、機械学習や分類アルゴリズム、またはその他のビッグデータのものに後でフィードされる)を提供するいくつかの手法を探しています。 大規模なソースコードセットでのビッグデータや機械学習アプローチへの言及も歓迎します。 (このように広範またはあいまいな質問で申し訳ありません。使用する用語がわかりません) 2つのASTまたはプログラムを単純に比較したくありません。大量のプログラム(Debianディストリビューションのソースコードの半分など)を処理し、その中に同様のルーチンを見つけたいと思っています。私はすでにMELTを使用してGCC内部表現(Gimple)に取り組んでいるため、それを活用したいので、いくつかのメトリック(どれか?循環的複雑度はおそらく十分ではない)をデータベースなどに保存し、比較して処理します... 補遺:MOSSシステムと紙について発見されましたが、構文の形はまったく気にしていないようです。ツリーの編集距離も調べます。 ソースコードの類似性を探すことについて(JérémieSalvucciに感謝)Michel Chilowi​​czの博士論文(2010年11月フランス語)も発見

4
電子メールを外部システムへの入力として使用する場合、本文のみの電子メールをトリミングする方法は?
アプリケーションがメールに送信してコメントに返信したり、ToDoを追加したりできるようにする場合、さまざまな標準が存在するため、関連するテキストのみのメールをトリミングすることが問題になります。多くの場合、次のようなものが表示されます。 ジョー、こんにちは。いつ町に戻るか教えてください。 Bobによる投稿、30分前 13日に戻ります。 - よろしくお願いいたします。JosephR . Roberts シニアパートナー この通信は機密情報であり、Whatever Law Firmの所有物です。 Joeによる投稿、10秒前 署名はおそらく取り除くのが最も難しく、引用されたテキストが最も簡単です。トリミングの包括的な戦略は多面的であり、理想的には学習になると思います。私は良いシステムがすべきだと思います: 引用された本文を削除 引用ヘッダーを削除(「10月15日、Joeは次のように書いた:」) 署名を削除する 手動で入力したものはすべて保持します。 これを達成するためにシステムはどのような手順を踏む必要がありますか?また、システムが認識すべき落とし穴は何ですか? この回答は、同様の質問に対する有用な回答の良い例です
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.