タグ付けされた質問 「data-mining」

人工知能と機械学習の手法を使用して、大規模なデータセットからパターンを抽出し、それらのデータを将来の処理のために便利で整理された形式に変換します。

5
なぜ遺伝的アルゴリズムの研究が遅れたのですか?
今日、遺伝的アルゴリズムの使用を含むいくつかのイントロレベルのトピックを議論している間; この分野の研究は本当に遅れていると言われました。理由は、ほとんどの人が機械学習とデータマイニングに集中しているためです。 更新:これは正確ですか?もしそうなら、ML / DMはGAと比較してどのような利点がありますか?

4
教師あり学習と教師なし学習の違いは何ですか?
クラスタリング方法を理解しようとしています。 私が理解したと思うII: 教師あり学習では、計算前に既知のカテゴリ/ラベルデータが割り当てられます。そのため、これらのクラスターにとって本当に重要なパラメーターを「学習」するために、ラベル、クラス、またはカテゴリーが使用されています。 教師なし学習では、クラスターを認識せずに、データセットがセグメントに割り当てられます。 つまり、どのパラメーターがセグメンテーションに重要であるかさえわからない場合、教師あり学習を好む必要があるということですか?

2
段落内の日付に関連するイベントの特定
段落で指定された日付が、段落内の特定のイベント(フレーズ)に関連していることを識別するアルゴリズム的アプローチはありますか? 例として、次の段落を検討してください。 1970年6月、偉大な指導者が誓いを立てました。しかし、彼が国の手綱を引き継いだのは、国務大臣の死後の1972年5月以降でした。1980年半ばまで人気の支持を得ていた彼は、その後影響力を失い始めました。 2タプル(日付、イベント)を生成できるアルゴリズム(決定論的または確率的)がありますか?日付で発生したイベントは段落によって暗示されますか?上記の場合: (1970年6月、偉大な指導者が誓いを立てた) (1972年5月、手綱を引き継いだ) またはそれ以上 (1972年5月、偉大な指導者が手綱を引き継ぎました) (1980年、影響力の低下) #後期追加

5
データサイエンスvsオペレーションズリサーチ
タイトルが示すように、一般的な質問は次のとおりです。 DSとOR /最適化の違いは何ですか。 概念的なレベルでは、DS は利用可能なデータから知識を抽出しようとし、主に統計的な機械学習手法を使用することを理解しています。一方、OR はデータに基づいて意思決定を行うために、たとえば、データ(入力)に対して目的関数(基準)を最適化することにより、データを使用します。 これら2つのパラダイムはどのように比較されるのでしょうか。 他のサブセットですか? 彼らは補完的な分野を考慮していますか? 1つのフィールドが他のフィールドを補完する例や、それらを組み合わせて使用​​する例はありますか? 特に、私は次のことに興味があります。 OR手法を使用してデータサイエンスの質問/問題を解決する例はありますか?

4
情報検索と情報抽出の関係と違いは?
ウィキペディアから 情報検索は、情報リソースのコレクションから情報ニーズに関連する情報リソースを取得するアクティビティです。検索は、メタデータまたはフルテキストインデックスに基づくことができます。 ウィキペディアから 情報抽出(IE)は、非構造化または半構造化された機械可読ドキュメントから構造化情報を自動的に抽出するタスクです。ほとんどの場合、このアクティビティは自然言語処理(NLP)による人間の言語のテキストの処理に関係しています。画像/音声/ビデオからの自動注釈やコンテンツ抽出などのマルチメディアドキュメント処理における最近の活動は、情報抽出と見なすことができます。 情報検索と情報抽出の関係と違いは何ですか? ありがとう!

1
絞り込みタイプの推測
職場では、動的言語に関する型情報を推論する必要があります。次のように、ステートメントのシーケンスをネストされたlet式に書き換えます。 return x; Z => x var x; Z => let x = undefined in Z x = y; Z => let x = y in Z if x then T else F; Z => if x then { T; Z } else { F; Z } 一般的なタイプ情報から始めて、より具体的なタイプを推測しようとしているので、自然な選択は絞り込みタイプです。たとえば、条件演算子は、trueブランチとfalseブランチの型の和集合を返します。単純なケースでは、非常にうまく機能します。 ただし、次のタイプを推測しようとしたときに、思わぬ障害に遭遇しました。 function …
11 programming-languages  logic  type-theory  type-inference  machine-learning  data-mining  clustering  order-theory  reference-request  information-theory  entropy  algorithms  algorithm-analysis  space-complexity  lower-bounds  formal-languages  computability  formal-grammars  context-free  parsing  complexity-theory  time-complexity  terminology  turing-machines  nondeterminism  programming-languages  semantics  operational-semantics  complexity-theory  time-complexity  complexity-theory  reference-request  turing-machines  machine-models  simulation  graphs  probability-theory  data-structures  terminology  distributed-systems  hash-tables  history  terminology  programming-languages  meta-programming  terminology  formal-grammars  compilers  algorithms  search-algorithms  formal-languages  regular-languages  complexity-theory  satisfiability  sat-solvers  factoring  algorithms  randomized-algorithms  streaming-algorithm  in-place  algorithms  numerical-analysis  regular-languages  automata  finite-automata  regular-expressions  algorithms  data-structures  efficiency  coding-theory  algorithms  graph-theory  reference-request  education  books  formal-languages  context-free  proof-techniques  algorithms  graph-theory  greedy-algorithms  matroids  complexity-theory  graph-theory  np-complete  intuition  complexity-theory  np-complete  traveling-salesman  algorithms  graphs  probabilistic-algorithms  weighted-graphs  data-structures  time-complexity  priority-queues  computability  turing-machines  automata  pushdown-automata  algorithms  graphs  binary-trees  algorithms  algorithm-analysis  spanning-trees  terminology  asymptotics  landau-notation  algorithms  graph-theory  network-flow  terminology  computability  undecidability  rice-theorem  algorithms  data-structures  computational-geometry 

5
O(n)の複雑さで順序付けされた単語の頻度
Java開発者のポジションへのインタビュー中に、私は次のことを尋ねられました。 2つのパラメーターを取る関数を記述します。 テキストドキュメントを表すStringおよび 返すアイテムの数を提供する整数。 最も頻度の高い単語が最初に出現する単語の頻度で並べられた文字列のリストを返すように関数を実装します。ソリューションは時間で実行する必要がありますはドキュメントの文字数です。O(n)O(n)O(n)nnn 以下は私が(疑似コードで)答えたものです、それはソートのためにではなく時間です。どうやって回するのかわからない。 O(n)O(n)O(n)O(nlogn)O(nlog⁡n)O(n \log n)O(n)O(n)O(n) wordFrequencyMap = new HashMap<String, Integer>(); words = inputString.split(' '); for (String word : words) { count = wordFrequencyMap.get(word); count = (count == null) ? 1 : ++count; wordFrequencyMap.put(word, count); } return wordFrequencyMap.sortByValue.keys 誰かが知っているか、誰かが私にいくつかのヒントを与えることができますか?

1
新しいエントリを優先するランキングアルゴリズムを探す
私は、一定期間に投じられた投票に基づいてエントリーをランク付けするランキングシステムに取り組んでいます。平均のようなスコアを計算するアルゴリズムを探していますが、古いスコアよりも新しいスコアを優先したいと思います。私は次の線に沿って何かを考えていました: sはC O R E1+ 2 ⋅ S C O のR E 2 + ⋯ + N ⋅ S C O のR E ん1 + 2 + ⋯ + nscore1+ 2⋅score2 + ⋯+ ん⋅scoreん1+2+⋯+ん\frac{\mathrm{score}_1 +\ 2\cdot \mathrm{score}_2\ +\ \dots +\ n\cdot \mathrm{score}_n}{1 + 2 + \dots + n} このような状況で通常使用される他のアルゴリズムがあるかどうか疑問に思っていました。

2
類似しているが順序が異なるコンテンツを持つ2つの大きなテキストコーパスの違いを見つけるための効率的な方法は何ですか?
英語のテキストの段落を含む2つの大きなファイルがあります。 最初のテキストは約200ページの長さで、ページあたり約10段落(各段落は5文長)です。 2番目のテキストには、最初のテキストとほぼ同じ段落とテキストが含まれています。また、ページ数は200ページで、1ページに10段落あります。ただし、最初のテキストと比較すると、段落はランダム化され、順序が異なります。また、大部分の段落では、類似の段落と比較して、表現にわずかな変更があります。たとえば、最初のテキストの段落には次のようなLike Jimmy, I wanted to go to the palace文があり、2番目のテキストの段落の対応する文にはがありますLike Jimmy, I really wanted to go to the castle。 私は、追加のような、ここで変更を取得できるようにしたいreallyとの削除palaceが置換されましたcastle。段落がおおまかに揃っている場合、テキストを比較する方法はたくさんあるので、これはかなり簡単です。ただし、段落が揃っていないため、そうではありません。 ファイルが小さい場合(数段落)、レーベンシュタイン距離はおそらくうまく機能しますが、ファイルが大きいため、テキスト1の各段落をテキスト2の各段落と比較して、一致する段落を見つけるのは非効率的です。 この問題を効率的に処理するには、他にどのようなアプローチがありますか?

1
機械学習での文字列入力
ロジスティック回帰やニューラルネットワークなどの一般的な機械学習アルゴリズムでは、入力を数値にする必要があります。 私が興味を持っているのは、これらのアルゴリズムを非数値入力(短い文字列など)で機能させる方法です。 例として、入力機能の1つが送信者アドレスである電子メール分類システム(スパム/非スパム)を構築しているとしましょう。 学習アルゴリズムを使用できるようにするには、送信者アドレスを数値として表す必要があります。1つの方法は、送信者に単純に番号を付けることです1..n。トレーニングセットは次のようになります。 ただし、ロジスティック回帰やニューラルネットワークなどのアルゴリズムは入力データのパターンを学習するため、これは機能しませんが、この例では、出力はアルゴリズムに対して完全にランダムに見えます。実際、大学のクラスに入ると、このようなデータセットでニューラルネットワークをトレーニングしようとしましたが、ネットワークは何も学習できませんでした(学習曲線はフラットでした)。 この例では、ロジスティック回帰またはニューラルネットワークを使用しますか?はいの場合、その方法は?そうでない場合、送信者アドレスに基づいて電子メールを分類する良い方法は何でしょうか? 完璧な答えは、一般的なMLでの短い文字列の処理だけでなく、メール分類の例についても説明します。

1
機械学習:時系列データのパターンを特定する
私は再生可能エネルギーで働いています。私の会社は機器から多くのデータを収集しています。これには通常、プロセスデータ(変圧器の温度、ライン電圧、電流など)および個別のアラーム(ブレーカートリップ、インバーターアラーム値、変圧器過熱アラームなど)が含まれます。これは、データの大まかな例です(csvの行として読み取られます)。 タイムスタンプ、タグ、値 2016年5月25日14:30:01、INVERTER_1.VOLTAGE_DC、249.5 2016年5月25日14:30:06、INVERTER_1.VOLTAGE_DC、250.1 5/25/2016 14:45:02、TRANSFORMER_1.TEMP_ALARM、0 2016年5月25日14:45:15、TRANSFORMER_1.TEMP_ALARM、1 (少なくとも今のところ)リアルタイムではなく、静止しているこのデータに対して何らかのパターン分析を開始したいと思います。私が試みたいのは教師なしの特徴学習だと思いますが、完全にはわかりません。機械学習を1)明白でないパターンを特定し、2)アルゴリズムがデータ内のパターンのシグネチャを特定できるようにするとよいと思います(たとえば、ブレーカが作動すると、単一のフィーダのすべてのインバータが通信を失う)開いています)。 私の最初の質問:これは時系列データと見なされますか?これまでの私の研究では、時系列データは時間の関数であるデータを参照しているようです。ほとんどのデータについて、ドメインエキスパートとして、データの関数を定義することがこの分析に役立つとは思いません。また、私の研究では、時系列データは離散ではなく実数値を参照しているように見えます。 コメントや関連参照があれば参考になります。

1
コンピュータービジョン:単一座標のラベルを使用したオブジェクト検出
以下のオブジェクト検出タスクを扱った論文は文献にありますか? タスクは次のように説明できます。 画像のセットが与えられた場合、ラベルは、検出したいオブジェクトの場所を表す単なる座標(x、y)です。座標はオブジェクトの中心にある必要はなく、オブジェクトのサイズは任意です。 タスクは、人、ボート、車のいずれかであるオブジェクトを検出することです。ただし、ラベルはオブジェクトのカテゴリを示しておらず、ラベルは対象のオブジェクトに近い座標にすぎません。 画像は1時間ごとに取得され、同じシーンのスナップショットです。したがって、バックグラウンド減算技術が役立つ場合があります。 同じシーンの約2000枚の画像があり、各画像には通常2つの対象オブジェクトがあります。 以前にそのような仕事に取り組んだことがあるのだろうか? Hog機能とSVMは、画像内の人間の検出に大きな成功を収めています。ただし、関連する文献では、関心のあるオブジェクトが単一の座標ではなく境界ボックスを使用してラベル付けされているトレーニングデータを使用しています。 主な3つの課題は次のとおりです。 オブジェクトのサイズは任意であるため、分類子の境界ボックスを選択することは困難です。 シーンのスナップショットは1時間ごとに取得されます(カメラもわずかに動く可能性があります)。そのため、バックグラウンド減算の使用は簡単ではありません。 ラベル付けされたデータはあまりありません。 人々がこれらの課題にどのように対処したかを見るのは興味深いでしょう。 ありがとう!

1
意思決定ツリーとルールベースの推論の違い
私はこのトピックに不慣れです。スポーツの予測について読んでいるいくつかの科学論文では、ルールベースの推論に出会いました。この用語は意味論的推論と同じですか(2つの主な方向は前方と後方の連鎖です)。はいの場合、意思決定ツリーとこれの違いを指摘できますか?私にとっては、ほとんど同じように見えます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.