データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

1
機能を抽出し、監視ツールからのアラートメールを適切なカテゴリに分類する方法
私の会社は多くのクライアントにマネージドサービスを提供しています。お客様は通常、次の監視ツールを使用してサーバー/ウェブアプリを監視します。 OpsView ナギオス Pingdom カスタムシェルスクリプト 問題が見つかると、Opsチームにアラートメールが送信され、問題を修正するためのアクションが行われます。 何千ものサーバーを管理しているため、運用チームの受信トレイは常に電子メールアラートで溢れています。カスケード効果がある単一の問題でも、20〜30通の電子メールをトリガーできます。 今、私がやりたいのは、サーバーのIPアドレス、問題のタイプ、問題の重大度などのアラート電子メールから重要な機能を抽出し、電子メールを適切なカテゴリに分類できるシステムを実装することです。CPU-Load-Customer1-Server2, MySQL-Replication-Customer2-DBServer3その後、運用チームが問題をより迅速に修正できるように、各カテゴリに対して事前に定義された一連のデバッグ手順を用意します。また、機能エクストラクタは、問題の入力データをチームに提供します。 これまでのところ、教師付き学習手法、つまりラベル付きトレーニングデータ(クラスターデータ)でNaiveBayesClassifierをトレーニングし、新しい未確認のメールを適切なクラスター/カテゴリに分類できました。電子メールは特定のテンプレートに基づいているため、分類子の精度は非常に高くなります。ただし、カスタムスクリプトからアラートメールを受信することもあるので、テンプレートに従っていない可能性があります。そこで、教師あり学習ではなく、教師なし学習を試したいと思います。KMeansクラスタリングを調べています。しかし、やはり問題は、事前にクラスターの数がわからないことです。では、この使用例に最適なアルゴリズムはどれですか?現在、分類にはPythonのTextBlobライブラリを使用しています。 また、アラートメールから機能を抽出するために、NLTK(http://www.nltk.org/book/ch07.html)ライブラリを調べています。試してみましたが、適切な英語のパラグラフ/テキストでうまく機能するようですが、アラートメールの場合は、多くの不要な機能が抽出されました。同じための既存のソリューションはすでにありますか?そうでない場合、同じものを実装するための最良の方法は何ですか?どのライブラリ、どのアルゴリズムですか? PS:私はデータサイエンティストではありません。 メールの例: PROBLEM: CRITICAL - Customer1_PROD - Customer1_PROD_SLAVE_DB_01 - CPU Load Avg Service: CPU Load Avg Host: Customer1_PROD_SLAVE_DB_01 Alias: Customer1_PROD_SLAVE_DB_01 Address: 10.10.0.100 Host Group Hierarchy: Opsview > Customer1 - BIG C > Customer1_PROD State: CRITICAL Date & Time: Sat …

2
Lambdaアーキテクチャ-マージレイヤー/クエリレイヤーの実装方法
ラムダアーキテクチャについて読んでいます。 それは理にかなっている。キューベースのデータ取り込みがあります。非常に新しいデータ用のメモリ内ストアがあり、古いデータ用のHDFSがあります。 これでデータセット全体ができました。私たちのシステムで。とても良い。 ただし、アーキテクチャ図は、マージレイヤーがバッチレイヤーとスピードレイヤーの両方を一度にクエリできることを示しています。 どうやってするか? バッチレイヤーは、おそらくマップ削減ジョブまたはHIVEクエリです。スピードレイヤークエリは、おそらくスパーク上で実行されるscalaプログラムです。 これらをどのようにマージしますか? 何かアドバイスはありますか?

1
単純ベイズ分類器はトレーニングで欠落データをどのように処理しますか?
Naive Bayesは、トレーニングまたはテスト/分類インスタンスに存在するかどうかに応じて、欠落データを異なる方法で処理します。 インスタンスを分類するとき、欠損値のある属性は確率計算に含まれません(http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf) トレーニングでは、「[値が不足している]インスタンスは、属性値とクラスの組み合わせの頻度カウントに含まれていません。」(http://www.csee.wvu.edu/~timm/cs591o/old/BasicMethods.html) これは、特定のトレーニングレコードがトレーニングフェーズに含まれていないことを意味しますか?それとも別の意味ですか?

3
ニューラルネットワークによる外国為替の予測-予測の遅れ
ニューラルネットワークの使用について質問があります。私は現在R(neuralnetパッケージ)を使用しており、次の問題に直面しています。私のテストと検証セットは、履歴データに関して常に遅れています。結果を修正する方法はありますか?多分私の分析で何かが間違っている 毎日ログを返す シグモイド関数でデータを正規化します(セット全体で計算されたシグマとミュー) ニューラルネットワークを10の日付でトレーニングし、出力はこれらの10の日付に続く正規化された値です。 トレンドを追加しようとしましたが、改善はありません。1〜2日遅れて観察しました。私のプロセスは問題ないようですが、それについてどう思いますか?

1
PlattのSMOアルゴリズム(SVM用)で教えてください
A_Roadmap_to_SVM_SMO.pdf、12ページから。 (ソース:postimg.org) 線形カーネルを使用していると仮定すると、最初の内積と2番目の内積の両方をどのように取得できますか? 私の推測では、方程式の最初の内積についてはクラスAとラベル付けされたデータポイントjのデータポイントの内積と、2番目の内積についてはクラスBとラベル付けされたデータポイントのデータポイントjとの内積ですか?
7 svm 

5
ニューラルネットワークのどこから始めるか
まず、質問がウェブサイトに適さない可能性があることはわかっていますが、ポインタを教えていただければ幸いです。 私は16歳のプログラマーです。さまざまなプログラミング言語の経験があり、しばらく前にCourseraでコースを開始しました。機械学習入門というタイトルで、その瞬間からAIについて学ぶ意欲が高まり、ニューラルネットワークについて読んで、Javaを使用して実用的なパーセプトロンを作成しましたが、それは本当に楽しかったですが、もう少し難しいこと(数字認識ソフトウェアの構築)を始めたとき、私は多くの数学を学ばなければならないことがわかりました。数学が大好きですが、ここの学校はあまり教えてくれません。数学の教師である誰かがAIを学ぶために数学(特に微積分)を学ぶ必要があると思いますか、それとも、それらを学ぶまで待つべきでしょうか。学校? また、私がAIと機械学習を学習する過程で、他にどのようなことが役立つでしょうか?他の手法(SVMなど)でも強力な計算が必要ですか? 私の質問が長い場合は申し訳ありませんが、AIの学習で経験したことを教えていただければ幸いです。

1
最適な解から遠く離れている勾配が非常に小さい場合、PythonでMLE推定量を数値的に推定する方法は?
私は、平均と分散の両方が独立変数の線形関数として定義されている正規分布を使用してデータセットをモデル化する方法を調査しています。 N〜(f(x)、g(x))のようなもの。 私はこのようなランダムなサンプルを生成します: def draw(x): return norm(5 * x + 2, 3 *x + 4).rvs(1)[0] だから、私の分布のパラメーターとして5、2、4を取得したいと思います。 私はサンプルを生成します: smp = np.zeros((100,2)) for i in range(0, len(smp)): smp[i][0] = i smp[i][1] = draw(i) 尤度関数は次のとおりです。 def lh(p): p_loc_b0 = p[0] p_loc_b1 = p[1] p_scl_b0 = p[2] p_scl_b1 = p[3] l = 1 for …


6
バイナリ分類問題に最適な交差検証タイプ
データセットは次のようになります。 25000観測 最大15の異なるタイプの予測子:数値、マルチクラスカテゴリカル、バイナリ ターゲット変数はバイナリです このタイプの問題に典型的な相互検証方法はどれですか。 デフォルトではK-Foldを使用しています。この場合、いくつの折り目で十分ですか?(私が使用するモデルの1つはランダムフォレストであり、時間がかかります...)

1
Apache Sparkを使用してMLを行う。シリアル化エラーが発生し続ける
そのため、感情分析を行うためにSparkを使用しています。Pythonオブジェクトを渡すために使用している(おそらく)シリアライザでエラーが発生し続けています。 PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, in dump_stream self.serializer.dump_stream(self._batched(iterator), stream) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 123, in dump_stream for obj in iterator: File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 180, in _batched for item …

1
多様なテキストデータの処理
私は現在、単一の単語からテキストの全ページまで、ドキュメントの長さの範囲が広いデータセットを使用しています。さらに、文法構造と句読点の使用は、文書によって大きく異なります。目標は、これらのドキュメントを約10〜15のカテゴリのいずれかに分類することです。現在、タスクにはリッジ回帰とロジスティック回帰を使用しており、リッジのアルファ値にはCVを使用しています。特徴ベクトルはtf-idf ngramです。 最近、長いドキュメントは分類される可能性がはるかに低いことに気付きました。なぜこれが当てはまるのでしょうか。また、この種の変動をどのように「正規化」できるのでしょうか。より一般的な質問として、一般的にどのようにして多様なデータセットを処理しますか?ドキュメントは、ドキュメントの長さ、句読点の使用、文法の厳密さなどのメトリックに基づいてグループ化され、さまざまな分類子を通じてフィードされますか?

1
R Mapreduce(RHadoop)の線形回帰
私はRHadoopとRMRを初めて使用します... MapreduceでMapreduceジョブを作成する必要がありました。書き込みを試しましたが、実行中にエラーが発生しました。hdfsからファイルを読み取るためのTring エラー: Error in mr(map = map, reduce = reduce, combine = combine, vectorized.reduce, : hadoop streaming failed with error code 1 コード: Sys.setenv(HADOOP_HOME="/opt/cloudera/parcels/CDH-4.7.0-1.cdh4.7.0.p0.40/lib/hadoop") Sys.setenv(HADOOP_CMD="/opt/cloudera/parcels/CDH-4.7.0-1.cdh4.7.0.p0.40/bin/hadoop") Sys.setenv(HADOOP_STREAMING="/opt/cloudera/parcels/CDH-4.7.0-1.cdh4.7.0.p0.40/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.7.0.jar") library(rmr2) library(rhdfs) hdfs.init() day_file = hdfs.file("/hdfs/bikes_LR/day.csv","r") day_read = hdfs.read(day_file) c = rawToChar(day_read) XtX = values(from.dfs( mapreduce( input = "/hdfs/bikes_LR/day.csv", map= function(.,Xi){ yi =c[Xi[,1],] …

2
シンプルなKaggleタスクでsklearnとpandasを統合するのに苦労しています
私はsklearn_pandasモジュールを使用してパンダで行う作業を拡張し、機械学習につま先を浸そうとしていますが、修正方法が本当にわからないエラーで苦労しています。 Kaggleで次のデータセットを調べていました。 これは基本的に、浮動小数点値を持つヘッダーのないテーブル(1000行、40の機能)です。 import pandas as pdfrom sklearn import neighbors from sklearn_pandas import DataFrameMapper, cross_val_score path_train ="../kaggle/scikitlearn/train.csv" path_labels ="../kaggle/scikitlearn/trainLabels.csv" path_test = "../kaggle/scikitlearn/test.csv" train = pd.read_csv(path_train, header=None) labels = pd.read_csv(path_labels, header=None) test = pd.read_csv(path_test, header=None) mapper_train = DataFrameMapper([(list(train.columns),neighbors.KNeighborsClassifier(n_neighbors=3))]) mapper_train 出力: DataFrameMapper(features=[([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, …

1
顔検出にはCNNまたはViola-Jones
CNNがすべての画像関連のタスクを支配しているので、私は不思議に思っていました。Viola-Jonesの顔検出器はまだ最先端のものと見なされていますか、それともCNNがそのパフォーマンスを上回っていますか?
6 convnet 

1
CNNを使用して抽出した特徴をRNNに渡す方法は?
以下のような単語画像があります。 256x64画像だとしましょう。私の目的は、画像からテキストを抽出することです73791096754314441539。これは、基本的にOCRが行うことです。 画像から単語を認識できるモデルを作ろうとしています。 私が言葉を言っているとき、それは次のいずれかであることができます: 辞書の単語、非辞書の単語 az、AZ、特殊文字を含む spaces 以下のようにテンソルフローでモデル(会社のポリシーによりスニペット)を作成しました: inputs = tf.placeholder(tf.float32, [common.BATCH_SIZE, common.OUTPUT_SHAPE[1], common.OUTPUT_SHAPE[0], 1]) # Here we use sparse_placeholder that will generate a # SparseTensor required by ctc_loss op. targets = tf.sparse_placeholder(tf.int32) # 1d array of size [batch_size] seq_len = tf.placeholder(tf.int32, [common.BATCH_SIZE]) model = tf.layers.conv2d(inputs, 64, (3,3),strides=(1, 1), padding='same', …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.