データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

1
制限付きボルツマンマシン(RBM)が非常に類似した重みを学習する傾向があるのはなぜですか?
これらは、制限されたボルツマンマシン(RBM)を〜4kの可視単位と96の隠れた単位/重みベクトルだけでトレーニングした後に得た4つの異なる重み行列です。ご覧のとおり、重みは非常に似ています。顔の黒いピクセルも再現されています。他の92個のベクトルも非常によく似ていますが、まったく同じ重みはありません。 これを克服するには、重みベクトルの数を512以上に増やします。しかし、この問題は、RBMの種類(バイナリ、ガウス、畳み込みさえも)、隠しユニットの数(かなり大きいものを含む)、ハイパーパラメータの違いなどで数回前に発生しました。 私の質問は、重みが非常に類似した値を取得する最も可能性の高い理由は何ですか?それらはすべて局所的な最小値に到達するだけですか?それとも、過剰適合の兆候ですか? 私は現在、ガウスベルヌーイRBMの一種を使用しています。コードはここにあります。 UPD。私のデータセットはCK +に基づいており、327人の1万を超える画像が含まれています。ただし、かなり重い前処理を行います。まず、顔の輪郭の内側のピクセルのみをクリップします。次に、各面を(区分的アフィンラッピングを使用して)同じグリッドに変換します(眉、鼻、唇などはすべての画像で同じ(x、y)位置にあります)。前処理後の画像は次のようになります。 RBMをトレーニングするとき、私はゼロ以外のピクセルのみを取るため、外側の黒い領域は無視されます。
8 rbm 

2
テキスト検索エンジンを構築するには?
HTML文字列があり、その文字列に関連する単語が含まれているかどうかを確認したいと考えています。 関連性は、テキストの頻度に基づいて測定できます。 私の問題を説明する例: this is an awesome bike store bikes can be purchased online. the bikes we own rock. check out our bike store now 次に、他のいくつかの単語をテストします。 bike repairs dog poo bike repairs関連としてマークするdog poo必要がありますが、関連としてマークしないでください。 質問: これはどのように行うことができますか? inまたはなどのあいまいな単語を除外する方法or あなたのアイデアをありがとう! 私はそれがどんなキーワードがウェブサイトに関連しているのかを理解するためにグーグルがすることだと思います。私は基本的に彼らのページ上のランキングを再現しようとしています。

1
パッケージtmを使用したRエラー(テキストマイニング)
tmパッケージを使用して、テキスト文字列のベクトルをコーパス要素に変換しようとしています。 私のコードはこのようなものです Corpus(d1$Yes) ここで、d1$Yes124のレベル、テキスト文字列を含むそれぞれ有する因子です。 例えば、 d1$Yes[246] = "So we can get the boat out!" 次のエラーが表示されます。 "Error: inherits(x, "Source") is not TRUE" これを解決する方法がわかりません。
8 r  text-mining 

2
個々の検索クエリ間の距離を計算するいくつかの標準的な方法は何ですか?
「ドキュメント」(ウィキペディアの記事、ニュース記事など)の間隔についても同様の質問をしました。検索クエリはドキュメントよりかなり小さく、かなりうるさいので、これを別の質問にしました。したがって、ここで同じ距離メトリックが使用されるかどうかはわかりません(そして疑います)。 バニラの字句距離メトリックまたは最新のセマンティック距離メトリックのいずれかが推奨され、後者がより優先されます。

3
アプリケーション内のユーザーアクティビティを追跡するための機能選択
アプリケーション内のユーザーアクティビティの「コンテキスト」をキャプチャすることを目的としたシステムを開発しています。これは、システムに対して行われたリクエストに基づいてユーザーのアクティビティにタグを付けるためにWebアプリケーションが使用できるフレームワークです。このデータがコンテキスト認識情報検索などのML機能を強化できることが期待されます。 これらのユーザータグに加えて、どの機能を選択するかを決定するのに苦労しています-要求されているURL、任意のリソースで費やされたおおよその時間、システム内の現在の「アクティビティ」の見積もり。 ACM DLをざっと検索したところ、関連する論文がいくつか見つかりましたが、実際に見つかるものはありませんでした。


2
手動リセットで線形的に増加するデータ
センサーの線形に増加する時系列データセットがあり、値の範囲は50から150です。単純な線形回帰アルゴリズムを実装して、そのようなデータに回帰直線を当てはめ、系列が到達する日付を予測しています120。 シリーズが上に移動すると、すべて正常に動作します。ただし、センサーが約110または115に達してリセットされる場合があります。このような場合、値は、たとえば50または60からやり直します。 これは、回帰線が下向きに動き始め、古い日付の予測を開始するため、回帰直線の問題に直面し始めるところです。以前にリセットされたデータのサブセットのみを検討する必要があると思います。ただし、このケースを考慮したアルゴリズムが利用できるかどうかを理解しようとしています。 私はデータサイエンスに不慣れです。先に進むためのヒントをいただければ幸いです。 編集:nfmcclureの提案を適用 提案を適用する前に 以下は、リセットが発生するデータセットを分割した後のスナップショットと、2つのセットの傾きです。 2つの勾配の平均を見つけ、その平均から線を引きます。 これでいい?

2
n個の異なる分類から集約混同行列を取得する方法
方法論の精度をテストしたい。私はそれを約400回実行し、実行ごとに異なる分類を得ました。また、グラウンドトゥルース、つまり、テストする実際の分類もあります。 分類ごとに混同行列を計算しました。次に、全体的な混同行列を取得するために、これらの結果を集計します。どうすればそれを達成できますか? 全体の混同行列を取得するために、すべての混同行列を合計できますか?

4
オンライン機械学習チュートリアル
オンラインの機械学習技術に関する優れたチュートリアルを知っている人はいますか?つまり、リアルタイム環境でどのように使用できるか、通常の機械学習方法と比較した主な違いは何かなどです。 UPD:回答ありがとうございます。 "オンライン"とは、新しい入力を1つずつリアルタイムモードでトレーニングできるメソッドのことです。

3
スコア文字列の類似性
大量のドキュメントがあり、大量のキーと値のペアが含まれています。キーは一意ではない可能性があるため、値が異なる同じタイプのキーが複数存在する可能性があります。 2つのドキュメント間のキーの類似性を比較したい。より具体的には、これらの値の文字列の類似性。類似性を比較するために、スミス-ウォーターマンアルゴリズムのようなものを使用することを考えています。 それで、データを表現することについて私がどのように考えているかを描いた- セルの値は、smith-watermanアルゴリズム(またはその他の文字列類似性メトリック)の結果です。 このマトリックスが「もの」の主要なタイプを表しているというイメージ次に、「もの」の類似度スコアを0または1のベクトルに追加する必要があります。 私が理解できないのは、マトリックスが似ているか似ていないかを判断する方法です-理想的には、マトリックスを0と1の間の数値に変換し、しきい値を設定して0または1。 マトリックスのスコアを作成する方法はありますか?この種のことを行うアルゴリズムを知っている人はいますか?

1
Apache Stormのカスケードエラー
TwitterによるSummingbirdのプレゼンテーションと資料を見てみると、SummingbirdでStormとHadoopのクラスターを一緒に使用する理由の1つは、Stormを介して処理するとエラーが連鎖的に発生することです。このエラーのカスケードとその累積を回避するために、Hadoopクラスターを使用してデータをバッチ処理し、同じデータがHadoopによって処理された後にStormの結果を破棄します。 このエラーの蓄積が発生する理由は何ですか?そして、なぜそれがHadoopに存在しないのですか?私はストームで働いたことがないので、その理由はわかりません。それは、Stormがリアルタイムでデータを処理するために、データを処理するために何らかの近似アルゴリズムを使用しているためですか?または原因は何か他にありますか?

3
コンシューマーウェブ企業で最も人気のあるデータサイエンスアプリケーションの使用例は何ですか
最も人気のあるユースケースは、さまざまな種類の推奨システム(ショッピングアイテムの推奨、ソーシャルネットワークのユーザーなど)のようです。 しかし、別の分野で使用される可能性のある他の典型的なデータサイエンスアプリケーションは何ですか? 例:機械学習による顧客チャーン予測、顧客生涯価値の評価、売上予測。

2
分類のための多層逆伝播ニューラルネットワーク
誰かが私に説明できますか?複数の出力(例:8)を作成する場合、MLBP-ニューラルネットワークでMNISTのようなデータを分類する方法、つまり1つの出力のみを使用する場合、簡単にデータを分類できますが、複数を使用する場合1つは、どの出力を選択する必要がありますか?

4
画像データのNaN値を置き換える方法は?
私のデータセットには合計200列があり、各列はすべての画像の同じピクセルに対応しています。合計で48,500行あります。データのラベルの範囲は0〜9です。 データは次のようになります。 raw_0 raw_1 raw_2 raw_3 raw_4 0 120.0 133.0 96.0 155.0 66.0 1 159.0 167.0 163.0 185.0 160.0 2 45.0 239.0 66.0 252.0 NaN 3 126.0 239.0 137.0 NaN 120.0 4 226.0 222.0 153.0 235.0 171.0 5 169.0 81.0 100.0 44.0 104.0 6 154.0 145.0 76.0 134.0 175.0 7 …

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.