データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

2
標準スケーラーを使用する場合とノーマライザを使用する場合
私は、標準的なスカラーが何をするのかとノーマはscikitドキュメントごとに、何をするかを理解する:ノーマ、標準スケーラーを。 標準スケーラーがいつ適用されるか知っています。しかし、どのシナリオでノーマライザが適用されますか?一方が他方よりも優先されるシナリオはありますか?

2
CNNのフィルターの重みの更新
私は現在、CNNのアーキテクチャーを理解しようとしています。畳み込み、ReLUレイヤー、プーリングレイヤー、完全接続レイヤーについて理解しています。しかし、私はまだ重みについて混乱しています。 通常のニューラルネットワークでは、各ニューロンに独自の重みがあります。完全に接続された層では、各ニューロンにも独自の重みがあります。しかし、私が知らないのは、各フィルターに独自の重みがあるかどうかです。逆伝播中に、完全に接続されたレイヤーの重みを更新する必要があるだけですか?または、すべてのフィルターに個別の重みを付けて更新する必要がありますか?

2
scikit-learnはデフォルトで正則化を使用しますか?
いくつかの偽のデータにロジスティック曲線を当てはめたところです。データは基本的にステップ関数にしました。 data = -------------++++++++++++++ しかし、当てはめた曲線を見ると、勾配は非常に小さいです。クロスエントロピーを仮定して、コスト関数を最小化する関数がステップ関数です。なぜステップ関数のように見えないのですか?デフォルトで行われるL1またはL2の正規化はありますか?


6
分類のために画像にラベルを付けるツール
分類のための入力として数百の画像にすばやくラベルを付けるツールを誰かが推奨できますか?細胞の顕微鏡画像を約500枚持っています。「健康」、「死者」、「病気」などのカテゴリを手動でトレーニングセットに割り当て、それらをcsvファイルに保存したい。 基本的にこの質問で説明されているものと同じですが、独自の画像を持っていないので、追加の可能性が開かれますか?

4
OccamのRazor原理は機械学習でどのように機能しますか
画像に表示されている次の質問は、最近の試験中に行われたものです。OccamのRazorの原理を正しく理解しているかどうかはわかりません。質問で与えられた分布と決定境界によれば、Occamのかみそりに従って、どちらの場合も決定境界Bが答えになるはずです。OccamのRazorによると、複雑な分類器ではなく、まともな仕事をする単純な分類器を選択するからです。 誰かが私の理解が正しく、選択した答えが適切かどうかを証言できますか?私は機械学習の初心者なので、助けてください

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Kerasを使用して時系列の将来の値を予測する方法
KerasでこのLSTMニューラルネットワークを構築しました import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name = "DailyDemand.csv" data_csv = pd.read_csv(data_file_name, delimiter = ';',header=None, …

3
ニューラルネットワーク-最も類似した画像を見つける
私はPython、scikit-learn、kerasを使用しています。次のような前面時計の画像が30万枚あります: Watch_1、Watch_2、Watch_3。 入力として実際の時計の写真を受け取って、上の写真よりも理想的ではない状況で撮影したプログラム(異なる背景色、暗い稲妻など)を書き、それに3000の時計の中で最も類似している時計を見つけたいと思います。同様に、薄いレースの丸い茶色の時計の写真を入力として与えると、丸い形の暗い色の薄いレースの出力時計として期待されます。 これを行うための最も効率的な機械学習アルゴリズムは何ですか? たとえば、このリンクをたどることで、2つの異なる解決策を考えています。 1)CNNを特徴抽出器として使用し、入力画像を参照して、画像のすべてのペアについてこれらの特徴間の距離を比較します。 2)シャムニューラルネットワークで2つのCNNを使用して画像を比較する。 これらの2つのオプションは、このタスクに最適なオプションですか、それとも他のことを提案しますか? このタスクについて、事前にトレーニングされたニューラルネットワーク(事前に定義されたハイパーパラメーターを使用)を知っていますか? これについてStackOverflowで興味深い投稿をいくつか見つけましたが、それらはかなり古いです:Post_1、Post_2、Post_3。

2
標本外データのモデルの精度は100%オーバーフィットですか?
私はcognitiveclass.aiのRコースの機械学習を完了し、ランダムフォレストの実験を開始しました。 Rの「randomForest」ライブラリを使用してモデルを作成しました。モデルは、goodとbadの2つのクラスに分類されます。 モデルがオーバーフィットである場合、モデル自体のトレーニングセットからのデータに対してはうまく機能しますが、サンプル外のデータに対してはうまく機能しないことを知っています。 モデルをトレーニングしてテストするために、データセット全体をシャッフルして、トレーニング用に70%とテスト用に30%に分割しました。 私の質問:テストセットで行われた予測から100%の精度を得ています。これは悪いですか?それは本当であるには余りにも良いようです。 目的は、4つの波形を相互に依存する波形認識です。データセットの機能は、ターゲット波形を含む波形のダイナミックタイムワーピング分析のコスト結果です。

1
事前トレーニング済みのCNN分類器を使用して、別の画像データセットに適用する
どのように考え、最適化前の訓練を受けた neural network別の問題に適用することを?事前トレーニング済みのモデルにさらにレイヤーを追加して、データセットでテストしますか? たとえば、タスクがCNNを使用して壁紙グループを分類することであった場合、猫と犬の画像でトレーニングされた事前トレーニング済みネットワークを直接分類することはできませんが、どちらも画像分類子です。

2
データセットは分類可能ではないと私たちはいつ言いますか?
何も分類できないデータセットを何度も分析しました。分類子を取得できるかどうかを確認するには、通常、次の手順を使用しました。 数値に対するラベルの箱ひげ図を生成します。 次元数を2または3に減らして、クラスが分離可能かどうかを確認します。LDAも試してみました。 SVMとランダムフォレストを強制的に適合させ、機能の重要性を調べて、機能に意味があるかどうかを確認します。 クラスの不均衡が問題であるかどうかを確認するために、アンダーサンプリングやオーバーサンプリングなどのクラスと手法のバランスを変更してみてください。 私が考えることができる他の多くのアプローチがありますが、試していません。これらの機能が良くなく、予測しようとしているラベルにまったく関連していないことを時々知っています。次に、その直感を使用して演習を終了し、より優れた機能またはまったく異なるラベルが必要であると結論付けます。 私の質問は、これらの機能では分類できないとデータサイエンティストがどのように報告するかです。これを報告したり、最初に異なるアルゴリズムでデータをフィッティングしたりするための統計的方法はありますか?

2
P(Y | X)でトレーニングしたときに優れたパフォーマンスを持つモデルがある場合、最適なP(X | Y)を見つける
入力データ: バツバツX > Tシャツの特徴(色、ロゴなど) YYY >利益率 上記のとランダムフォレストをトレーニングし、テストデータで妥当な精度を達成しました。ので、私は持っていますYバツバツXYYY P(Y| バツ)P(Y|バツ)P(Y|X)。 ここで、つまりフィーチャの確率分布を見つけたいと思います。これだけの利益率を期待しているからです。XP(X| Y)P(バツ|Y)P(X|Y)バツバツX ランダムフォレスト(またはその他の識別モデル)でそれを行うにはどうすればよいですか? 私に対する提案の1つは、差別モデルではなく生成モデルから始めることです。しかし、私の理解では、生成モデルは、ナイーブベイズの場合のの条件付き独立性などの非常に限定的な仮定を行わない限り、一般にトレーニングに多くのデータを必要とします。バツバツX その他の提案としては、とを入れ替えて、判別モデルをトレーニングすることもできます。今、利益率となり、シャツでの機能となります。は、目標利益率が与えられている場合、Tシャツの特徴の確率分布を直接示します。しかし、このアプローチは私には適切ではないようです。私はいつもを偶然の変数として考え、が効果的だからです。Y X Y P (Y | X )X YバツバツXYYYバツバツXYYYP(Y| バツ)P(Y|バツ)P(Y|X)バツバツXYYY また、私が聞いたところから、同様の質問が創薬のために提起されており、アルゴリズムは高度な成功を収める新薬候補を生み出すように設計されています。誰かがこのドメインの文献を研究するように私に指摘できますか? 更新: 私はこれに遭遇し、これは創薬に使用されているGANについて語っています。生成的な敵対的なネットワークは、私の問題の発言に適しているように思えるので、私はそれらについて読んでいます。しかし、私が理解したことの1つは、GANが監視なしの方法でサンプルを生成することです。彼らは最初にXの基になる分布をキャプチャし、次にその分布からサンプリングするようなサンプルを生成しようとします。しかし、私はX | Yに興味があります。XとYは上記で定義されています。GAN以外のものを探索する必要がありますか?ポインタはありますか? フォローアップ質問: Tシャツ(出力サンプルX)の作成方法を学習したGANのトレーニングを受けたとします。特定のYの上位5枚のシャツを入手するにはどうすればよいですか?

3
推論にはGPUまたはCPUを使用する必要がありますか?
GPUによってトレーニングされたディープラーニングニューラルネットワークを実行しています。これを複数のホストに展開して推論します。問題は、推論にGPUとCPUのどちらを使用するかを決定するための条件は何ですか? 以下のコメントから詳細を追加します。 私はこれが初めてなので、指導に感謝します。 メモリ:GPUはK80 フレームワーク:CudaおよびcuDNN ワークロードあたりのデータサイズ:20G 消費するノードの計算:スケールオプションを検討したいが、ジョブごとに1つ コスト:理由が理にかなっている場合は、GPUオプションを購入できます 展開:クラウドではなく、ホストされた独自のベアメタルサーバーで実行します。 現在、アプリケーションが正常に実行されているという理由だけでCPUで実行しています。しかし、その理由以外に、なぜGPUを検討するのかさえわかりません。

2
機械学習モデルをトレーニングするのに十分な量のデータはありますか?
私はしばらくの間機械学習とバイオインフォマティクスに取り組んできましたが、今日、データマイニングの主な一般的な問題について同僚と会話しました。 私の同僚(機械学習のエキスパート)は、彼の意見では、機械学習の間違いなく最も重要な実用的な側面は、機械学習モデルをトレーニングするのに十分なデータを収集したかどうかを理解する方法だと述べました。 私はこの側面をそれほど重視していなかったので、この発言は私を驚かせました... その後、インターネットで詳細情報を探したところ、FastML.comのレポートで、この投稿は経験則として、機能の約10倍のデータインスタンスが必要であることがわかりました。 2つの質問: 1-この問題は機械学習に特に関連していますか? 2 - 10倍の作業を支配ですか?このテーマに関連する他のソースはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.