データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

2
交差検証:K分割と反復ランダムサブサンプリング
分類問題のためにどのタイプのモデル交差検証を選択するのか、Kフォールドかランダムサブサンプリング(ブートストラップサンプリング)か? 私の推測では、トレーニングにはデータセットの2/3(約1000アイテム)を使用し、検証には1/3を使用します。 この場合、Kフォールドは3回の反復(フォールド)しか提供しないため、安定した平均誤差を確認するには不十分です。 一方、ランダムサブサンプリング機能は好きではありません。一部の項目はトレーニング/検証の対象として選択されず、一部は複数回使用されます。 使用される分類アルゴリズム:ランダムフォレストとロジスティック回帰。

4
データ分析をデバッグする方法は?
私は偵察がかなり典型的であるという次の問題に遭遇しました。 数百万行という大きなデータがあります。たとえば、いくつかのサブクエリで構成されるSQLクエリなど、重要な分析をいくつか実行します。たとえば、プロパティXが時間の経過とともに増加しているという結果が出ました。 これにつながる可能性のある2つの可能性があります。 Xは確かに時間とともに増加しています 分析にバグがあります 2番目ではなく1番目が発生したことをテストするにはどうすればよいですか?中間結果は何百万行にも及ぶ可能性があるため、ステップワイズデバッガーが存在しても、役に立ちません。 私が考え得る唯一のことは、テストしたいプロパティを持つ小さな合成データセットを何らかの方法で生成し、ユニットテストとして分析を実行することでした。これを行うためのツールはありますか?特に、SQLに限定されません。

2
ニューラルネットワークのデバッグ
scipy.optimize.minimize(共役勾配)最適化関数を使用して、Pythonで人工ニューラルネットワークを構築しました。 私は勾配チェックを実装し、すべてをダブルチェックしました、そしてそれが正しく機能していることは確かです。 何度か実行したところ、「最適化は正常に終了しました」に達しましたが、隠れ層の数を増やすと、正常に終了した後、仮説のコストが増加します(他のすべては同じままです)。 直感的には、隠れ層の数が増えるとコストが下がるように感じられます。これは、データに適合するより複雑な仮説を生成できるためですが、そうではないようです。 ここで何が起こっているのかを理解するのに興味がありますか、またはニューラルネットを間違って実装した場合はどうなりますか?

1
ElasticSearchに保存されている顧客データのクラスタリング
elasticsearchクラスターに多数の顧客プロファイルが保存されています。これらのプロファイルは、電子メールサブスクリプションのターゲットグループの作成に使用されます。 ターゲットグループは現在、elasticsearchファセット検索機能を使用して手動で形成されています(23歳のすべての男性顧客に1台の車と3人の子供を連れて行くなど)。 データサイエンス、機械学習、クラスタリングなどを使用して、興味深いグループを自動的に検索するにはどうすればよいですか? rプログラミング言語はこのタスクに適したツールのようですが、そのようなグループ検索の方法論を形成することはできません。1つの解決策は、何とかして最大の顧客クラスターを見つけてターゲットグループとして使用することです。そのため、問題は次のとおりです。 同様の顧客の最大のクラスターを自動的に選択するにはどうすればよいですか(現時点ではわからないパラメーターで同様)。 例:私のプログラムはelasticsearchに接続し、顧客データをCSVにオフロードし、R言語スクリプトを使用すると、大部分の顧客が子供を持たない男性であり、別の大部分の顧客が車を持ち、目の色が茶色であることがわかります。

2
scikit-learnでハイパーパラメーターを最適化する最も効率的な方法は何ですか?
scikit-learnのハイパーパラメータ最適化プロセスの概要はこちらです。 徹底的なグリッド検索は、モデルに最適なハイパーパラメーターのセットを見つけます。欠点は、徹底的なグリッド検索が遅いことです。 ランダム検索はグリッド検索より高速ですが、分散が不必要に高くなります。 他のパッケージには、scikit-optimize、auto-sklearn、scikit-hyperbandなどの追加の戦略もあります。 scikit-learnでハイパーパラメーターを最適化するための最も効率的な(合理的なパフォーマンスのパラメーターをすばやく見つける)方法は何ですか? 理想的には、ベンチマークを使用してコード例を実行したいと思います。

2
scikitのmax_depthは、決定木の枝刈りと同等ですか?
決定木を使って作成した分類器を分析していました。scikitのディシジョンツリーには、max_depthというチューニングパラメータがあります。これは決定木の枝刈りに相当しますか?そうでない場合、scikitを使用してディシジョンツリーをプルーニングするにはどうすればよいですか? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

2
バッチ正規化はReLUアクティベーション機能に意味がありますか?
バッチ正規化は、このホワイトペーパーでは、スケール変数とシフト変数およびβを使用したアクティブ化関数への入力の正規化として説明されています。このペーパーでは、主にシグモイドアクティベーション関数の使用について説明します。ただし、バッチ正規化によって生成された正規化分布からの入力をm a x (0 、x )の ReLU活性化関数に供給することは、βγγ\gammaββ\betamax(0,x)max(0,x)max(0,x)ββ\betaReLUが入力情報を失わないように、ほとんどの入力を0を超えてシフトすることを学習しません。つまり、ReLUへの入力が標準正規化されただけである場合、0未満の多くの情報が失われます。この情報が失われないことを保証する保証または初期化はありますか?BNとReLUの操作方法に何か不足していますか?ββ\beta

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
バッチを実行するとき、バックプロパゲーションはMax Poolingレイヤーを通じてどのように機能しますか?
学習に100サンプルのバッチサイズを使用していると仮定します。 したがって、すべてのバッチで、すべてのニューロン(およびバイアスなど)の重みは、学習率のマイナス* 100サンプルを使用して見つけた平均エラー値*に関するエラー関数の導関数を追加することによって更新されます。更新されている現在のニューロンの重み。 ここで、最大プールレイヤーを使用する場合、このレイヤーの微分をどのように計算できますか?フィードフォワードするすべてのサンプルで、異なるピクセル(たとえば、)が最大値として選択されているため、異なるパスが選択されるたびに100個を超えるサンプルをバックプロパゲートする場合、どうすればよいですか?私が心に留めている解決策は、最大値として選択されたすべてのピクセルを覚えてから、おそらくすべての最大ピクセルで微分を分割することです。これは何が行われているのですか?

3
機能の選択は必要ですか?
データセットでランダムフォレスト、勾配ブースティング、SVMなどの機械学習モデルを実行したいと思います。データセットには200を超える予測変数があり、ターゲットクラスはバイナリ変数です。 モデルフィッティングの前に特徴選択を実行する必要がありますか?すべての予測子変数を使用してモデルを直接当てはめると、モデルのパフォーマンスに大きな影響を与えますか、それとも大きな違いはありませんか?

3


2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

3
単語のバッグアプローチを使用するだけでなく、単語の順序を考慮してテキストを分類するにはどうすればよいですか?
メッセージボード上のスパム投稿を分類するために、bag-of-words手法を使用する単純ベイズ分類器を作成しました。それは機能しますが、私のモデルが単語の順序とフレーズを考慮した場合、はるかに良い結果が得られると思います。(例:「ライブガール」がジャンクである可能性が最も高いとしても、「ガール」と「ライブ」は高いスパムスコアをトリガーしない場合があります)。単語の順序を考慮したモデルを構築するにはどうすればよいですか? 私はn-gram(check-out-these、out-these-live、these-live-girls)を保存することを検討しましたが、これはスコアを保持する辞書のサイズを根本的に増やして、非常に言葉遣いは似ていますが、順序が異なります。 私はベイジアン分類に縛られていませんが、統計に強いバックグラウンドがない人が手に入れて実装できるものを望んでいます。

3
NASDAQ取引データ
練習する株式データを見つけようとしていますが、これに適したリソースはありますか?私はこれを見つけました:ftp : //emi.nasdaq.com/ITCH/ですが、現在の年しかありません。 私はすでにプロトコルを解析する方法を持っていますが、比較するためにいくつかのデータが欲しいです。価格、取引、日付の統計情報がある限り、同じ形式である必要はありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.