データサイエンス

2

分類問題のためにどのタイプのモデル交差検証を選択するのか、Kフォールドかランダムサブサンプリング（ブートストラップサンプリング）か？私の推測では、トレーニングにはデータセットの2/3（約1000アイテム）を使用し、検証には1/3を使用します。この場合、Kフォールドは3回の反復（フォールド）しか提供しないため、安定した平均誤差を確認するには不十分です。一方、ランダムサブサンプリング機能は好きではありません。一部の項目はトレーニング/検証の対象として選択されず、一部は複数回使用されます。使用される分類アルゴリズム：ランダムフォレストとロジスティック回帰。

10 cross-validation sampling

4

データ分析をデバッグする方法は？

私は偵察がかなり典型的であるという次の問題に遭遇しました。数百万行という大きなデータがあります。たとえば、いくつかのサブクエリで構成されるSQLクエリなど、重要な分析をいくつか実行します。たとえば、プロパティXが時間の経過とともに増加しているという結果が出ました。これにつながる可能性のある2つの可能性があります。 Xは確かに時間とともに増加しています分析にバグがあります 2番目ではなく1番目が発生したことをテストするにはどうすればよいですか？中間結果は何百万行にも及ぶ可能性があるため、ステップワイズデバッガーが存在しても、役に立ちません。私が考え得る唯一のことは、テストしたいプロパティを持つ小さな合成データセットを何らかの方法で生成し、ユニットテストとして分析を実行することでした。これを行うためのツールはありますか？特に、SQLに限定されません。

10 data-mining sql experiments

2

ニューラルネットワークのデバッグ

scipy.optimize.minimize（共役勾配）最適化関数を使用して、Pythonで人工ニューラルネットワークを構築しました。私は勾配チェックを実装し、すべてをダブルチェックしました、そしてそれが正しく機能していることは確かです。何度か実行したところ、「最適化は正常に終了しました」に達しましたが、隠れ層の数を増やすと、正常に終了した後、仮説のコストが増加します（他のすべては同じままです）。直感的には、隠れ層の数が増えるとコストが下がるように感じられます。これは、データに適合するより複雑な仮説を生成できるためですが、そうではないようです。ここで何が起こっているのかを理解するのに興味がありますか、またはニューラルネットを間違って実装した場合はどうなりますか？

10 machine-learning python neural-network

1

ElasticSearchに保存されている顧客データのクラスタリング

elasticsearchクラスターに多数の顧客プロファイルが保存されています。これらのプロファイルは、電子メールサブスクリプションのターゲットグループの作成に使用されます。ターゲットグループは現在、elasticsearchファセット検索機能を使用して手動で形成されています（23歳のすべての男性顧客に1台の車と3人の子供を連れて行くなど）。データサイエンス、機械学習、クラスタリングなどを使用して、興味深いグループを自動的に検索するにはどうすればよいですか？ rプログラミング言語はこのタスクに適したツールのようですが、そのようなグループ検索の方法論を形成することはできません。1つの解決策は、何とかして最大の顧客クラスターを見つけてターゲットグループとして使用することです。そのため、問題は次のとおりです。同様の顧客の最大のクラスターを自動的に選択するにはどうすればよいですか（現時点ではわからないパラメーターで同様）。例：私のプログラムはelasticsearchに接続し、顧客データをCSVにオフロードし、R言語スクリプトを使用すると、大部分の顧客が子供を持たない男性であり、別の大部分の顧客が車を持ち、目の色が茶色であることがわかります。

10 data-mining clustering

2

scikit-learnでハイパーパラメーターを最適化する最も効率的な方法は何ですか？

scikit-learnのハイパーパラメータ最適化プロセスの概要はこちらです。徹底的なグリッド検索は、モデルに最適なハイパーパラメーターのセットを見つけます。欠点は、徹底的なグリッド検索が遅いことです。ランダム検索はグリッド検索より高速ですが、分散が不必要に高くなります。他のパッケージには、scikit-optimize、auto-sklearn、scikit-hyperbandなどの追加の戦略もあります。 scikit-learnでハイパーパラメーターを最適化するための最も効率的な（合理的なパフォーマンスのパラメーターをすばやく見つける）方法は何ですか？理想的には、ベンチマークを使用してコード例を実行したいと思います。

10 scikit-learn hyperparameter hyperparameter-tuning grid-search randomized-algorithms

2

scikitのmax_depthは、決定木の枝刈りと同等ですか？

決定木を使って作成した分類器を分析していました。scikitのディシジョンツリーには、max_depthというチューニングパラメータがあります。これは決定木の枝刈りに相当しますか？そうでない場合、scikitを使用してディシジョンツリーをプルーニングするにはどうすればよいですか？ dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

10 machine-learning python scikit-learn decision-trees supervised-learning

2

バッチ正規化はReLUアクティベーション機能に意味がありますか？

バッチ正規化は、このホワイトペーパーでは、スケール変数とシフト変数およびβを使用したアクティブ化関数への入力の正規化として説明されています。このペーパーでは、主にシグモイドアクティベーション関数の使用について説明します。ただし、バッチ正規化によって生成された正規化分布からの入力をm a x （0 、x ）の ReLU活性化関数に供給することは、βγγ\gammaββ\betamax(0,x)max(0,x)max(0,x)ββ\betaReLUが入力情報を失わないように、ほとんどの入力を0を超えてシフトすることを学習しません。つまり、ReLUへの入力が標準正規化されただけである場合、0未満の多くの情報が失われます。この情報が失われないことを保証する保証または初期化はありますか？BNとReLUの操作方法に何か不足していますか？ββ\beta

10 machine-learning neural-network deep-learning batch-normalization

3

数学の畳み込みとCNNの関係

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

バッチを実行するとき、バックプロパゲーションはMax Poolingレイヤーを通じてどのように機能しますか？

学習に100サンプルのバッチサイズを使用していると仮定します。したがって、すべてのバッチで、すべてのニューロン（およびバイアスなど）の重みは、学習率のマイナス* 100サンプルを使用して見つけた平均エラー値*に関するエラー関数の導関数を追加することによって更新されます。更新されている現在のニューロンの重み。ここで、最大プールレイヤーを使用する場合、このレイヤーの微分をどのように計算できますか？フィードフォワードするすべてのサンプルで、異なるピクセル（たとえば、）が最大値として選択されているため、異なるパスが選択されるたびに100個を超えるサンプルをバックプロパゲートする場合、どうすればよいですか？私が心に留めている解決策は、最大値として選択されたすべてのピクセルを覚えてから、おそらくすべての最大ピクセルで微分を分割することです。これは何が行われているのですか？

10 neural-network deep-learning backpropagation

3

機能の選択は必要ですか？

データセットでランダムフォレスト、勾配ブースティング、SVMなどの機械学習モデルを実行したいと思います。データセットには200を超える予測変数があり、ターゲットクラスはバイナリ変数です。モデルフィッティングの前に特徴選択を実行する必要がありますか？すべての予測子変数を使用してモデルを直接当てはめると、モデルのパフォーマンスに大きな影響を与えますか、それとも大きな違いはありませんか？

10 machine-learning predictive-modeling feature-selection random-forest

3

Tensorflowでバッチ内積を行う方法は？

2つのテンソルがありa:[batch_size, dim] b:[batch_size, dim]ます。バッチ内のすべてのペアに対して内積を行い、を生成c:[batch_size, 1]しc[i,0]=a[i,:].T*b[i,:]ます。どうやって？

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

3

pysparkのRDDのキャッシュはいつ期限切れになりますか？

.cache()データセットの永続的なキャッシュにRDD を使用していますが、このキャッシュがいつ期限切れになるのか心配です。 dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

3

単語のバッグアプローチを使用するだけでなく、単語の順序を考慮してテキストを分類するにはどうすればよいですか？

メッセージボード上のスパム投稿を分類するために、bag-of-words手法を使用する単純ベイズ分類器を作成しました。それは機能しますが、私のモデルが単語の順序とフレーズを考慮した場合、はるかに良い結果が得られると思います。（例：「ライブガール」がジャンクである可能性が最も高いとしても、「ガール」と「ライブ」は高いスパムスコアをトリガーしない場合があります）。単語の順序を考慮したモデルを構築するにはどうすればよいですか？私はn-gram（check-out-these、out-these-live、these-live-girls）を保存することを検討しましたが、これはスコアを保持する辞書のサイズを根本的に増やして、非常に言葉遣いは似ていますが、順序が異なります。私はベイジアン分類に縛られていませんが、統計に強いバックグラウンドがない人が手に入れて実装できるものを望んでいます。

10 classification

3

NASDAQ取引データ

練習する株式データを見つけようとしていますが、これに適したリソースはありますか？私はこれを見つけました：ftp : //emi.nasdaq.com/ITCH/ですが、現在の年しかありません。私はすでにプロトコルを解析する方法を持っていますが、比較するためにいくつかのデータが欲しいです。価格、取引、日付の統計情報がある限り、同じ形式である必要はありません。

10 data-mining dataset