データサイエンス machine-learning

2

HTML文字列があり、その文字列に関連する単語が含まれているかどうかを確認したいと考えています。関連性は、テキストの頻度に基づいて測定できます。私の問題を説明する例： this is an awesome bike store bikes can be purchased online. the bikes we own rock. check out our bike store now 次に、他のいくつかの単語をテストします。 bike repairs dog poo bike repairs関連としてマークするdog poo必要がありますが、関連としてマークしないでください。質問：これはどのように行うことができますか？ inまたはなどのあいまいな単語を除外する方法or あなたのアイデアをありがとう！私はそれがどんなキーワードがウェブサイトに関連しているのかを理解するためにグーグルがすることだと思います。私は基本的に彼らのページ上のランキングを再現しようとしています。

8 machine-learning data-mining

2

個々の検索クエリ間の距離を計算するいくつかの標準的な方法は何ですか？

「ドキュメント」（ウィキペディアの記事、ニュース記事など）の間隔についても同様の質問をしました。検索クエリはドキュメントよりかなり小さく、かなりうるさいので、これを別の質問にしました。したがって、ここで同じ距離メトリックが使用されるかどうかはわかりません（そして疑います）。バニラの字句距離メトリックまたは最新のセマンティック距離メトリックのいずれかが推奨され、後者がより優先されます。

8 machine-learning nlp search

2

手動リセットで線形的に増加するデータ

センサーの線形に増加する時系列データセットがあり、値の範囲は50から150です。単純な線形回帰アルゴリズムを実装して、そのようなデータに回帰直線を当てはめ、系列が到達する日付を予測しています120。シリーズが上に移動すると、すべて正常に動作します。ただし、センサーが約110または115に達してリセットされる場合があります。このような場合、値は、たとえば50または60からやり直します。これは、回帰線が下向きに動き始め、古い日付の予測を開始するため、回帰直線の問題に直面し始めるところです。以前にリセットされたデータのサブセットのみを検討する必要があると思います。ただし、このケースを考慮したアルゴリズムが利用できるかどうかを理解しようとしています。私はデータサイエンスに不慣れです。先に進むためのヒントをいただければ幸いです。編集：nfmcclureの提案を適用提案を適用する前に以下は、リセットが発生するデータセットを分割した後のスナップショットと、2つのセットの傾きです。 2つの勾配の平均を見つけ、その平均から線を引きます。これでいい？

8 machine-learning statistics time-series

4

オンライン機械学習チュートリアル

オンラインの機械学習技術に関する優れたチュートリアルを知っている人はいますか？つまり、リアルタイム環境でどのように使用できるか、通常の機械学習方法と比較した主な違いは何かなどです。 UPD：回答ありがとうございます。 "オンライン"とは、新しい入力を1つずつリアルタイムモードでトレーニングできるメソッドのことです。

8 machine-learning education beginner

4

画像データのNaN値を置き換える方法は？

私のデータセットには合計200列があり、各列はすべての画像の同じピクセルに対応しています。合計で48,500行あります。データのラベルの範囲は0〜9です。データは次のようになります。 raw_0 raw_1 raw_2 raw_3 raw_4 0 120.0 133.0 96.0 155.0 66.0 1 159.0 167.0 163.0 185.0 160.0 2 45.0 239.0 66.0 252.0 NaN 3 126.0 239.0 137.0 NaN 120.0 4 226.0 222.0 153.0 235.0 171.0 5 169.0 81.0 100.0 44.0 104.0 6 154.0 145.0 76.0 134.0 175.0 7 …

8 machine-learning python pandas numpy image-preprocessing

1

指定された変数に直交する（相関しない）予測を生成する

私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。このコード： import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

2

適切なMLアプローチの選択についてコンセンサスはありますか？

私は現在データサイエンスを勉強しており、目まぐるしく変化するさまざまな基本的な回帰/分類手法（線形、ロジスティック、ツリー、スプライン、ANN、SVM、MARSなど...）とさまざまな方法を教えられています追加のツール（ブートストラップ、ブースティング、バギング、アンサンブル、リッジ/ラッソ、CVなど）。技術にはコンテキストが与えられる場合があります（例：小さい/大きいデータセットに適している、少数/多数の予測子に適しているなど）が、ほとんどの場合、回帰または分類の問題にはオプションの目まいがする配列が存在するから選択します。今すぐデータサイエンスの仕事を始めて、モデリングの問題が発生した場合、基本的な構成で知っているすべての手法を試して、交差検証を使用して評価し、最良のものを選択することほどよいことはないと思います。しかし、これにはそれ以上のものがあるに違いありません。私は、経験豊富なデータサイエンティストがテクニックのカタログをよく知っていて、精神的なフローチャートに従って、すべてのテクニックを無意識に試すのではなく、どのテクニックを試すかを決定すると思います。私はこのフローチャートがa）関数の関数であると想像します。b）変数タイプ。c）考えられる関係（線形/非線形）に関するドメイン知識。d）データセットのサイズ。e）計算時間などに関する制約。手法を選択するために、従うべき従来のフローチャートに同意したものはありますか？それとも、「多くのことを試して、クロスバリデーションなど、目的のメジャーで最も効果的なものを確認する」ということになるのでしょうか。

8 machine-learning neural-network deep-learning classification data-science-model

3

機械学習モデルにおける用語「分散」の意味は何ですか？

高バイアスと高分散という用語と、モデルへの影響についてよく知っています。基本的に、モデルが複雑すぎて感度が高すぎて外れ値である場合、モデルの分散は大きくなります。しかし、最近、インタビューの1つで機械学習モデルの用語「分散」の意味を尋ねられました。 MLモデルでVarianceが正確に何を意味するのか、そしてそれがモデルにどのように導入されるのか知りたいのですが？誰かが例を挙げてこれを説明できたら本当にありがたいです。

8 machine-learning variance

1

アーサーサミュエルの機械学習の定義の出典

アーサーサミュエルが1959年に機械学習は「明示的にプログラムしなくてもコンピューターが学習できるようにする研究分野」であると書いた、または言ったことに多くの人が同意しているようです。例えば、引用に含まれるこのページ、1ということとにアンドリュー・ウのMLのコース。いくつかの記事にもこの引用が含まれており、参照は常に次の記事であり、実際には引用は含まれていません。アラバマ州サミュエル（1959）。チェッカーのゲームを使用した機械学習のいくつかの研究。IBM Journal of Research and Development、3（3）、210-229。信頼できる情報源はありますか？それとも、実際には引用ではなく、サミュエルの記事の解釈なのでしょうか？

8 machine-learning

2

可変長の特徴ベクトルを扱う

サイズが異なる可能性がある特徴ベクトルをどのように処理しますか？オブジェクトごとに、4つの特徴を計算するとします。特定の回帰問題を解決するために、これらのオブジェクトを1つ、2つ、またはそれ以上（10以下）持つ場合があります。したがって、特徴ベクトルの長さは4 * Nです。これは通常どのように対処されますか？オブジェクトは、オブザーバーに関する物理的なオブジェクト（他の人など）を表します。タイムスライスの場合、オブジェクトは横方向、縦方向に配置でき、ある程度の速度と方向を持ちます（4つの機能）。解決しようとすること：人が最も快適に感じる場所。オブジェクトが1つしかない場合もありますが、2つ以上ある場合もあります。免責事項：私はMLアプローチについての知識が限られています。私は何年も前に大学で授業をしていて、Andrew NgのMLコースを復習としてオンラインで受講しましたが、それ以外の点ではスピードが出ませんでした。見てみるところに感謝します。

8 machine-learning regression linear-regression

2

一般化された利点の見積もりはどのように機能しますか？

私はしばらくの間、GAEを私のA2C実装に追加しようとしていますが、それがどのように機能するかを完全に理解しているようには思えません。私の理解では、ロールアウトの値に基づいて利点を「平均化」（または一般化）することで、利点推定関数の分散を減らします。私は自分で数学を試してみましたが、結局のところ、展開全体で1つの利点しかありませんでしたか？通常、ロールアウトのタイムステップごとに1つの利点があります。誰でもGAEの直感について説明できますか？

8 machine-learning reinforcement-learning

3

テンソルフローのインジケーター列とカテゴリアイデンティティ列の違い

Tensorflowを学習していて、Tensorflowで使用されているさまざまな機能列に出くわしました。これらのタイプのうち、2つはcategorical_identity_columnおよびindicator_columnです。どちらも同じ方法で定義されています。私が理解している限り、どちらもカテゴリー列をワンホットエンコード列に変換します。だから私の質問は、2つの違いは何ですか？どちらを使用するか、もう一方をいつ使用するか？

8 machine-learning tensorflow

2

これはQ学習アルゴリズムですか、それともブルートフォースですか？

私は、tictactoeをプレイする方法を学ぶアルゴリズムで遊んでいます。基本的な擬似コードは次のとおりです。 repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } } for each step in the game { determine board layout for current step if(board layout is …

8 machine-learning neural-network reinforcement-learning q-learning

2

XGBoost機能の重要性-ゲインとカバーは高いが周波数は低い

私はこの質問を読みました：XGBoostの重要性の出力をどのように解釈しますか？機能の重要性の3つの異なるタイプについて：頻度（Python XGBoostでは「ウェイト」と呼ばれます）、ゲイン、カバー。私の場合、周波数メトリックに基づいて非常に重要度が低い機能であるジェンダーがありますが、ゲインとカバーメトリックの両方に基づいて、最も重要な機能です。私が予測していることでは、性別が重要であることを知っています。性別とターゲットのみをプロットすると、明確な相関関係があります。それが最も重要な機能であることには驚かない。なぜそれが周波数メトリックに基づいて重要な機能と見なされないのか知りたいだけです。

8 machine-learning xgboost

2

SMOTE実行後のトレーニング/テスト分割

私は非常に不均衡なデータを扱っているので、SMOTEアルゴリズムを使用してデータセットをリサンプリングしました。 SMOTEリサンプリング後、トレーニングセットを使用してモデルを構築し、テストセットを使用してモデルを評価することで、リサンプリングされたデータセットをトレーニング/テストセットに分割しました。ただし、テストセットの一部のデータポイントが実際にトレーニングセットのデータポイントからジッターされる可能性がある（つまり、情報がトレーニングセットからテストセットにリークしている）ため、テストセットは実際にはクリーンセットではないテスト。誰か似たような経験はありますか？情報は本当にトレーニングからテストに漏れていますか？または、SMOTEアルゴリズムが実際に処理してくれて、心配する必要はありませんか？どうもありがとう！

8 machine-learning unbalanced-classes evaluation

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」