タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

2
テキスト検索エンジンを構築するには?
HTML文字列があり、その文字列に関連する単語が含まれているかどうかを確認したいと考えています。 関連性は、テキストの頻度に基づいて測定できます。 私の問題を説明する例: this is an awesome bike store bikes can be purchased online. the bikes we own rock. check out our bike store now 次に、他のいくつかの単語をテストします。 bike repairs dog poo bike repairs関連としてマークするdog poo必要がありますが、関連としてマークしないでください。 質問: これはどのように行うことができますか? inまたはなどのあいまいな単語を除外する方法or あなたのアイデアをありがとう! 私はそれがどんなキーワードがウェブサイトに関連しているのかを理解するためにグーグルがすることだと思います。私は基本的に彼らのページ上のランキングを再現しようとしています。

2
個々の検索クエリ間の距離を計算するいくつかの標準的な方法は何ですか?
「ドキュメント」(ウィキペディアの記事、ニュース記事など)の間隔についても同様の質問をしました。検索クエリはドキュメントよりかなり小さく、かなりうるさいので、これを別の質問にしました。したがって、ここで同じ距離メトリックが使用されるかどうかはわかりません(そして疑います)。 バニラの字句距離メトリックまたは最新のセマンティック距離メトリックのいずれかが推奨され、後者がより優先されます。

2
手動リセットで線形的に増加するデータ
センサーの線形に増加する時系列データセットがあり、値の範囲は50から150です。単純な線形回帰アルゴリズムを実装して、そのようなデータに回帰直線を当てはめ、系列が到達する日付を予測しています120。 シリーズが上に移動すると、すべて正常に動作します。ただし、センサーが約110または115に達してリセットされる場合があります。このような場合、値は、たとえば50または60からやり直します。 これは、回帰線が下向きに動き始め、古い日付の予測を開始するため、回帰直線の問題に直面し始めるところです。以前にリセットされたデータのサブセットのみを検討する必要があると思います。ただし、このケースを考慮したアルゴリズムが利用できるかどうかを理解しようとしています。 私はデータサイエンスに不慣れです。先に進むためのヒントをいただければ幸いです。 編集:nfmcclureの提案を適用 提案を適用する前に 以下は、リセットが発生するデータセットを分割した後のスナップショットと、2つのセットの傾きです。 2つの勾配の平均を見つけ、その平均から線を引きます。 これでいい?

4
オンライン機械学習チュートリアル
オンラインの機械学習技術に関する優れたチュートリアルを知っている人はいますか?つまり、リアルタイム環境でどのように使用できるか、通常の機械学習方法と比較した主な違いは何かなどです。 UPD:回答ありがとうございます。 "オンライン"とは、新しい入力を1つずつリアルタイムモードでトレーニングできるメソッドのことです。

4
画像データのNaN値を置き換える方法は?
私のデータセットには合計200列があり、各列はすべての画像の同じピクセルに対応しています。合計で48,500行あります。データのラベルの範囲は0〜9です。 データは次のようになります。 raw_0 raw_1 raw_2 raw_3 raw_4 0 120.0 133.0 96.0 155.0 66.0 1 159.0 167.0 163.0 185.0 160.0 2 45.0 239.0 66.0 252.0 NaN 3 126.0 239.0 137.0 NaN 120.0 4 226.0 222.0 153.0 235.0 171.0 5 169.0 81.0 100.0 44.0 104.0 6 154.0 145.0 76.0 134.0 175.0 7 …

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

2
適切なMLアプローチの選択についてコンセンサスはありますか?
私は現在データサイエンスを勉強しており、目まぐるしく変化するさまざまな基本的な回帰/分類手法(線形、ロジスティック、ツリー、スプライン、ANN、SVM、MARSなど...)とさまざまな方法を教えられています追加のツール(ブートストラップ、ブースティング、バギング、アンサンブル、リッジ/ラッソ、CVなど)。技術にはコンテキストが与えられる場合があります(例:小さい/大きいデータセットに適している、少数/多数の予測子に適しているなど)が、ほとんどの場合、回帰または分類の問題にはオプションの目まいがする配列が存在するから選択します。 今すぐデータサイエンスの仕事を始めて、モデリングの問題が発生した場合、基本的な構成で知っているすべての手法を試して、交差検証を使用して評価し、最良のものを選択することほどよいことはないと思います。しかし、これにはそれ以上のものがあるに違いありません。 私は、経験豊富なデータサイエンティストがテクニックのカタログをよく知っていて、精神的なフローチャートに従って、すべてのテクニックを無意識に試すのではなく、どのテクニックを試すかを決定すると思います。私はこのフローチャートがa)関数の関数であると想像します。b)変数タイプ。c)考えられる関係(線形/非線形)に関するドメイン知識。d)データセットのサイズ。e)計算時間などに関する制約。 手法を選択するために、従うべき従来のフローチャートに同意したものはありますか?それとも、「多くのことを試して、クロスバリデーションなど、目的のメジャーで最も効果的なものを確認する」ということになるのでしょうか。

3
機械学習モデルにおける用語「分散」の意味は何ですか?
高バイアスと高分散という用語と、モデルへの影響についてよく知っています。 基本的に、モデルが複雑すぎて感度が高すぎて外れ値である場合、モデルの分散は大きくなります。 しかし、最近、インタビューの1つで機械学習モデルの用語「分散」の意味を尋ねられました。 MLモデルでVarianceが正確に何を意味するのか、そしてそれがモデルにどのように導入されるのか知りたいのですが?誰かが例を挙げてこれを説明できたら本当にありがたいです。

1
アーサーサミュエルの機械学習の定義の出典
アーサーサミュエルが1959年に機械学習は「明示的にプログラムしなくてもコンピューターが学習できるようにする研究分野」であると書いた、または言ったことに多くの人が同意しているようです。 例えば、引用に含まれるこのページ、1ということとにアンドリュー・ウのMLのコース。いくつかの記事にもこの引用が含まれており、参照は常に次の記事であり、実際には引用は含まれていません。 アラバマ州サミュエル(1959)。チェッカーのゲームを使用した機械学習のいくつかの研究。IBM Journal of Research and Development、3(3)、210-229。 信頼できる情報源はありますか?それとも、実際には引用ではなく、サミュエルの記事の解釈なのでしょうか?

2
可変長の特徴ベクトルを扱う
サイズが異なる可能性がある特徴ベクトルをどのように処理しますか? オブジェクトごとに、4つの特徴を計算するとします。特定の回帰問題を解決するために、これらのオブジェクトを1つ、2つ、またはそれ以上(10以下)持つ場合があります。したがって、特徴ベクトルの長さは4 * Nです。これは通常どのように対処されますか? オブジェクトは、オブザーバーに関する物理的なオブジェクト(他の人など)を表します。タイムスライスの場合、オブジェクトは横方向、縦方向に配置でき、ある程度の速度と方向を持ちます(4つの機能)。解決しようとすること:人が最も快適に感じる場所。オブジェクトが1つしかない場合もありますが、2つ以上ある場合もあります。 免責事項:私はMLアプローチについての知識が限られています。私は何年も前に大学で授業をしていて、Andrew NgのMLコースを復習としてオンラインで受講しましたが、それ以外の点ではスピードが出ませんでした。見てみるところに感謝します。

2
一般化された利点の見積もりはどのように機能しますか?
私はしばらくの間、GAEを私のA2C実装に追加しようとしていますが、それがどのように機能するかを完全に理解しているようには思えません。 私の理解では、ロールアウトの値に基づいて利点を「平均化」(または一般化)することで、利点推定関数の分散を減らします。 私は自分で数学を試してみましたが、結局のところ、展開全体で1つの利点しかありませんでしたか?通常、ロールアウトのタイムステップごとに1つの利点があります。 誰でもGAEの直感について説明できますか?

3
テンソルフローのインジケーター列とカテゴリアイデンティティ列の違い
Tensorflowを学習していて、Tensorflowで使用されているさまざまな機能列に出くわしました。これらのタイプのうち、2つはcategorical_identity_columnおよびindicator_columnです。どちらも同じ方法で定義されています。私が理解している限り、どちらもカテゴリー列をワンホットエンコード列に変換します。 だから私の質問は、2つの違いは何ですか?どちらを使用するか、もう一方をいつ使用するか?

2
これはQ学習アルゴリズムですか、それともブルートフォースですか?
私は、tictactoeをプレイする方法を学ぶアルゴリズムで遊んでいます。基本的な擬似コードは次のとおりです。 repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } } for each step in the game { determine board layout for current step if(board layout is …

2
XGBoost機能の重要性-ゲインとカバーは高いが周波数は低い
私はこの質問を読みました:XGBoostの重要性の出力をどのように解釈しますか?機能の重要性の3つの異なるタイプについて:頻度(Python XGBoostでは「ウェイト」と呼ばれます)、ゲイン、カバー。 私の場合、周波数メトリックに基づいて非常に重要度が低い機能であるジェンダーがありますが、ゲインとカバーメトリックの両方に基づいて、最も重要な機能です。 私が予測していることでは、性別が重要であることを知っています。性別とターゲットのみをプロットすると、明確な相関関係があります。それが最も重要な機能であることには驚かない。なぜそれが周波数メトリックに基づいて重要な機能と見なされないのか知りたいだけです。

2
SMOTE実行後のトレーニング/テスト分割
私は非常に不均衡なデータを扱っているので、SMOTEアルゴリズムを使用してデータセットをリサンプリングしました。 SMOTEリサンプリング後、トレーニングセットを使用してモデルを構築し、テストセットを使用してモデルを評価することで、リサンプリングされたデータセットをトレーニング/テストセットに分割しました。 ただし、テストセットの一部のデータポイントが実際にトレーニングセットのデータポイントからジッターされる可能性がある(つまり、情報がトレーニングセットからテストセットにリークしている)ため、テストセットは実際にはクリーンセットではないテスト。 誰か似たような経験はありますか?情報は本当にトレーニングからテストに漏れていますか?または、SMOTEアルゴリズムが実際に処理してくれて、心配する必要はありませんか? どうもありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.