データサイエンス machine-learning

2

「私が犯すであろうよくある間違いの1つは、ロジット出力に非線形性を追加することです。」ここで「ロジット」という用語は何を意味するのか、それが何を意味するのか？

11 machine-learning deep-learning

3

機械学習とデータサイエンスのコンテキストで「ベースライン」とはどういう意味ですか？誰かが私に書いた：ヒント：適切なベースラインでは、約200のRMSEが得られます。わかりません。彼は、トレーニングデータの私の予測モデルが500未満のRMSEを持っている場合、それは良いことを意味しますか？「ベースラインアプローチ」とは何でしょうか。

11 machine-learning regression predictive-modeling terminology

2

TF-IDFによるWord2Vec埋め込み

（たとえば、gensimを使用して）word2vecモデルをトレーニングするときは、単語/文のリストを指定します。しかし、たとえばTF-IDFを使用して計算された単語の重みを指定する方法はないようです。ワードベクトルの埋め込みに関連するTF-IDFウェイトを乗算する通常の方法はありますか？あるいは、word2vecはこれらを何らかの形で有機的に利用できますか？

11 machine-learning nlp word2vec language-model tfidf

3

科学計算に最適な言語[終了]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか？さらに、どの言語が最もパフォーマンスが高くなりますか？PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか？さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

固定されていないカテゴリデータを使用して分類するにはどうすればよいですか？

カテゴリカルデータと数値データの両方に分類問題があります。私が直面している問題は、カテゴリデータが固定されていないことです。つまり、ラベルを予測したい新しい候補者には、事前に観察されなかった新しいカテゴリがある可能性があります。例えば、私のカテゴリーデータであった場合、sex唯一の可能なラベルがないだろうfemale、maleとother、ないかは重要。ただし、私のカテゴリー変数はcity、予測しようとしている人物が私の分類子が見たことのない新しい都市を持っている可能性があるためです。これらの用語で分類を行う方法があるのか、またはこの新しいカテゴリーデータを考慮して再度トレーニングを行う必要があるのかと思います。

10 machine-learning classification categorical-data

5

教師なし画像セグメンテーション

平面テーブル上に複数のオブジェクトを含む画像があり、各オブジェクトのセグメンテーションマスクの出力が望ましいアルゴリズムを実装しようとしています。CNNとは異なり、ここでの目的は、なじみのない環境でオブジェクトを検出することです。この問題への最善のアプローチは何ですか？また、オンラインで利用可能な実装例はありますか？編集：申し訳ありませんが、質問は少し誤解を招く可能性があります。「なじみのない環境」とは、オブジェクトがアルゴリズムにとって未知である可能性があるということです。アルゴリズムはオブジェクトが何であるかを理解する必要はありませんが、オブジェクトを検出するだけです。この問題にどのように取り組むべきですか？

10 machine-learning deep-learning cnn computer-vision object-detection

2

GPUでトレーニングに時間がかかるのはなぜですか？

詳細： GPU：GTX 1080 トレーニング：10のクラスに属する約110万の画像検証：10クラスに属する約150の画像エポックごとの時間：〜10時間 CUDA、cuDNN、Tensorflow（Tensorflow GPUも）をセットアップしました。私のモデルはエポックごとに10時間かかるほど複雑ではないと思います。私のGPUに問題があるかどうかも確認しましたが、問題はありませんでした。完全に接続されたレイヤーによるトレーニング時間ですか？私のモデル： model = Sequential() model.add() model.add(Conv2D(64, (3, 3), padding="same", strides=2)) model.add(Activation('relu')) model.add(Dropout(0.25)) model.add(Conv2D(64, (3, 3), padding="same", strides=2)) model.add(Activation('relu')) model.add(Dropout(0.25)) model.add(Conv2D(32, (3, 3))) model.add(Activation('relu')) model.add(MaxPooling2D(pool_size=(3, 3), strides=2)) model.add(Flatten()) model.add(Dense(256)) model.add(Activation('relu')) model.add(Dense(4096)) model.add(Activation('relu')) model.add(Dense(10)) model.add(Activation('softmax')) model.summary() opt = keras.optimizers.rmsprop(lr=0.0001, decay=1e-6) model.compile(loss='categorical_crossentropy', optimizer=opt, …

10 machine-learning python keras

2

TensorFlowを使用して財務時系列データを予測しようとしています

私はMLとTensorFlowを初めて使用し（数時間前に開始しました）、それを使用して時系列の次のいくつかのデータポイントを予測しようとしています。私は私の入力を受け取り、これを使ってこれを行っています： /----------- x ------------\ .-------------------------------. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | '-------------------------------' \----------- y ------------/ 私がやっていることは、xを入力データとして使用し、yをその入力の目的の出力として使用して、0〜6を指定すると1〜7（特に7）が得られるようにすることです。ただし、xを入力としてグラフを実行すると、yではなくxに似た予測が得られます。ここにコードがあります（この投稿とこの投稿に基づいています）： import tensorflow as tf import numpy as np import matplotlib.pyplot as plot import pandas as pd import csv def load_data_points(filename): print("Opening CSV …

10 machine-learning python time-series tensorflow rnn

1

AlphaGo Zeroの「新しい強化学習アルゴリズム」とは何ですか？

なんらかの理由で、AlphaGo Zeroはその驚くべき結果にもかかわらず、元のAlphaGoほど宣伝されていません。一から始めると、それはすでにAlphaGoマスターに勝っており、他の多くのベンチマークに合格しています。さらに驚くべきことに、これは40日で完了します。Googleはこれを「間違いなく世界最高のGoプレーヤー」と名付けています。 DeepMindは、これは「新しい形の強化学習」であると主張しています。この手法は本当に新しいものですか？または、この手法が使用された時期は他にもあります。その場合、その結果はどうでしたか？私が話している要件は、1）人間の介入なし、2）歴史的な遊びなしですが、これらは柔軟です。これは同様の質問のようですが、すべての回答はAlphaGo Zeroがその種の最初のものであるという仮定から始まるようです。

10 machine-learning deep-learning

2

死んだReluニューロンを確認する方法

背景：ニューラルネットワークをreluアクティベーションでフィッティングしているときに、予測がほぼ一定になることがあります。これは、ここで述べたように、トレーニング中にreluニューロンが死んでしまったためだと思います。（ニューラルネットワークの「死にかけているReLU」問題とは？）質問：ニューロンが死んでいるかどうかをチェックするために、コード自体にチェックを実装することを望んでいます。その後、必要に応じて、コードをネットワークに適合させることができます。このように、死んだニューロンをチェックするのに適した基準は何ですか？現在、予測としてのばらつきが少ないかどうかを市町村として確認することを考えています。それが役立つ場合は、ケラスを使用しています。

10 machine-learning neural-network keras

3

脳波データの再発（CNN）モデル

私は、EEGコンテキストでリカレントアーキテクチャを解釈する方法を知りたいです。具体的には、これを（LSTMのようなアーキテクチャーとは対照的に）再帰CNNと考えていますが、他のタイプの再帰ネットワークにも適用される可能性があります R-CNNについて読んだとき、それらは通常、画像分類のコンテキストで説明されています。それらは通常、「時間をかけて学習する」または「現在の入力に対するtime-1の影響を含む」と表現されます。この解釈/説明は、EEGデータを扱うときに本当に混乱します。脳波データで使用されているR-CNNの例はここにありますそれぞれが1x512アレイで構成されるトレーニング例があるとします。このアレイは、512の連続した時点で1つの電極の電圧測定値を取得します。これを（1D畳み込みを使用して）再発CNNへの入力として使用すると、モデルの再発部分が実際に「時間」をキャプチャしていませんよね？（前述の説明/説明によって暗示されるように）このコンテキストでは、時間はすでにアレイの2番目の次元によってキャプチャされているためこのように設定すると、ネットワークの繰り返し部分によって、通常のCNNが（時間でない場合でも）できないことを実際にモデル化できるようになりますか？再発とは、たたみ込みを実行し、その結果を元の入力に追加し、再度たたみ込みを行うことを意味するだけのようです。これはx回の反復ステップで繰り返されます。このプロセスは実際にどのような利点をもたらしますか？

10 machine-learning neural-network convnet rnn

4

特徴選択と分類精度の関係

分類器で使用可能な機能のサブセットを選択する方法の1つは、基準（情報ゲインなど）に従ってそれらをランク付けし、分類器とランク付けされた機能のサブセットを使用して精度を計算することです。たとえば、フィーチャがA, B, C, D, Eであり、次のようD,B,C,E,Aにランク付けされている場合は、精度を計算しD、D, B次にD, B, C、次にD, B, C, E... を使用して、精度が低下し始めます。減少し始めたら、機能の追加を停止します。例1（上記）ではF, C, D, A、精度を低下させるため、フィーチャを選択し、他のフィーチャをドロップします。その方法では、モデルに機能を追加すると、特定の時点まで分類子の精度が向上し、その後、機能を追加すると精度が低下すると想定しています（例1を参照）。しかし、私の状況は異なります。上記の方法論を適用しましたが、機能を追加すると精度が低下し、その後は精度が上がることがわかりました。このようなシナリオでは、どのように機能を選択しますか？F残りをピックアンドドロップするだけですか？なぜ精度が低下してから上昇するのか、何かご存知ですか

10 machine-learning feature-selection

2

問題のスペースが大きすぎる場合、AIはどのように行動することを学びますか

私は実験と例を通して最もよく学びます。私はニューラルネットワークについて学んでいて、分類と回帰についてかなりよく理解していて、教師ありと教師なしの学習もしていますが、静かに理解できないものに遭遇しました。 AIをトレーニングして複雑なゲームをプレイしたい場合は、RTSのようなものを考えています（Age of Empires、Empire Earthなど）。これらのタイプのゲームでは、通常、プレーヤーによって制御される多数のエンティティ（ユニット、建物）があり、それぞれに異なる機能があります。AIが分類することの問題のように思われます（たとえば、そのユニットとそのアクションを選択します）。ただし、ユニットの数は変数であるため、このように分類の問題をどのように処理しますか？私が考えることができる唯一のことは、さまざまな段階を実行する複数のネットワークです（全体的な戦略、このタイプのユニットの制御、そのタイプの建物など）。しかし、これは私が問題を複雑にしているようです。複雑なゲーム（具体的にはRTSではなく、より複雑なマリオ）を学習する機械学習/ニューラルネットワークの良い例はありますか？

10 machine-learning neural-network

1

機械学習を使用したサーバーログ分析

例外ログ、データベースログ、イベントログなどを含むアプリケーションのサーバーログを分析するためにこのタスクが割り当てられました。機械学習は初めてで、Sparkをエラスティック検索とSparks MLlib（またはPredictionIO）で使用しています。結果は、収集された例外ログに基づいて予測できるようになり、次の例外を発生させる可能性が高いユーザーと機能（および追跡してアプリケーションの最適化を改善する他の要素）を予測できるようになります。 ElasticSearchからSparkにデータを取り込み、DataFrameを作成して必要なデータをマッピングすることに成功しました。私が知りたいのは、実装の機械学習の側面にどのように取り組むかです。私は、データの前処理、データモデルのトレーニング、ラベルの作成、そして予測の生成について説明する記事や論文を読みました。私が持っている質問は既存のログデータを、トレーニングするデータセットに使用できる数値ベクトルに変換する方法を教えてください。データセットをトレーニングするためにどのアルゴリズムを使用しますか？この問題へのアプローチ方法に関する提案を探しています。ありがとうございました。

10 machine-learning predictive-modeling apache-spark

2

協調強化学習

収益を最大化することを目的とした動的な価格設定問題に取り組んでいる単一のエージェントに対して、機能している実装がすでにあります。ただし、私が取り組んでいる問題には、相互に置き換えられるいくつかの異なる製品が含まれるため、一方の価格が他方の報酬に影響を与えるため、独立した学習者によるすべての製品の動的な価格設定は正しくないようです。目標は、個々の収益の合計を最大化するように、動的に価格を設定することです。Q(λ)Q(λ)Q(\lambda) 私はこのように強化学習を適用するものを見つけるためにいくつかの研究を行ってきましたが、私が見つけた多くのマルチエージェントの実装は、協調よりも競争ゲームに焦点を当てているか、他のエージェントの不完全な知識を想定していますこのシナリオの各エージェントの知識）。このように共同学習の十分に研究され、文書化されたアプリケーションはありますか？

10 machine-learning reinforcement-learning

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」