データサイエンス machine-learning

7

いくつかの実用的な例が段階的に示され、関連する機能の選択方法、モデルの選択手順などが説明されているWebサイトまたは本を探しています。

10 machine-learning feature-selection

1

対応するトピックを含むテキストのコーパスがあります。たとえば、"A rapper Tupac was shot in LA"とラベル付けされました["celebrity", "murder"]。したがって、基本的に各特徴ベクトルには多くのラベルを付けることができます（同じ量ではありません。最初の特徴ベクトルには3つのラベル、2番目に1番目、3番目に5番目のラベルを付けることができます）。各テキストに対応するラベルが1つしかない場合は、単純ベイズ分類器を試してみますが、ラベルが多数ある場合にどうすればよいかわかりません。ナイーブベイズをマルチラベル分類問題に変換する方法はありますか（より良いアプローチがある場合-私に知らせてください）？ PS私が持っているデータについていくつかのこと。データセット内の約10.000要素テキストは約2〜3文テキストあたり最大7つのラベル

10 machine-learning text-mining

2

オンライン機械学習用のライブラリ

株式データを予測するオンライン学習を実行するためのパッケージ（python、R、またはスタンドアロンパッケージ）を探しています。私はVowpal Wabbit（https://github.com/JohnLangford/vowpal_wabbit/wiki）を見つけて読みました。これは非常に有望であるようですが、他にパッケージがあるかどうか疑問に思っています。前もって感謝します。

10 machine-learning online-learning

2

チェスの時間差を実装する

私は、アルファベータ剪定アルゴリズムと、次の機能を使用して位置を評価する評価関数を使用するチェスプログラムを開発しています。つまり、材料、王の安全、移動性、ポーン構造、トラップされた駒などです。私の評価関数はから派生 f（p ）= w1⋅ 素材+ w2⋅ 王の安全+ w３⋅ 移動度+ w4⋅ ポーン構造+ w5⋅ 閉じ込められた破片f（p）=w1⋅素材+w2⋅王の安全+w３⋅可動性+w4⋅ポーン構造+w5⋅閉じ込められた部分f(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot \text{mobility} + w_4 \cdot \text{pawn-structure} + w_5 \cdot \text{trapped pieces} ここで、は各フィーチャに割り当てられた重みです。この時点で、時間差を使用して評価関数の重みを調整します。エージェントはそれ自体に対してプレーし、その過程でその環境からトレーニングデータを収集します（強化学習の形式です）。これをJavaで実装する方法についての洞察を得るために、いくつかの本や記事を読みましたが、それらは実用的ではなく理論的なようです。以前のゲームに基づいて評価関数の重みを自動的に調整する方法の詳細な説明と疑似コードが必要です。www

10 machine-learning algorithms reinforcement-learning

4

大規模なデータセットを理解するには、どの初期ステップを使用する必要がありますか、またどのツールを使用する必要がありますか？

警告：機械学習に関しては、私は完全な初心者ですが、学びたいと思っています。大規模なデータセットがあり、そのパターンを見つけようとしています。既知の変数、またはデータに含まれているが実際には変数/関連があるとまだ認識していない変数のいずれかと、データ全体に相関がある場合とそうでない場合があります。これはデータ分析の世界ではおなじみの問題になると思いますので、いくつか質問があります。「銀の弾丸」は、このすべてのデータを統計/データ分析プログラムに投入し、関係を見つけようとする既知/未知のパターンを探してデータを処理することです。SPSSは適切ですか、それとも他のアプリケーションが適している可能性がありますか。 Rのような言語を学び、手動でデータを処理する方法を理解する必要があります。何をどのようにデータを分析するかを手動で指定する必要があるので、この関係を見つけるのは簡単ではありませんか？プロのデータマイナーはこの問題にどのように取り組み、どのような手順を実行しますか？

10 machine-learning data-mining tools beginner

3

統計+コンピュータサイエンス=データサイエンス？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 5年前休業。私はデータサイエンティストになりたいです。私は応用統計学（アクチュアリーサイエンス）を研究していたので、素晴らしい統計的背景（回帰、確率過程、時系列、ほんの数例を挙げます）を持っています。しかし、今、私はインテリジェントシステムのコンピューターサイエンスに重点を置いて修士号を取得します。これが私の研究計画です：機械学習高度な機械学習データマイニングファジーロジック推奨システム分散データシステムクラウドコンピューティング知識発見ビジネス・インテリジェンス情報検索テキストマイニング最後に、すべての統計およびコンピュータサイエンスの知識があれば、自分をデータサイエンティストと呼ぶことができますか？、または私は間違っていますか？答えてくれてありがとう。

10 machine-learning statistics career

1

非アトミック機能を使用した予測

予測機能として、非原子データを利用したい。これらの機能を備えたテーブルがあるとします。 - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ] - Column 5: A List [ 122, Boolean …

10 machine-learning

3

定期的に増加する機能セットの処理

私は詐欺検出システムに取り組んでいます。この分野では、新しい詐欺が定期的に発生するため、新しい機能をモデルに継続的に追加する必要があります。（開発プロセスの観点から）それを処理する最良の方法は何ですか？新しい特徴を特徴ベクトルに追加して分類器を再トレーニングするだけでは、古い特徴の再学習に時間がかかりすぎるため、単純なアプローチのように見えます。私は、各機能（またはいくつかの関連機能）の分類子をトレーニングし、それらの分類子の結果を全体的な分類子と組み合わせる方法について考えています。このアプローチの欠点はありますか？分類子全体のアルゴリズムを選択するにはどうすればよいですか？

10 machine-learning bigdata

3

検証の損失または精度の早期停止？

私は現在ニューラルネットワークをトレーニングしていますが、早期停止基準を実装するためにどちらを使用するかを決定できません：検証の損失、または精度/ f1score / auc /検証セットで計算されたものなどのメトリック。私の研究では、両方の立場を擁護する記事に出くわしました。Kerasはデフォルトで検証の損失に思われますが、私は反対のアプローチ（例：ここ）についても説得力のある答えに出くわしました。誰でも、検証ロスを使用するタイミングと特定のメトリックを使用するタイミングについて指示がありますか？

10 machine-learning neural-network deep-learning classification

5

機械学習における次元ホッピング

機械学習（畳み込みニューラルネットワークと画像認識で発生）の次元ホッピング問題とは何ですか？私はそれについてグーグルで調べましたが、私が得るすべては、物質形状変形の物理学に関する情報です。誰かが機械学習に関連する例を使ってそれを説明すれば、私にとってより役立つでしょう。誰かがこれで私を助けたり、できるリソースに私を向けることができますか？

10 machine-learning image-recognition

3

24,000カテゴリのクラスをエンコードする方法は？

私は現在、ゲノミクスのロジスティック回帰モデルに取り組んでいます。共変量として含めたい入力フィールドの1つはgenesです。既知の遺伝子は約24,000あります。計算生物学にはこのレベルの変動性を持つ多くの機能があり、数十万のサンプルが必要です。もしLabelEncoder()24K遺伝子ならそしてOneHotEncoder()それら... 24,000列は、2.2 GHzクアッドコアi7 CPUに対してケラスのトレーニング時間を無理にするのでしょうか？もしそうなら、私がこれで取ることができるエンコーディングへの異なるアプローチはありますか？どういうわけか、モデルのレイヤーをこの機能専用にする必要がありますか？これは、24Kの入力ノードが必要であることを意味しますか？

10 machine-learning keras scikit-learn

2

Convolutional1D、Convolutional2D、およびConvolutional3Dの違いは何ですか？

私はたたみ込みニューラルネットワークについて学んでいます。Keras例を見ると、3つの異なる畳み込み方法に出くわしました。つまり、1D、2D、3Dです。これらの3つのレイヤーの違いは何ですか？それらのユースケースは何ですか？使用例を示すリンクまたは参照はありますか？

10 machine-learning neural-network deep-learning keras cnn

3

ゼロ平均と単位分散

私はデータスケーリング、特に標準化手法を研究しています。私はその背後にある数学を理解しましたが、特徴にゼロ平均と単位分散を与えることが重要である理由がはっきりしません。説明して頂けますか？

10 machine-learning feature-scaling normalization

4

PCAは機械学習アルゴリズムと見なされますか

主成分分析は次元削減手法であること、つまり10個の入力特徴が与えられると、元の特徴の直交および線形変換である少数の独立した特徴が生成されることを理解しました。されPCA、それ自体で学習アルゴリズムとして考えるか、データ前処理ステップです。

10 machine-learning pca

3

GPS座標（緯度と経度）を線形モデルのフィーチャとして使用できますか？

多くの機能の中で、GPS座標（緯度と経度）を含むデータセットがあります。これらのデータセットを使用して、次のような問題を調査したいと思います。（2）特定のポイントの犯罪の量を推定する。線形回帰モデルを使用したいのですが。ただし、これらのGPS座標を線形モデルで直接使用できますか？緯度と経度には、人の年齢などの序数プロパティはありません。たとえば、2つのポイント（40.805996、-96.681473）と（41.226682、-95.986587）には意味のある順序がないようです。それらは空間の単なるポイントです。それらを明確な米国の郵便番号に置き換えてから、ワンホットエンコーディングを行うことを考えていましたが、その結果、多くの変数が発生します。

10 machine-learning feature-selection linear-regression feature-extraction geospatial

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」