タグ付けされた質問 「algorithms」

アルゴリズムは、計算結果を生成する1つ以上の計算のセットです。すべての統計手法はアルゴリズムです。アルゴリズムは、パーセンテージの計算など、単純な場合もあれば、非常に複雑な場合があり、高速かつ正確な結果を得るためにコンピューターが必要になる場合もあります。

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
スケーラブルな外れ値/異常検出
Hadoop、Hive、Elastic Search(その他)を使用してビッグデータインフラストラクチャをセットアップしようとしています。特定のデータセットに対していくつかのアルゴリズムを実行したいと思います。アルゴリズム自体をスケーラブルにしたいので、Weka、R、RHadoopなどのツールの使用は除外されます。ApacheのMahoutの図書館は良い選択肢であるように思われ、それが特徴回帰およびクラスタリングのタスクのためのアルゴリズムを。 私が見つけるのに苦労しているのは、異常または異常値の検出のためのソリューションです。 Mahoutには隠しマルコフモデルとさまざまなクラスタリング手法(K-Meansを含む)が備わっているため、これを使用して時系列で外れ値を検出するモデルを構築できるかどうか疑問に思っていました。これを経験した誰かが私に助言してくれるなら私は感謝しています 可能であれば、可能であれば それを行う方法に加えて 関与する努力の推定と このアプローチの精度/問題。

2
チェスの時間差を実装する
私は、アルファベータ剪定アルゴリズムと、次の機能を使用して位置を評価する評価関数を使用するチェスプログラムを開発しています。つまり、材料、王の安全、移動性、ポーン構造、トラップされた駒などです。私の評価関数はから派生 f(p )= w1⋅ 素材+ w2⋅ 王の安全+ w3⋅ 移動度+ w4⋅ ポーン構造+ w5⋅ 閉じ込められた破片f(p)=w1⋅素材+w2⋅王の安全+w3⋅可動性+w4⋅ポーン構造+w5⋅閉じ込められた部分f(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot \text{mobility} + w_4 \cdot \text{pawn-structure} + w_5 \cdot \text{trapped pieces} ここで、は各フィーチャに割り当てられた重みです。この時点で、時間差を使用して評価関数の重みを調整します。エージェントはそれ自体に対してプレーし、その過程でその環境からトレーニングデータを収集します(強化学習の形式です)。これをJavaで実装する方法についての洞察を得るために、いくつかの本や記事を読みましたが、それらは実用的ではなく理論的なようです。以前のゲームに基づいて評価関数の重みを自動的に調整する方法の詳細な説明と疑似コードが必要です。www


3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

1
時系列データの教師なし学習アルゴリズムはありますか?
私のデータの各観測は、0.1秒の差で収集されました。日付とタイムスタンプがないため、時系列とは呼びません。クラスタリングアルゴリズム(オンラインで見つけた)とPCAの例では、サンプルデータにはケースごとに1つの観測値があり、時間は計測されていません。しかし、私のデータには、車両ごとに0.1秒ごとに収集された何百もの観測があり、多くの車両があります。 注:私は定足数についてもこの質問をしました。

1
信号エンコーディングの学習
マンチェスターでエンコードされたビットストリームをオーディオ信号として表す多数のサンプルがあります。それらがエンコードされる周波数は、それが高い場合の主要な周波数成分であり、バックグラウンドに一定量のホワイトノイズがあります。 これらのストリームを手動でデコードしましたが、なんらかの機械学習手法を使用してエンコードスキームを学習できるかどうか疑問に思っていました。これにより、これらのスキームを手動で認識する時間を大幅に節約できます。難点は、異なる信号は異なる方法でエンコードされることです。 複数のエンコード方式のデコードを学習できるモデルを構築することは可能ですか?そのようなモデルはどの程度堅牢であり、どのような手法を採用したいですか?独立成分分析(ICA)は、気になる周波数を分離するのに役立つようですが、エンコードスキームをどのように学習しますか?

2
トレーニングセットに負のy値がない場合、勾配ブースティング回帰は負の値を予測するのはなぜですか?
私は木の数を増やすと学ぶscikitさんGradientBoostingRegressor、私は私のトレーニングやテストセットには負の値が存在しないにもかかわらず、多くの負の予測を取得します。私は約10の機能を持っていますが、そのほとんどはバイナリです。 私が調整していたパラメーターのいくつかは次のとおりです。 木/反復の数; 深さを学ぶ; そして学習率。 負の値のパーセンテージは、最大で2%のようです。学習深度1(切り株)は、負の値の最大の%を持っているように見えました。このパーセンテージは、ツリーが多く、学習率が小さいほど増加するように見えました。データセットは、kaggle遊び場コンテストの1つからのものです。 私のコードは次のようなものです: from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)


3
ゲームをプレイする簡単なAIプログラムを作成するには、どのような知識が必要ですか?
私は学士号を取得しています。私のコースの1つは「機械学習入門」でしたが、私は常にこのテーマで個人的なプロジェクトをやりたかったのです。 最近、マリオ、ゴーなどのゲームをプレイするためのさまざまなAIトレーニングについて聞いたことがあります。 ゲームをプレイする簡単なAIプログラムをトレーニングするには、どのような知識が必要ですか?そして、初心者にはどのゲームをお勧めしますか? これは私がこれまでに機械学習で知っていることです- コースと機械学習の概要。K最近傍アルゴリズム、およびK平均アルゴリズム 統計的推論 混合ガウスモデル(GMM)および期待値最大化(EM) 汎化境界とモデル選択を含む、おそらくおおよその(PAC)モデル 基本的な超平面アルゴリズム:PerceptronとWinnow。 サポートベクターマシン(SVM) カーネル 弱い学習者から強い学習者へのブースト:AdaBoost マージンパーセプトロン 回帰 PCA 決定木 決定木剪定とランダムフォレスト

3
このデータセットから外れ値を検出するために使用できるアルゴリズムまたは方法はどれですか?
データセットがあるとしましょう:Amount of money (100, 50, 150, 200, 35, 60 ,50, 20, 500)。私がしているGoogleでこのデータセット内の可能な外れ値を見つけるために使用することができる技術を探してウェブを、私は混乱してしまいました。 私の質問は次のとおりです。このデータセットで起こり得る異常値を検出するために使用できるアルゴリズム、手法、または方法はどれですか。 PS:データが正規分布に従っていないことを考慮してください。ありがとう。

3
スコア文字列の類似性
大量のドキュメントがあり、大量のキーと値のペアが含まれています。キーは一意ではない可能性があるため、値が異なる同じタイプのキーが複数存在する可能性があります。 2つのドキュメント間のキーの類似性を比較したい。より具体的には、これらの値の文字列の類似性。類似性を比較するために、スミス-ウォーターマンアルゴリズムのようなものを使用することを考えています。 それで、データを表現することについて私がどのように考えているかを描いた- セルの値は、smith-watermanアルゴリズム(またはその他の文字列類似性メトリック)の結果です。 このマトリックスが「もの」の主要なタイプを表しているというイメージ次に、「もの」の類似度スコアを0または1のベクトルに追加する必要があります。 私が理解できないのは、マトリックスが似ているか似ていないかを判断する方法です-理想的には、マトリックスを0と1の間の数値に変換し、しきい値を設定して0または1。 マトリックスのスコアを作成する方法はありますか?この種のことを行うアルゴリズムを知っている人はいますか?

1
非数値データに基づいて重複IDを集約するためのアルゴリズム?
私は人の大規模なデータセット(2Mエントリ)を持っていますが、多くの人がわずかに(または大幅に)異なる識別情報を持つデータベースに複数のエントリを持っています。たとえば、J。DoeとJohn Doeがいる場合や、電子メールアドレスが付随するJohn Doeと電子メールアドレスが付随しないJohn Doeがある場合があります。 私はさまざまなクラスタリングアルゴリズムを調べてきましたが、次のようなルールに基づいてエントリを集約するということは、私がやっていることに適していないようです。 名前の1つがすべて大文字で書かれているかどうかに基づいて、姓名を推測します メールアドレスが一致する場合は「J. Doe」と「J. Doe」を集計する 「J.」で始まる姓と名「Doe」が他にない場合は、「J。Doe」を「John Doe」に集約します。 データセットが小さい場合、これはいくつかの単純なルールだけで比較的簡単なタスクになりますが、エントリの数が多いと、集約タスクが非常に遅くなり、ロジックがかなり複雑になります。私の現在の解決策(データベース内の全文検索機能を使用して類似のエントリを検索し、それらの結果に基づいてハッシュを追加し、次にハッシュとあいまいさの種類の組み合わせに基づいて集計する)は機能しますが、実行しようとするたびにそれを更新するだけで、誰かがすでに解決したような問題だと叫ぶだけです。しかし、私は解決策を見つけることができませんでした。 このようなルールに基づいて、私がやりたいことを行うアルゴリズムはありますか?または役立つかもしれない特定のパッケージまたはソフトウェア?それとも私はこの問題に完全に間違っているのですか? ありがとう! (ただし、IDを誤って集計する方法はさまざまにあることを承知している(たとえば、J。DoeはJohn DoeまたはJames Doeを意味する可能性がある)ので、物事を集計しようとすることに対する警告は必要ありません。)

3
ログブック:機械学習のアプローチ
以前は、問題を解決するためにさまざまな機械学習アルゴリズムを試すときに、機能、機能の前処理、正規化、アルゴリズム、アルゴリズムパラメーターなどの詳細を保持しながら、ノートブックに一連のアプローチを溺れさせていました...したがって、手書きのログブックを作成する。 しかし、私は現在、「より専門的な」ツールを使用することを懸念しています。そのため、詳細を保持し、他のチームメンバーと共有することもできます。 これは、機能、アルゴリズム、アルゴリズムパラメータ、データの前処理、データ、メトリックなど、Googleの共同ドライブスプレッドシートを超えた詳細を考慮して、完了した作業を追跡する自動化された協調的なツールです。 これをどのように解決していますか?作業の進捗状況をどのように管理していますか?あなたの何日誌ツールは? 事前にどうもありがとうございました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.