タグ付けされた質問 「data-analysis」

4
数学博士(非線形プログラミング)からデータサイエンスへの切り替え?
私は数学の博士号を取得しています。卒業後、データサイエンティストとして業界に行きたい学生。質問をする前に、私の教育の背景を簡単に説明し、理解を深めます。 数学コースワーク: これは主に純粋な数学で行われました:トポロジー、機能分析などですが、より多くの応用されたもの(私が論文に特化したもの)も含まれます:凸最適化、非線形プログラミング、数値解析、線形プログラミング、多目的最適化。また、現時点では推論統計の知識はありませんが、確率論には自信があります。 プログラミング: 私は学士号で1年のコースを受講したばかりですが、それはほとんどMathematicaといくつかのJavaでしたが、正直なところ何も覚えていません。このコースの内容には、データ構造やアルゴリズムの設計と分析、データベース管理システムは含まれていません。また、学士論文でアルゴリズムを実装するために自分でMatlabを学びました。 上記の背景は、学士号と修士号のプログラム中のものです。今、博士号の間 プログラムでは、機械学習が非線形最適化、プログラミング、および現実世界のアプリケーションの間の(私にとって)完璧な組み合わせであることを発見しました。つまり、機械学習は理論的に興味深く、アプリケーション指向です。これが私が産業界に行くことにとても興奮した理由です。したがって、私は過去3年間で、自分のことを(少しの自由な時間に)自分で学び始めました。 学んだことの短い要約: Python:最適化アルゴリズムを実装し、jupyterノートブックとnumpyライブラリを操作し(実際、論文のためにこれを行わなければなりませんでした)、パンダで基本的なデータ操作とクリーニングタスクを行うことに慣れています。これは、dataquest(https://app.dataquest.io)というプラットフォームでオンラインで学びました。ただし、データ構造とアルゴリズムのインタビューに合格するための十分な知識がないと思います(上記を参照)。 機械学習:私は大学のトピックのマスターレベルのコースを受講しました(私はドイツにいるため、博士課程にはコースがないので、これはすべて私の個人的な時間でした)、それは本当に楽しかったです。含まれるトピック:k-NN、PCA、SVM、NNなど 今学期のデータベースのコースは、SQLに焦点を当てています。 今学期は、Courseraのディープラーニング専門分野を受講します。 最後に、私はトピックを完全に学ぶことができると感じていると言いたいです。実際、時間の経過とともに、オンラインで利用できる大学院レベルのコース(たとえば、スタンフォードCS231N、CS234など)を受講するつもりです。私の意見では、オンラインコースは十分に厳格ではない可能性があるためです。うまくいけば、防衛の後、私はこれにフルタイムで集中することができるでしょう。 したがって、質問: この時点でまだ雇用できますか(つまり、上記の知識でこの学期を終えた後)?正直、まだ準備は出来ていないと思いますが、1年で上手くいけると自信を持っています。 会社が私にチャンスを与えると考えるのがあまりにも単純すぎるのですか? どうしてもヒラブルになるにはどうすればいいですか?

1
Excelでどこまで行けるのですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。 私のビジネスでは、すべての分析をExcelで処理しています。これには、主にスケジューリング、生産計画、会計業務が含まれます。現在、予測モデルを少し追加することを検討しており、Excelで十分ですが、複雑なモデルはサポートされていません。 私が見ているように、Excelの主な利点は、Excelの使いやすさと、使い慣れるようにユーザーを見つけてトレーニングできることです。一方、より洗練された環境(R、pythonなど)では、さまざまな分析タスクを処理できますが、より高度なトレーニングを受けた個人が必要です。 Excelがデータサイエンスに十分であるかどうかについてもこの質問を読みました。それは私の目的には少し範囲外ですが、RやPythonなどのツールはExcelよりもはるかに優れているという結論に達しました。 私の質問は(データ分析の文脈で):「より高度なツールに変更する必要なしに、Excelでどれだけの距離をとることができるか」です。または「Excelから-Rにしましょう-どの時点で移行する必要がありますか?」 どうもありがとうございました!

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.