タグ付けされた質問 「data-wrangling」

9
データサイエンティストの仕事はどの程度のデータの問題ですか?
現在、小売企業のデータサイエンティストとして働いています(DSとしての最初の仕事です。この質問は、私の経験不足の結果かもしれません)。それらには、実装された場合に大きなプラスの影響を与える本当に重要なデータサイエンスプロジェクトの膨大なバックログがあります。しかし。 データパイプラインは社内に存在しないため、標準的な手順では、何らかの情報が必要なときにいつでもギガバイトのTXTファイルを渡すことができます。これらのファイルは、不可解な表記法と構造で保存されたトランザクションの表形式のログと考えてください。1つのデータソースにすべての情報が含まれているわけではなく、「セキュリティ上の理由」でERPデータベースへのアクセスを許可することはできません。 最も単純なプロジェクトの初期データ分析には、残忍で耐え難いデータの論争が必要です。プロジェクトに費やした時間の80%以上は、実行可能なデータセットを構築するためにこれらのファイルを解析し、データソースをクロスしようとしていることです。これは単に欠落しているデータを処理したり、前処理したりする問題ではなく、最初に処理できるデータを構築するために必要な作業に関するものです(データサイエンスではなく、dbaまたはデータエンジニアリングで解決可能ですか?)。 1)ほとんどの作業がデータサイエンスにまったく関係していないように感じます。これは正確ですか? 2)これは高レベルのデータエンジニアリング部門を持つデータ駆動型企業ではないことを知っていますが、データサイエンスプロジェクトの持続可能な未来に向けて構築するためには、最低限のレベルのデータアクセシビリティが必要であると考えています。私が間違っている? 3)このタイプのセットアップは、深刻なデータサイエンスのニーズを持つ企業に共通ですか?

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.