データサイエンス data-wrangling

タグ付けされた質問「data-wrangling」

現在、小売企業のデータサイエンティストとして働いています（DSとしての最初の仕事です。この質問は、私の経験不足の結果かもしれません）。それらには、実装された場合に大きなプラスの影響を与える本当に重要なデータサイエンスプロジェクトの膨大なバックログがあります。しかし。データパイプラインは社内に存在しないため、標準的な手順では、何らかの情報が必要なときにいつでもギガバイトのTXTファイルを渡すことができます。これらのファイルは、不可解な表記法と構造で保存されたトランザクションの表形式のログと考えてください。1つのデータソースにすべての情報が含まれているわけではなく、「セキュリティ上の理由」でERPデータベースへのアクセスを許可することはできません。最も単純なプロジェクトの初期データ分析には、残忍で耐え難いデータの論争が必要です。プロジェクトに費やした時間の80％以上は、実行可能なデータセットを構築するためにこれらのファイルを解析し、データソースをクロスしようとしていることです。これは単に欠落しているデータを処理したり、前処理したりする問題ではなく、最初に処理できるデータを構築するために必要な作業に関するものです（データサイエンスではなく、dbaまたはデータエンジニアリングで解決可能ですか？）。 1）ほとんどの作業がデータサイエンスにまったく関係していないように感じます。これは正確ですか？ 2）これは高レベルのデータエンジニアリング部門を持つデータ駆動型企業ではないことを知っていますが、データサイエンスプロジェクトの持続可能な未来に向けて構築するためには、最低限のレベルのデータアクセシビリティが必要であると考えています。私が間違っている？ 3）このタイプのセットアップは、深刻なデータサイエンスのニーズを持つ企業に共通ですか？

44 data-wrangling

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

タグ付けされた質問 「data-wrangling」

タグ付けされた質問「data-wrangling」