現在、小売企業のデータサイエンティストとして働いています(DSとしての最初の仕事です。この質問は、私の経験不足の結果かもしれません)。それらには、実装された場合に大きなプラスの影響を与える本当に重要なデータサイエンスプロジェクトの膨大なバックログがあります。しかし。
データパイプラインは社内に存在しないため、標準的な手順では、何らかの情報が必要なときにいつでもギガバイトのTXTファイルを渡すことができます。これらのファイルは、不可解な表記法と構造で保存されたトランザクションの表形式のログと考えてください。1つのデータソースにすべての情報が含まれているわけではなく、「セキュリティ上の理由」でERPデータベースへのアクセスを許可することはできません。
最も単純なプロジェクトの初期データ分析には、残忍で耐え難いデータの論争が必要です。プロジェクトに費やした時間の80%以上は、実行可能なデータセットを構築するためにこれらのファイルを解析し、データソースをクロスしようとしていることです。これは単に欠落しているデータを処理したり、前処理したりする問題ではなく、最初に処理できるデータを構築するために必要な作業に関するものです(データサイエンスではなく、dbaまたはデータエンジニアリングで解決可能ですか?)。
1)ほとんどの作業がデータサイエンスにまったく関係していないように感じます。これは正確ですか?
2)これは高レベルのデータエンジニアリング部門を持つデータ駆動型企業ではないことを知っていますが、データサイエンスプロジェクトの持続可能な未来に向けて構築するためには、最低限のレベルのデータアクセシビリティが必要であると考えています。私が間違っている?
3)このタイプのセットアップは、深刻なデータサイエンスのニーズを持つ企業に共通ですか?