データサイエンスの背後にある科学と数学に関する本は何ですか?非常に多くの「データサイエンス」の本がプログラミングチュートリアルであり、データ生成プロセスや統計的推論などには触れないように感じます。私はすでにコーディングできますが、私が苦手としているのは、私がやっていることの背後にある数学/統計/理論です。
本で$ 1000を燃やす準備ができたら(約10本...ため息)、何を買うことができますか?
例:Agrestiのカテゴリデータ分析、経度データの線形混合モデルなど...など
データサイエンスの背後にある科学と数学に関する本は何ですか?非常に多くの「データサイエンス」の本がプログラミングチュートリアルであり、データ生成プロセスや統計的推論などには触れないように感じます。私はすでにコーディングできますが、私が苦手としているのは、私がやっていることの背後にある数学/統計/理論です。
本で$ 1000を燃やす準備ができたら(約10本...ため息)、何を買うことができますか?
例:Agrestiのカテゴリデータ分析、経度データの線形混合モデルなど...など
回答:
入門:
より深く掘り下げる:
特別な関心の例:
より広範なリファレンスは機械学習で機能します(実際にあなたが求めたものではなく、完全性のために)
ボーナスペーパー:
推奨できるのは、Hastie、Tibshirani、Friedmanによる統計的学習と予測の要素です。データサイエンスで一般的に使用される多くの手法の背後にある数学/統計を提供します。
Bayesian Techniquesの場合、Gelman、Carlin、Stern、Dunson、Vehtari、RubinによるBayesian Data Analysisが優れています。
統計的推論Casella and Bergerには、統計学の理論的基礎に関する優れた大学院レベルの教科書です。この本は、数学に関する非常に高いレベルの快適さを必要とします(確率論は測定理論に基づいていますが、理解するのは簡単ではありません)。
プロセスを生成するデータに関して、私は本のための推薦を持っていません。私が言えることは、使用された技術の仮定をよく理解し、それらの仮定に違反しない方法でデータが収集または生成されたことを確認することは、良い分析に大いに役立つということです。
他の回答では、データサイエンスの背後にある数学に関する一連の優れた書籍を推奨しています。しかし、あなたが述べたように、データ収集やデータからの推論のような数学や活動だけでなく、数学的な背景ほど厳密ではない場合でも、独自のルールと理論があります。
これらの部分については、実世界のデータ分析の問題に本当に携わる人々によって書かれた20の事例研究のような章を含むBeautiful Data:The Stories Behind Elegant Data Solutionsの本をお勧めします。数学は含まれていませんが、データの収集、分析でのデータの実用的な使用方法の発見、スケーリング、最適なソリューションの選択などの分野を詳しく調査しています。
別の非常に興味深い本は、Thinking with Data:How to Turn Information into Insightsであり、技術的(=プログラミングチュートリアル)でもありませんが、意思決定や現実世界の問題でデータサイエンスの力を実際に使用する方法に関する重要なトピックをカバーしています。
Amir Ali Akbariの提案が好きです。数学やプログラミングに焦点を当てたほとんどの機械学習やデータ分析の本で十分にカバーされていないトピックやスキルに焦点を当てて、私自身のいくつかを追加します。
データのクリーニング:
ベイジアンデータ分析(フィッシャースタイルの帰無仮説有意性検定の代替):
不確実性、不完全性、矛盾、曖昧さ、不正確さ、無知などに直面した推論:
実験:
シミュレーション:
専門家の引き出し、確率的推定: