データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

11
C(またはC ++)のデータサイエンス
私はR言語プログラマーです。私は、データサイエンティストと見なされているが、CS以外の学問分野から来た人々のグループにも所属しています。 これは、データサイエンティストとしての私の役割ではうまく機能しますが、R他のスクリプト/ Web言語の基本的な知識しか持たずにキャリアを開始することにより、2つの重要な分野でやや不十分だと感じました。 プログラミング理論の確かな知識の欠如。 競争力のあるような、より速く、より広く使われている言語のスキルのレベルの欠如C、C++およびJavaパイプラインとビッグデータの計算を高速化するだけでなく、より容易に高速に開発することができDS /データ製品を作成するために利用することができ、バックエンドスクリプトまたはスタンドアロンアプリケーション。 解決策はもちろん簡単です。プログラミングについて学びましょう。これは、いくつかのクラス(現在はCプログラミング)に登録することで行っていることです。 しかし、今私はアドレスの問題#1、#2上記に始めていることを、私は「自分自身を求めて左てるだけのような言語どのように生きているCとC++、データ・サイエンスのため?」。 たとえば、データを非常にすばやく移動し、ユーザーとうまくやり取りできますが、高度な回帰、機械学習、テキストマイニング、その他の高度な統計操作についてはどうでしょうか。 そう。C仕事をすることができます-高度な統計、ML、AI、およびデータサイエンスの他の分野で利用できるツールは何ですか?またはC、Rスクリプトや他の言語を呼び出すことでプログラミングすることで得られる効率のほとんどを失う必要がありますか? 私はこれまでCで見つけた最高のリソースが呼び出されるライブラリであるシャーク与え、C/ C++サポートベクターマシン、線形回帰(ない非線形および多項プロビットのような他の先進回帰、など)、およびその他の最終候補リストを使用する能力を(素晴らしいが)統計関数。

5
GBM対XGBOOST?主な違いは?
GBMとXGBOOSTの主な違いを理解しようとしています。私はそれをグーグルで検索しようとしましたが、2つのアルゴリズムの違いとxgboostがGBMよりもほとんど常に優れている理由を説明する良い答えを見つけることができませんでした。XGBOOSTの高速化の理由は何ですか?

3
何を使用するか-機械学習[終了]
最近、UPC / BarcelonaのOriol Pujol教授の機械学習クラスで、広範な機械学習関連タスクに使用する最も一般的なアルゴリズム、原理、および概念について説明しました。ここでそれらをあなたと共有し、あなたに尋ねます: タスクをさまざまなタイプの機械学習関連の問題に関連するアプローチまたは方法と一致させる包括的なフレームワークはありますか? 単純なガウスをどのように学習しますか? 確率、確率変数、分布; 推定、収束および漸近、信頼区間。 混合ガウス分布(MoG)を学習するにはどうすればよいですか?尤度、期待値最大化(EM); 汎化、モデル選択、相互検証。k平均、隠れマルコフモデル(HMM) 密度を知るにはどうすればよいですか?パラメトリック対非パラメトリック推定、ソボレフおよびその他の機能空間。ĺ2エラー; カーネル密度推定(KDE)、最適カーネル、KDE理論 連続変数(回帰)を予測するにはどうすればよいですか?線形回帰、正則化、リッジ回帰、およびLASSO。局所線形回帰; 条件付き密度推定。 離散変数(分類)を予測するにはどうすればよいですか?ベイズ分類器、単純ベイズ、生成的vs識別的; パーセプトロン、重量減衰、線形サポートベクターマシン。最近傍分類器と理論 どの損失関数を使用する必要がありますか?最尤推定理論; l -2推定; ベイジアン推定; ミニマックスと決定理論、ベイジアン主義対頻度主義 どのモデルを使用する必要がありますか?AICおよびBIC; Vapnik-Chervonenskis理論; 交差検証理論; ブートストラップ; おそらく近似修正(PAC)理論。Hoeffdingから派生した境界 より複雑な(組み合わせた)モデルを学習するにはどうすればよいですか?アンサンブル学習理論; ブースティング; バギング; スタッキング 奇抜な(非線形)モデルを学習するにはどうすればよいですか?一般化線形モデル、ロジスティック回帰。コルモゴロフの定理、一般化された加法モデル。カーネル化、カーネルヒルベルト空間の再現、非線形SVM、ガウス過程回帰 より複雑な(構成的)モデルを学習するにはどうすればよいですか?再帰モデル、決定木、階層的クラスタリング; ニューラルネットワーク、逆伝播、深い信念ネットワーク。グラフィカルモデル、HMMの混合、条件付きランダムフィールド、最大マージンマルコフネットワーク。対数線形モデル; 文法 機能を削減または関連付けるにはどうすればよいですか?特徴選択対次元削減、特徴選択のためのラッパーメソッド; 因果性対相関、偏相関、ベイズネット構造学習 新しい機能を作成するにはどうすればよいですか?主成分分析(PCA)、独立成分分析(ICA)、多次元スケーリング、多様体学習、教師あり次元削減、計量学習 データを削減または関連付けるにはどうすればよいですか?クラスタリング、バイクラスタリング、制約付きクラスタリング。アソシエーションルールとマーケットバスケット分析; ランキング/序数回帰; リンク分析; リレーショナルデータ 時系列をどのように扱うのですか?ARMA; カルマンフィルターと統計空間モデル、粒子フィルター。機能データ分析; 変化点検出; 時系列の相互検証 理想的でないデータをどのように扱うのですか?共変量シフト; クラスの不均衡。欠損データ、不規則にサンプリングされたデータ、測定エラー。異常検出、堅牢性 パラメータを最適化するにはどうすればよいですか?制約なし対制約付き/凸最適化、導関数のない方法、1次および2次の方法、バックフィット; 自然な勾配; バウンド最適化とEM …

3
Kerasのbatch_sizeは結果の品質に影響を与えますか?
2-3百万の記事で大きなLSTMネットワークをトレーニングしようとしていますが、メモリエラーに苦労しています(AWS EC2 g2x2largeを使用しています)。 解決策の1つはを減らすことであることがわかりましたbatch_size。ただし、このパラメーターがメモリ効率の問題にのみ関連するのか、それが結果に影響するのかはわかりません。実際のところ、batch_size例で使用されているのは通常2のべき乗であることに気づきましたが、どちらもわかりません。 ネットワークのトレーニングに時間がかかるかどうかは気にしませんが、これを減らすbatch_sizeと予測の品質が低下するかどうかを知りたいです。 ありがとう。


3
「翻訳と等価」と「翻訳と不変」の違いは何ですか
翻訳と同変と翻訳と不変の違いを理解するのに苦労しています。 深層学習の本。MIT Press、2016(I. Goodfellow、A。Courville、およびY. Bengio)、畳み込みネットワークで見つけることができます: [...]パラメータ共有の特定の形態は、というプロパティ持っている層を引き起こしequivariance翻訳への [...]プーリングは、入力の小さな変換に対して表現をほぼ不変にするのに役立ちます それらの間に違いはありますか、または用語は互換的に使用されていますか?

11
データサイエンティストはExcelを使用していますか?
私は自分を旅人のデータサイエンティストと考えています。ほとんどのように(私は思う)、私は最初のチャートを作成し、Excelを使用して高校と大学で最初の集計を行いました。大学、大学院、および7年間の実務経験を経て、SQL、R、Python、Hadoop、LaTeXなど、より高度なツールと思われるものをすぐに見つけました。 データサイエンティストの立場についてインタビューを行っており、1人の候補者が15年以上の経験を持つ「シニアデータサイエンティスト」(最近は非常に曖昧な用語)として自分自身を宣伝しています。彼が好むツールセットは何かと尋ねられたとき、彼はそれがExcelだと答えた。 私は、彼が履歴書が主張するほど経験が豊富ではなかったという証拠としてこれを取り上げましたが、確信はありませんでした。結局のところ、それが私の好みのツールではないという理由だけで、他の人のものではないという意味ではありません。経験豊富なデータサイエンティストはExcelを使用していますか?主にExcelを使用している人の経験不足を想定できますか?
37 tools  career  excel 

2
XGBoostの重要性の出力を解釈する方法は?
xgboostモデルを実行しました。の出力を解釈する方法が正確にはわかりませんxgb.importance。 ゲイン、カバー、および周波数の意味は何ですか?それらをどのように解釈しますか? また、Split、RealCover、およびRealCover%はどういう意味ですか?ここにいくつかの追加パラメーターがあります 機能の重要性についてさらに詳しく説明できる他のパラメーターはありますか? Rのドキュメントから、GainはInformation gainに似ており、Frequencyはすべてのツリーで機能が使用される回数であることがある程度理解できます。Coverが何なのかわかりません。 リンクで指定されたサンプルコードを実行しました(そして、私が取り組んでいる問題でも同じことを試みました)が、そこに指定された分割定義は、計算した数値と一致しませんでした。 importance_matrix 出力: Feature Gain Cover Frequence 1: xxx 2.276101e-01 0.0618490331 1.913283e-02 2: xxxx 2.047495e-01 0.1337406946 1.373710e-01 3: xxxx 1.239551e-01 0.1032614896 1.319798e-01 4: xxxx 6.269780e-02 0.0431682707 1.098646e-01 5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02 214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05 215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05 216: xxxxxxxxxxxx …


3
パンダとの相関行列の計算と可視化
いくつかのエントリを持つパンダデータフレームがあり、あるタイプの店舗の収入間の相関関係を計算したいと思います。収入データ、活動エリアの分類(劇場、衣料品店、食品など)およびその他のデータを備えた店舗が多数あります。 新しいデータフレームを作成し、同じカテゴリに属する​​すべての種類の店舗の収入を含む列を挿入しようとしましたが、返されるデータフレームには最初の列のみが入力され、残りはNaNでいっぱいです。私が疲れたコード: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] そうしたいので、.corr()店舗のカテゴリ間の相関行列を与えるために使用できます。 その後、matplolibでマトリックス値(ピアソンの相関を使用するため、-1から1)をプロットする方法を知りたいと思います。

13
Data Science認定についてどう思いますか?
私は現在、2つのデータサイエンス認定プログラムを見てきました。ジョンホプキンスプログラムはCourseraで、Clouderaプログラムは1つです。 きっと他にもあるはずです。 ジョン・ホプキンスの一連のクラスは、ツールセットとしてRに焦点を当てていますが、さまざまなトピックをカバーしています。 Rプログラミング クリーニングとデータの取得 データ解析 再現可能な研究 統計的推論 回帰モデル 機械学習 データ製品の開発 Clouderaのデータサイエンスチャレンジに似たプロジェクトベースの完了タスクのように見えるもの Clouderaプログラムは表面上は薄く見えますが、「ツールを知っていますか」、「現実の世界でツールを適用できますか」という2つの重要な質問に答えようとしています。彼らのプログラムは以下で構成されています: データサイエンスの概要 データサイエンスエッセンシャル試験 データサイエンスチャレンジ(現実世界のデータサイエンスプロジェクトシナリオ) プログラムや品質の比較に関する推奨事項を探していません。 私は、他の認定資格、それらがカバーするトピック、およびDS認定がこの時点でコミュニティによってどの程度真剣に見られているかについて興味があります。 編集:これらはすべて素晴らしい答えです。投票で正解を選んでいます。
35 education 


6
教師あり学習では、相関する特徴があるのはなぜ悪いのですか?
相関が強すぎるフィーチャがある場合、モデルを悪化させる可能性があるため、削除する必要があることをどこかで読みました。相関する特徴は、それらが同じ情報をもたらすことを意味することは明らかなので、それらの1つを削除することは論理的です。しかし、なぜこれがモデルを悪化させるのか理解できません。

6
クロスエントロピー損失の説明
分類用のNNを作成するとします。最後のレイヤーは、ソフトマックスアクティベーションを使用した高密度レイヤーです。分類するクラスは5つあります。単一のトレーニングの例でtrue labelは[1 0 0 0 0]、予測はであると仮定します[0.1 0.5 0.1 0.1 0.2]。この例のクロスエントロピー損失はどのように計算しますか?

1
「Keras」の「Dense」と「TimeDistributedDense」の違い
私はまだの違いについて混乱していますDenseとTimeDistributedDenseのKeras、すでにいくつかの同様の質問が尋ねているにもかかわらず、こことここ。人々は多くのことを議論していますが、共通の結論はありません。 それでも、ここでは、@ fcholletは次のように述べています。 TimeDistributedDenseDense3Dテンソルのすべてのタイムステップに同じ(完全に接続された)操作を適用します。 それらの違いを正確に説明する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.