データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

4
ライブラリの使用中に効率を上げることが難しいのはなぜですか?
小さなデータベース処理は、Python / Perl / ...スクリプトで簡単に取り組むことができます。このスクリプトは、言語自体のライブラリやユーティリティを使用します。ただし、パフォーマンスに関しては、C / C ++ /低水準言語に手を伸ばす傾向があります。コードをニーズに合わせて調整できる可能性が、これらの言語をBigDataにとって非常に魅力的なものにしているようです-メモリ管理、並列処理、ディスクアクセス、さらには低レベルの最適化(C / C ++レベルのアセンブリ構造による)までも。 もちろん、そのような一連の利点はコストなしでは得られません。コードを書くこと、そして時にはホイールを再発明することさえも、非常に高価で面倒なことです。利用できるライブラリはたくさんありますが、パフォーマンスを付与する必要があるときはいつでも、自分でコードを書く傾向があります。大規模なデータベースの処理中にライブラリを使用してパフォーマンスアサーションを無効にするものは何ですか? たとえば、Webページを継続的にクロールし、収集されたデータを解析する起業家について考えてみましょう。スライディングウィンドウごとに、抽出されたデータに対して異なるデータマイニングアルゴリズムが実行されます。開発者は、利用可能なライブラリ/フレームワーク(クロール、テキスト処理、データマイニングなど)を使用しないのはなぜですか?すでに実装されているものを使用すると、プロセス全体のコーディングの負担が軽減されるだけでなく、時間を大幅に節約できます。 シングルショットで: 自分でコードを書くことがパフォーマンスの保証になるのは何ですか? 高いパフォーマンスを保証する必要があるときに、フレームワーク/ライブラリに依存することが危険なのはなぜですか?

3
検証の損失または精度の早期停止?
私は現在ニューラルネットワークをトレーニングしていますが、早期停止基準を実装するためにどちらを使用するかを決定できません:検証の損失、または精度/ f1score / auc /検証セットで計算されたものなどのメトリック。 私の研究では、両方の立場を擁護する記事に出くわしました。Kerasはデフォルトで検証の損失に思われますが、私は反対のアプローチ(例:ここ)についても説得力のある答えに出くわしました。 誰でも、検証ロスを使用するタイミングと特定のメトリックを使用するタイミングについて指示がありますか?

1
Kerasでモデルをマージすることの意味は何ですか?
Kerasには次のように2つのモデルを「マージ」する機能があることを知りました。 from keras.layers import Merge left_branch = Sequential() left_branch.add(Dense(32, input_dim=784)) right_branch = Sequential() right_branch.add(Dense(32, input_dim=784)) merged = Merge([left_branch, right_branch], mode='concat') mergint NNのポイントは何ですか?どのような状況で役立ちますか?一種のアンサンブルモデリングですか?パフォーマンスの意味でのいくつかの「モード」(連結、平均、ドットなど...)の違いは何ですか?
10 keras 

5
機械学習における次元ホッピング
機械学習(畳み込みニューラルネットワークと画像認識で発生)の次元ホッピング問題とは何ですか?私はそれについてグーグルで調べましたが、私が得るすべては、物質形状変形の物理学に関する情報です。誰かが機械学習に関連する例を使ってそれを説明すれば、私にとってより役立つでしょう。誰かがこれで私を助けたり、できるリソースに私を向けることができますか?

3
24,000カテゴリのクラスをエンコードする方法は?
私は現在、ゲノミクスのロジスティック回帰モデルに取り組んでいます。共変量として含めたい入力フィールドの1つはgenesです。既知の遺伝子は約24,000あります。計算生物学にはこのレベルの変動性を持つ多くの機能があり、数十万のサンプルが必要です。 もしLabelEncoder()24K遺伝子なら そしてOneHotEncoder()それら... 24,000列は、2.2 GHzクアッドコアi7 CPUに対してケラスのトレーニング時間を無理にするのでしょうか? もしそうなら、私がこれで取ることができるエンコーディングへの異なるアプローチはありますか? どういうわけか、モデルのレイヤーをこの機能専用にする必要がありますか? これは、24Kの入力ノードが必要であることを意味しますか?

2
Convolutional1D、Convolutional2D、およびConvolutional3Dの違いは何ですか?
私はたたみ込みニューラルネットワークについて学んでいます。Keras例を見ると、3つの異なる畳み込み方法に出くわしました。つまり、1D、2D、3Dです。これらの3つのレイヤーの違いは何ですか?それらのユースケースは何ですか?使用例を示すリンクまたは参照はありますか?

3
ゼロ平均と単位分散
私はデータスケーリング、特に標準化手法を研究しています。私はその背後にある数学を理解しましたが、特徴にゼロ平均と単位分散を与えることが重要である理由がはっきりしません。 説明して頂けますか ?

2
画像がフォトショップされたかどうかをどのように検出できますか?
JPGファイルを操作してコンテンツを変更したかどうかを確認したい。 私がフォトショップではないと考えていること: トリミング 回転 (スケーリング) 画像解像度 スマートフォンによる自動変更 私がフォトショッピングと考えるもの: 古い画像の一部の上に新しい画像を追加する 画像の一部のテキストを変更する これを自動的に確認するにはどうすればよいですか? (そして、すぐに使えるライブラリはありますか?)

4
PCAは機械学習アルゴリズムと見なされますか
主成分分析は次元削減手法であること、つまり10個の入力特徴が与えられると、元の特徴の直交および線形変換である少数の独立した特徴が生成されることを理解しました。 されPCA、それ自体で学習アルゴリズムとして考えるか、データ前処理ステップです。

2
L2よりもL1正則化を使用する理由
損失関数を使用して線形回帰モデルを実行するのに、なぜL 2ではなくを使用する必要があるのかL1L1L_1L2L2L_2正則? 過剰適合を防ぐ方が良いですか?それは確定的ですか?(常にユニークなソリューションです)?(スパースモデルを生成するため)特徴選択の方が優れていますか?機能間で重みを分散しますか?

1
CNNの密な層の数とサイズ
私が見たほとんどのネットワークには、最後のsoftmaxレイヤーの前に1つまたは2つの密なレイヤーがあります。 密な層の数とサイズを選択する原則的な方法はありますか? 同じ数のパラメーターについて、2つの高密度層は1つよりも代表的ですか? ドロップアウトは、各密なレイヤーの前に適用する必要がありますか、それとも一度だけ適用しますか?
10 convnet 

3
GPS座標(緯度と経度)を線形モデルのフィーチャとして使用できますか?
多くの機能の中で、GPS座標(緯度と経度)を含むデータセットがあります。これらのデータセットを使用して、次のような問題を調査したいと思います。(2)特定のポイントの犯罪の量を推定する。 線形回帰モデルを使用したいのですが。ただし、これらのGPS座標を線形モデルで直接使用できますか? 緯度と経度には、人の年齢などの序数プロパティはありません。たとえば、2つのポイント(40.805996、-96.681473)と(41.226682、-95.986587)には意味のある順序がないようです。それらは空間の単なるポイントです。それらを明確な米国の郵便番号に置き換えてから、ワンホットエンコーディングを行うことを考えていましたが、その結果、多くの変数が発生します。


2
2つの非表示レイヤーのみを使用して数値を並べ替える
私は、Ilya SutskeverとQuoc Leによる基幹論文Sequence to Sequence Learning with Neural Networksを読んでいます。最初のページで、それは簡単に述べています: A surprising example of the power of DNNs is their ability to sort N N-bit numbers using only 2 hidden layers of quadratic size 2つの非表示レイヤーのみを使用して数値を並べ替える方法を簡単に説明できますか?

1
最近傍はt-SNEで意味がありますか?
ここでの回答は、t-SNEの次元は無意味であり、ポイント間の距離は類似性の尺度ではないと述べています。 しかし、t-SNE空間での最近傍に基づくポイントについて何か言えるでしょうか。まったく同じポイントがクラスター化されていない理由に対するこの回答は、ポイント間の距離の比率が低次元表現と高次元表現で類似していることを示唆しています。 たとえば、次の画像は、私のデータセットの1つ(15クラス)のt-SNEを示しています。 cro 479(右上)は異常値と言えるでしょうか?されるfra 1353(左下)に似ているcir 375では他の画像よりもfra、クラス、など?または、これらは単なるアーティファクトである可能性があります。たとえばfra 1353、いくつかのクラスターの反対側で立ち往生し、他のfraクラスに強制的に進むことができませんでしたか?
10 tsne 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.