データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

4
HPCクラスターの操作
私の大学では、HPCコンピューティングクラスタを使用しています。クラスターを使用して分類子などをトレーニングします。そのため、通常、ジョブをクラスターに送信するには(たとえば、python scikit-learnスクリプト)、(他のものとともに)のようなコマンドを含むBashスクリプトを記述する必要がありqsub script.pyます。 ただし、このプロセスは非常にイライラします。通常、ラップトップでpythonスクリプトを作成し、サーバーにログインしてSVNリポジトリを更新するので、同じpythonスクリプトがそこにあります。次に、そのBashスクリプトを作成または編集して、bashスクリプトを実行できるようにします。 Pythonスクリプトの小さな更新ごとに、計算クラスターで実行するために多くの手順を実行する必要があるため、これは本当に苛立たしいことです。もちろん、サーバーにデータを配置してサーバー上のデータセットのパスを使用する必要がある場合、タスクはさらに複雑になります。 ここの多くの人がデータサイエンスタスクにコンピューティングクラスタを使用していると思います。クラスターへのジョブの送信を管理する方法を知りたいだけですか?

3
パターン分析のためのデータ可視化(言語非依存、ただしRを推奨)
それらのパターンを理解するために、ディスクイメージからバイトをプロットします。このパターンがディスクテストプログラムによって作成されたと確信しているため、これは主に学術的なタスクですが、とにかくリバースエンジニアリングを行いたいと思います。 私は、パターンが256文字の周期で整列していることをすでに知っています。 この情報を視覚化する2つの方法を想像できます。各ピクセルの色が文字のASCIIコードである時間(3次元)で表示される16x16プレーン、または各ピリオド(2次元)の256ピクセルラインです。 これは、xxd(32x16)を通して見たパターン(複数表示される場合があります)のスナップショットです。 いずれにせよ、私はこの情報を視覚化する方法を見つけようとしています。これはおそらく信号解析にとって難しいことではありませんが、オープンソースソフトウェアを使用する方法を見つけることができないようです。 私はMatlabやMathematicaを避けたいのですが、最近Rで学習しているので、Rでの回答を希望しますが、それでも、どのような言語でも大歓迎です。 更新、2014年7月25日:以下のEmreの回答が与えられた場合、これはパターンの最初の30MBが256ではなく512に配置された場合のパターンです(この配置はより良く見えます)。 これ以上のアイデアは大歓迎です!
11 r  visualization 

4
株式の時価総額および毎日の売上高データはどこでダウンロードできますか?
過去の株価データを提供するソースはたくさんありますが、OHLCフィールドとボリュームおよび調整済み終値のみを提供しています。また、私が見つけたいくつかの出典は時価総額データセットを提供していますが、それらは米国株に制限されています。Yahoo Financeはこのデータをオンラインで提供していますが、ダウンロードするオプションはありません(または私が知っているものはありません)。 ティッカー名を使用して国のさまざまなトップ証券取引所に属する株式のこのデータをどこでダウンロードできますか? Yahoo FinanceやGoogle Financeからダウンロードする方法はありますか? 過去10年間のデータが必要なので、これを行うスクリプトまたはAPIが必要です。
11 dataset 

3
統計学修士論文のためのデータサイエンス指向のデータセット/研究の質問
「データサイエンス」を探っていきたい。この用語は私には少しあいまいなようですが、私はそれが必要だと思います: (従来の統計ではなく)機械学習。 クラスターで分析を実行する必要がある十分に大きいデータセット。 データサイエンスの分野を探索するために使用できる、プログラミングの知識がある統計学者がアクセスできる、優れたデータセットと問題は何ですか? これを可能な限り狭く保つために、理想的には、リンクを開き、よく使用されるデータセットと問題の例を開きたいと思います。

3
自然言語クエリの処理方法は?
自然言語のクエリについて知りたいです。スタンフォードには、自然言語を処理するための強力なソフトウェアのセットがあるようです。また、Apache OpenNLPライブラリ、およびText EngineeringのGeneral Architectureも見ました。 自然言語処理には信じられないほど多くの用途があり、これらのプロジェクトのドキュメントをすばやく吸収することは困難です。 少し単純化して、簡単な質問のSQLへの基本的な変換を実行するために必要なタスクの概要を説明できますか? 私のフローチャートの最初の四角形は少し謎です。 たとえば、私は知りたいかもしれません: How many books were sold last month? そして、私はそれを Select count(*) from sales where item_type='book' and sales_date >= '5/1/2014' and sales_date <= '5/31/2014'
11 nlp 


2
LSTMのどの層にドロップアウトしますか?
LSTMドロップアウト付きのマルチレイヤーを使用して、すべての非表示レイヤーと出力の高密度レイヤーにドロップアウトを配置することをお勧めしますか?ヒントンの論文(Dropoutを提案)で彼はDropoutをDenseレイヤーにのみ配置しましたが、それは隠された内部レイヤーが畳み込みであったためです。 もちろん、特定のモデルをテストすることはできますが、これについてコンセンサスがあるのか​​どうか疑問に思いました。

3
TensorFlowは完全な機械学習ライブラリですか?
私はTensorFlowを初めて使用するので、使用する前にTensorFlowの機能と欠点を理解する必要があります。これはディープラーニングフレームワークであることは知っていますが、テンソルフローで使用できる他の機械学習アルゴリズムは別です。たとえば、TensorFlowを使用してSVMまたはランダムフォレストを使用できますか?(私はこれがクレイジーに聞こえることを知っています) つまり、TensorFlowでサポートされている機械学習アルゴリズムを知りたいのです。それは単なるディープラーニングか何かですか?

1
CPU使用率とメモリに関するscikit-learn n_jobsパラメータ
scikit-learnのほとんどの推定器には、/を使用して並列ジョブを作成するためのn_jobsパラメーターがあります。これを設定すると、Pythonプロセスが1つだけ作成され、コアが最大になるため、CPU使用率が2500%を上回っていることに気付きました。これは、正の整数> 1に設定するのとはかなり異なります。これにより、使用率が100%を超える複数のPythonプロセスが作成されます。fitpredictjoblib-1 これを設定すると、マルチCPU LinuxサーバーのCPUとコアの使用にどのように影響しますか?(たとえば、n_jobs=88つのCPUが完全にロックされている場合、またはCPUが他のタスク/プロセス用にいくつかのコアをまだ予約しているかどうか) さらに、大規模なデータセットをMemoryError設定n_jobs=-1するときに、たまに表示されます。ただし、メモリ使用量は通常、単一のPythonプロセスで約30〜40%です。の値に応じて、データとメモリはどのように管理/コピーされn_jobsますか?


2
ランダムフォレスト分類にカテゴリデータタイプを適合させるにはどうすればよいですか?
ランダムフォレストアルゴリズムを適用して、トレーニングデータセットの精度を見つける必要があります。しかし、私のデータセットのタイプは、カテゴリーと数値の両方です。これらのデータをフィッティングしようとすると、エラーが発生します。 '入力にNaN、無限大、またはdtype(' float32 ')には大きすぎる値が含まれています。 問題はオブジェクトのデータ型です。RFを適用するために変換せずにカテゴリデータを適合させるにはどうすればよいですか? これが私のコードです。

3
LSTM、BiLSTMとは何ですか?
私はディープラーニングに非常に慣れていないため、特にLSTMとBiLSTMとは何か、いつ使用するか(主なアプリケーション分野)を知りたいと思っています。LSTMとBILSTMがRNNよりも人気があるのはなぜですか? これらのディープラーニングアーキテクチャを教師なしの問題で使用できますか?

2
トレーニングが長すぎる場合のAdamオプティマイザーの奇妙な動作
私は64個のランダムに生成されたデータポイントで単一のパーセプトロン(1000入力ユニット、1出力、非表示レイヤーなし)をトレーニングしようとしています。私はAdamオプティマイザを使用してPytorchを使用しています: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = torch.nn.Linear(D_in, D_out) loss_fn = torch.nn.MSELoss(size_average=False) optimizer = torch.optim.Adam(model.parameters()) for t in xrange(5000): y_pred = model(x) loss = loss_fn(y_pred, y) print(t, loss.data[0]) optimizer.zero_grad() loss.backward() optimizer.step() 最初は、予想どおり損失が急速に減少します。 …

4
機械学習とディープラーニング
「機械学習」と「深層学習」という用語の違いに少し戸惑っています。私はそれをグーグル化し、多くの記事を読みましたが、それでも私にはあまり明確ではありません。 Tom Mitchellによる機械学習の既知の定義は次のとおりです。 コンピュータプログラムは、経験から学ぶと言われているEタスクのいくつかのクラスに関してTと性能指標のPのタスクでその性能ならば、Tは、によって測定されるように、P、経験を向上E。 犬と猫を自分の飼い猫Tとして分類する画像分類問題を取り上げた場合、この定義から、MLアルゴリズムに犬と猫の画像の束を与えると(経験E)、MLアルゴリズムは次のことを学習できます。新しい画像を犬または猫のいずれかとして区別します(パフォーマンス測定値Pが明確に定義されている場合)。 次にディープラーニングがあります。ディープラーニングは機械学習の一部であり、上記の定義が成り立つことを理解しています。タスクTでのパフォーマンスは、経験Eで向上します。今までは大丈夫。 このブログでは、機械学習とディープラーニングには違いがあると述べています。Adilによる違いは、(従来の)機械学習では機能を手作りする必要があるのに対し、ディープラーニングでは機能を学習することです。次の図は、彼の発言を明らかにしています。 (従来の)機械学習では機能を手作りする必要があるという事実に戸惑っています。トムミッチェルによる上記の定義から、これらの機能は経験EとパフォーマンスPから学習されると思います。機械学習で他に何を学ぶことができますか? ディープラーニングでは、経験から、機能を学び、パフォーマンスを改善するためにそれらが互いにどのように関連しているかを理解します。機械学習では機能を手作りする必要があると結論づけることはできますか?学習されるのは機能の組み合わせです。それとも他に何か不足していますか?

4
パフォーマンス測定:なぜリコールと呼ばれるのですか?
精度は、関連する検索されたインスタンスの割合ですが、再現率(感度とも呼ばれます)は、検索された関連するインスタンスの割合です。 私はそれらの意味を知っていますが、なぜそれがリコールと呼ばれるのか分かりませんか?私は英語のネイティブスピーカーではありません。思い出すということは覚えているということを知っているのですが、この意味とこの概念との関連性がわかりません!カバーされたインスタンスの数を示しているため、カバレッジの方が良かったのかもしれません。 しかも感度も鈍感! これらの単語をコンセプトに関連付けて、意味を理解するのを手伝っていただけませんか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.