データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

7
機械学習モデルをトレーニングする無料のクラウドサービスはありますか?
大量のトレーニングデータを使用してディープモデルをトレーニングしたいのですが、デスクトップには、これらの豊富なデータを使用してこのようなディープモデルをトレーニングする能力がありません。 機械学習とディープラーニングモデルのトレーニングに使用できる無料のクラウドサービスがあるかどうかを知りたいのですが? また、クラウドサービスがあるかどうかも知りたいと思います。クラウドサービスでは、トレーニング結果を追跡でき、クラウドに接続していなくてもトレーニングは継続されます。

3
線形回帰で重みを非負にする方法
Pythonでscikit-learnを使用する標準の線形回帰を使用しています。ただし、すべての機能に対して重みをすべて正(負ではない)にしたいのですが、それを達成する方法はありますか?私はドキュメントを見ていましたが、それを達成する方法を見つけることができませんでした。最善の解決策が得られない可能性があることは理解していますが、重みが負でないことが必要です。


7
Python作業環境を別のマシンにクローンする方法は?
ワークステーションでPython(Anaconda + Flask)を使用して機械学習モデルを開発しましたが、すべてうまくいきます。後で、このプログラムを別のマシンに出荷しようとしましたが、もちろん同じ環境をセットアップしようとしましたが、プログラムは実行に失敗しました。プログラムを他のマシンにコピーし、そこでもスムーズに実行されるようにしました。 失敗した場合の問題を把握することはできません(プログラムコードとエラーメッセージの両方が豊富なので、ここでは説明できません)。 。 だから、私の質問は、特定のプログラムがうまく動作する環境を考えると、どうすればそれがうまく動作するはずの別のプログラムにクローンを作成できますか?もちろん、完全なシステムの複製なしで;)
26 python  anaconda 

1
PyTorch対Tensorflow Fold
PyTorchとTensorflow Foldは両方とも、入力データの長さまたは次元が不均一な状況(つまり、動的グラフが有用または必要な状況)に対処することを目的とした深層学習フレームワークです。 依存するパラダイム(例:動的バッチ処理)とその意味、それぞれに実装できる/できないもの、弱点/強さなどの意味で、それらを比較する方法を知りたいと思います。 この情報を使用して、動的計算グラフの探索を開始するためにそれらの1つを選択するつもりですが、特定のタスクはありません。 注1:DyNetやChainerのような他の動的計算グラフフレームワークも比較で歓迎されますが、PyTorchとTensorflow Foldに焦点を当てたいと思います。 注2:PyTorchでこのhackernewsスレッドを見つけましたが、情報はまばらですが、それほど多くはありません。 注3:Tensorflow Foldに関する別の関連するhackernewsスレッドには、比較方法に関する情報が含まれています。 注4:関連するRedditスレッド。 注5:Tensorflow Foldのgithubに関連するバグで、重要な制限を特定しています。評価中に条件分岐を実行できないことです。 注6:使用されているアルゴリズム(動的バッチ処理など)に関連した可変長入力に関するpytorchフォーラムでの議論。

1
Kerasは精度をどのように計算しますか?
Kerasはクラスワイズ確率から精度をどのように計算しますか?たとえば、テストセットに2つのクラスのいずれかに属することができる100個のサンプルがあるとします。クラスごとの確率のリストもあります。Kerasは、2つのクラスのいずれかにサンプルを割り当てるためにどのしきい値を使用しますか?

7
機械学習はリストから最大値を見つけるなどの機能を学習できますか?
リストである入力があり、出力はinput-listの要素の最大値です。 機械学習は、入力に存在する入力要素の最大値を常に選択するような関数を学習できますか? これは非常に基本的な質問のように思えるかもしれませんが、機械学習が一般的に何ができるかを理解できるかもしれません。ありがとう!

7
一般公開されているソーシャルネットワークデータセット/ API
一般公開されているデータセットのすばらしいリストの拡張として、公開されているソーシャルネットワークデータセット/クロールAPIのリストがあるかどうかを知りたいです。データセット/ APIへのリンクと一緒に、利用可能なデータの特性が追加されていれば、非常に便利です。そのような情報は次のとおりである必要があります。 ソーシャルネットワークの名前。 提供するユーザー情報の種類(投稿、プロフィール、友情ネットワークなど); APIを介してコンテンツのクロールを許可するかどうか(およびレート:10 / min、1k / month、...); データセット全体のスナップショットを単に提供するかどうか。 追加する提案やさらなる特性は大歓迎です。

4
データサイエンスの「科学」に関する書籍 [閉まっている]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 データサイエンスの背後にある科学と数学に関する本は何ですか?非常に多くの「データサイエンス」の本がプログラミングチュートリアルであり、データ生成プロセスや統計的推論などには触れないように感じます。私はすでにコーディングできますが、私が苦手としているのは、私がやっていることの背後にある数学/統計/理論です。 本で$ 1000を燃やす準備ができたら(約10本...ため息)、何を買うことができますか? 例:Agrestiのカテゴリデータ分析、経度データの線形混合モデルなど...など

5
ニューラルネットワークでニューロンと層の数を設定する方法
私はニューラルネットワークの初心者であり、2つの概念を理解するのに苦労しています。 特定のニューラルネットワークが持つ中間層の数をどのように決定しますか?1対10または何でも。 各中間層のニューロン数をどのように決定しますか?各中間層に同数のニューロンを配置することを推奨しますか、それともアプリケーションによって異なりますか?

2
batch_size、steps_perエポック、および検証ステップを設定する方法
Kerasを使用してCNNを学び始めています。私はtheanoバックエンドを使用しています。 値を次のように設定する方法がわかりません。 バッチサイズ、 エポックごとのステップ、 validation_steps。 batch_sizeトレーニングセットに240,000個のサンプルがあり、テストセットに80,000個のサンプルがある場合、エポックごとのステップ、検証ステップに設定する値は何ですか?

6
好きなFacebookサイトに基づいてユーザーの年齢を推定するための機械学習手法
Facebookアプリケーションのデータベースがあり、機械学習を使用して、ユーザーが好きなFacebookサイトに基づいてユーザーの年齢を推定しようとしています。 私のデータベースには3つの重要な特徴があります。 私のトレーニングセットの年齢分布(合計で1万2,000ユーザー)は若いユーザーに偏っています(つまり、27歳の1157ユーザーと65歳の23ユーザー)。 多くのサイトには、5人以下のLikerがあります(5人未満のLikerでFBサイトを除外しました)。 サンプルよりも多くの機能があります。 したがって、私の質問は次のとおりです。さらなる分析のためにデータを準備するためにどのような戦略を提案しますか?何らかの次元削減を実行する必要がありますか?この場合、どのMLメソッドを使用するのが最も適切でしょうか? 私は主にPythonを使用しているため、Python固有のヒントをいただければ幸いです。

2
Kerasで2つの異なるモデルをマージする
2つのKerasモデルを1つのモデルにマージしようとしていますが、これを達成できません。 たとえば、添付の図では、次元8の中間層を取得し、これをモデル(再び次元8の)層への入力として使用し、モデルとモデル両方を単一のモデル。A2A2A2B1B1B1BBBAAABBB 機能モジュールを使用して、モデルとモデル個別に作成しています。どうすればこのタスクを達成できますか?AAABBB 注:はモデル入力層であり、はモデル入力層です。A1A1A1AAAB1B1B1BBB

2
LightGBM対XGBoost
私はどちらが優れているかを理解しようとしています(より正確に、特に分類の問題で) LightGBMとXGBoostを比較する記事を検索しましたが、2つしか見つかりませんでした。 https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031-これは速度のみであり、精度ではありません。 https://github.com/Microsoft/LightGBM/wiki/Experiments-LightGBMの著者によるものであり、LightGBMがそこに勝つことは驚きではありません。 私のテストでは、両方のアルゴリズムでほぼ同じAUCを取得していますが、LightGBMは2〜5倍高速で実行されます。 LGBMがとてもクールなら、こことKaggleであまり聞いていないのはなぜですか:)
25 xgboost 

4
pandas.DataFrame.isinを並行して実行する簡単な方法はありますか?
DataFrame.isinパンダの機能を多用するモデリングおよびスコアリングプログラムを使用して、数千の特定のページごとに個々のユーザーのFacebookの「いいね」のレコードのリストを検索します。これは、1つのコアでのみ実行され、残りは数十個のコアで同時に実行されるため、モデリングやスコアリングの部分よりも、プログラムの最も時間のかかる部分です。 私は手動でデータフレームをチャンクに分割し、操作を並行して実行できることを知っていますが、それを自動的に行う簡単な方法はありますか?言い換えれば、簡単に委任された操作を実行していることを認識し、それを自動的に配布するパッケージがありますか?おそらくそれはあまりにも多くを求めていますが、私は過去にPythonですでに利用可能なものに十分驚いていましたので、尋ねる価値があると思います。 これがどのように達成されるかについてのその他の提案(魔法のユニコーンパッケージによってでなくても!)も歓迎します。主に、ソリューションのコーディングに同量の時間を費やすことなく、実行ごとに15〜20分間削る方法を見つけようとしています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.