タグ付けされた質問 「beginner」

データサイエンスまたはその関連サブドメインの開始に関する質問。

3
RNN対CNNの高レベル
リカレントニューラルネットワーク(RNN)とその種類、畳み込みニューラルネットワーク(CNN)とその種類について考えてきました。 これらの2つの点は言うに公平でしょうか。 CNNを使用して、コンポーネント(画像など)をサブコンポーネント(画像内のオブジェクトの輪郭など、画像内のオブジェクトなど)に分割します。 RNNを使用して、サブコンポーネントの組み合わせ(画像キャプション、テキスト生成、言語翻訳など)を作成します。 これらの記述の不正確さを指摘したい方がいれば幸いです。ここでの私の目標は、CNNとRNNの使用に関するより明確な基盤を得ることです。

8
インターネット企業がデータサイエンティストの仕事にJava / Pythonを好むのはなぜですか?
Python / Javaの経験を求め、Rを無視するデータサイエンティストの職務記述書を何度も参照します。以下は、linkinを通じて応募した会社のチーフデータサイエンティストから受け取った個人メールです。 X、関心を示してくれてありがとう。優れた分析スキルがあります。しかし、私たちはインターネット/モバイル組織であり、すべてがオンラインであるため、すべてのデータサイエンティストはJava / Pythonの優れたプログラミングスキルを持っている必要があります。 チーフデータサイエンティストの決定を尊重しますが、RができないPythonが実行できるタスクについて明確に把握することはできません。誰でも手入れを気にかけることができますか?私は実際にPython / Javaをもっと学びたいと思っています。 編集:Quoraで興味深い議論を見つけました。 Pythonがデータサイエンティストにとって最適な言語であるのはなぜですか? Edit2:機械学習のための言語とライブラリに関するUdacityのブログ

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
季節性やその他のパタ​​ーンが変化する時系列に対処する方法は?
バックグラウンド 私は、エネルギーメーターの測定値の時系列データセットに取り組んでいます。シリーズの長さはメートルによって異なります-私が数年持っているものもあれば、数ヶ月しかいないものもあります。 私が取り組んできたものの1つは、これらの時系列のクラスタリングです。私の仕事は今のところ学術的であり、データの他の分析も行っていますが、クラスタリングを実行するという特定の目標があります。 さまざまな機能(週末と平日で使用される割合、異なる時間ブロックで使用される割合など)を計算する初期作業を行いました。その後、動的タイムワーピング(DTW)を使用して異なるシリーズ間の距離を取得し、差分値に基づいてクラスタリングを検討することに進み、これに関連するいくつかの論文を見つけました。 質問 特定のシリーズの季節性の変化により、クラスタリングが不正確になりますか?もしそうなら、どのように対処しますか? 私の懸念は、時系列のパターンが変更された場合、DTWによって取得された距離が誤解を招く可能性があることです。これにより、誤ったクラスタリングが発生する可能性があります。 上記が不明な場合は、次の例を検討してください。 例1 メーターの真夜中から午前8時までの測定値が低く、次の1時間は測定値が急激に増加し、午前9時から午後5時まで高値を維持し、次の1時間にわたって急激に減少し、午後6時から深夜まで低値を維持します。メーターは、このパターンを毎日数か月間一貫して継続しますが、読み取り値が1日を通して一貫したレベルにとどまるパターンに変わります。 例2 メーターは、ほぼ毎月消費されるエネルギー量を示します。数年後、夏季のエネルギー使用量が通常の量に戻る前のパターンに変わります。 可能な方向 私は、時系列全体を比較し続けることができるかどうか疑問に思っていましたが、パターンを大幅に変更する場合は、それらを分割し、別のシリーズと見なします。ただし、これを行うには、そのような変更を検出できる必要があります。また、これが適切な方法なのか、データを操作するのかわからないだけです。 また、データを分割し、それを多くの別個の時系列として考慮することも検討しました。たとえば、毎日/メーターの組み合わせを個別のシリーズと考えることができます。ただし、毎週/毎月/毎年のパターンを検討する場合は、同様に行う必要があります。私が考えて、これは動作しますが、それは潜在的にかなり厄介だと私は欠けていることにもっと良い方法があるのなら、私はこの道を行くことを憎みます。 さらなる注記 これらは、コメントに出てきたもの、またはコメントが原因で私が考えたもので、関連性があるかもしれません。関連情報を取得するためにすべてを読み通す必要がないように、ここに配置しています。 私はPythonで作業していますが、Rの方が適している場所にはrpyがあります。私は必ずしもPythonの答えを探しているわけではありません-誰かが実際に何をすべきかについての答えを持っているなら、実装の詳細を自分で理解して幸せです。 私はたくさんの「ラフドラフト」コードを実行しています。DTWをいくつか実行したり、いくつかの異なるタイプのクラスタリングを実行したりしています。本当に探しているのは、距離を見つける前にデータを処理する方法、クラスタリングを実行する方法などに関連しています。 これらの論文は時系列とDTWについて特に有益であり、トピック領域の背景が必要な場合に役立つことがあります:http : //www.cs.ucr.edu/~eamonn/selected_publications.htm

3
ディープラーニングライブラリを使用したテキストからのキーワード/フレーズ抽出
おそらくこれは広すぎるかもしれませんが、テキスト要約タスクでディープラーニングを使用する方法に関するリファレンスを探しています。 標準の単語頻度アプローチと文のランク付けを使用してテキストの要約を既に実装していますが、このタスクにディープラーニングテクニックを使用する可能性を調査したいと思います。また、センチメント分析にConvolutional Neural Networks(CNN)を使用してwildml.comで提供されているいくつかの実装も行っています。テキストの要約とキーワード抽出にTensorFlowやTheanoなどのライブラリをどのように使用できるか知りたいのですが。ニューラルネットの実験を始めてから約1週間が経過しました。これらのライブラリのパフォーマンスが、この問題に対する以前のアプローチと比較してどうなるか、とても楽しみです。 これらのフレームワークを使用したテキスト要約に関連する興味深い論文とgithubプロジェクトを特に探しています。誰かが私にいくつかの参照を提供できますか?

3
データサイエンスを自己学習する方法 [閉まっている]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 4年前に閉鎖されました。 私は独学のWeb開発者であり、自分でデータサイエンスを教えることに興味がありますが、どのように始めるべきかはわかりません。特に、私は疑問に思っています: データサイエンスにはどのような分野がありますか?(例:人工知能、機械学習、データ分析など) 推奨できるオンラインクラスはありますか? 私が実践できるプロジェクトがありますか(オープンデータセットなど)。 申請または完了できる認定資格はありますか?


2
特定のトピックに関する知識のないデータサイエンスは、キャリアとして追求する価値がありますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、 Data Science Stack Exchangeで話題になるようにします。 5年前に閉鎖されました。 最近誰かと会話をし、データ分析に興味があり、必要なスキルとツールを習得するつもりだと話しました。彼らは私に、ツールを学びスキルを構築するのは素晴らしいことですが、特定の分野の専門知識がない限り、そうすることにはほとんど意味がないと示唆しました。 彼らは基本的に、いくつかの木製の箱を建てることができ、より良いもの(キャビン、食器棚など)を建てることができるツールの山を持つビルダーのようになりますが、特定の分野の知識がなければ決して特定の製品のために人々が訪れるビルダーになります。 誰もこれを見つけましたか、これをどうするかについての入力がありますか?物事のデータサイエンスの側面を学び、専門化するためだけに新しい分野を学ばなければならないのが本当だと思われます。

7
私はプログラマーですが、データサイエンスの分野に入るにはどうすればよいですか?
まず第一に、この用語はとてもあいまいに聞こえます。 とにかく..私はソフトウェアプログラマーです。私がコーディングできる言語の1つはPythonです。データについて言えば、SQLを使用でき、データスクレイピングを実行できます。データサイエンスが得意とする非常に多くの記事を読んだ後、これまでに私が理解したこと: 1-統計 2-代数 3-データ分析 4-視覚化。 5-機械学習。 私がこれまでに知っていること: 1- Pythonプログラミング2- Pythonでのデータスクラップ 理論と実用の両方を磨くために、専門家が私をガイドしたり、ロードマップを提案したりできますか?約8か月の時間枠を自分に与えました。
13 beginner  career 

3
非構造化テキスト分類
非構造化テキスト文書、つまり構造が不明なWebサイトを分類します。私が分類しているクラスの数は限られています(この時点で、3つ以上はないと考えています)。誰が私がどのように始めることができるかについて提案していますか? 「言葉の袋」アプローチはここで実行可能ですか?後で、文書構造(おそらく決定木)に基づいて別の分類段階を追加できます。 私はMahoutとHadoopにある程度精通しているため、Javaベースのソリューションを好みます。必要に応じて、ScalaやSparkエンジン(MLライブラリ)に切り替えることができます。

4
大規模なデータセットを理解するには、どの初期ステップを使用する必要がありますか、またどのツールを使用する必要がありますか?
警告:機械学習に関しては、私は完全な初心者ですが、学びたいと思っています。 大規模なデータセットがあり、そのパターンを見つけようとしています。既知の変数、またはデータに含まれているが実際には変数/関連があるとまだ認識していない変数のいずれかと、データ全体に相関がある場合とそうでない場合があります。 これはデータ分析の世界ではおなじみの問題になると思いますので、いくつか質問があります。 「銀の弾丸」は、このすべてのデータを統計/データ分析プログラムに投入し、関係を見つけようとする既知/未知のパターンを探してデータを処理することです。SPSSは適切ですか、それとも他のアプリケーションが適している可能性がありますか。 Rのような言語を学び、手動でデータを処理する方法を理解する必要があります。何をどのようにデータを分析するかを手動で指定する必要があるので、この関係を見つけるのは簡単ではありませんか? プロのデータマイナーはこの問題にどのように取り組み、どのような手順を実行しますか?

1
Rを使用して意思決定ツリーを構築する場合、データを正規化する必要がありますか?
したがって、今週のデータセットには14の属性があり、各列には非常に異なる値があります。1つの列には1未満の値があり、別の列には3〜4桁の値があります。 先週、正規化について学習しましたが、値が大きく異なる場合は、データを正規化する必要があるようです。ディシジョンツリーの場合、ケースは同じですか? これについてはよくわかりませんが、正規化は同じデータセットから得られる決定木に影響しますか?どうやらそうじゃないけど...
10 r  beginner 

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3
ゲームをプレイする簡単なAIプログラムを作成するには、どのような知識が必要ですか?
私は学士号を取得しています。私のコースの1つは「機械学習入門」でしたが、私は常にこのテーマで個人的なプロジェクトをやりたかったのです。 最近、マリオ、ゴーなどのゲームをプレイするためのさまざまなAIトレーニングについて聞いたことがあります。 ゲームをプレイする簡単なAIプログラムをトレーニングするには、どのような知識が必要ですか?そして、初心者にはどのゲームをお勧めしますか? これは私がこれまでに機械学習で知っていることです- コースと機械学習の概要。K最近傍アルゴリズム、およびK平均アルゴリズム 統計的推論 混合ガウスモデル(GMM)および期待値最大化(EM) 汎化境界とモデル選択を含む、おそらくおおよその(PAC)モデル 基本的な超平面アルゴリズム:PerceptronとWinnow。 サポートベクターマシン(SVM) カーネル 弱い学習者から強い学習者へのブースト:AdaBoost マージンパーセプトロン 回帰 PCA 決定木 決定木剪定とランダムフォレスト


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.