タグ付けされた質問 「tools」

8
インターネット企業がデータサイエンティストの仕事にJava / Pythonを好むのはなぜですか?
Python / Javaの経験を求め、Rを無視するデータサイエンティストの職務記述書を何度も参照します。以下は、linkinを通じて応募した会社のチーフデータサイエンティストから受け取った個人メールです。 X、関心を示してくれてありがとう。優れた分析スキルがあります。しかし、私たちはインターネット/モバイル組織であり、すべてがオンラインであるため、すべてのデータサイエンティストはJava / Pythonの優れたプログラミングスキルを持っている必要があります。 チーフデータサイエンティストの決定を尊重しますが、RができないPythonが実行できるタスクについて明確に把握することはできません。誰でも手入れを気にかけることができますか?私は実際にPython / Javaをもっと学びたいと思っています。 編集:Quoraで興味深い議論を見つけました。 Pythonがデータサイエンティストにとって最適な言語であるのはなぜですか? Edit2:機械学習のための言語とライブラリに関するUdacityのブログ

9
Pythonを使用した再現可能なデータサイエンスのためのツールとプロトコル
Pythonを使用したデータサイエンスプロジェクトに取り組んでいます。プロジェクトにはいくつかの段階があります。各ステージは、データセットの取得、Pythonスクリプト、補助データ、構成およびパラメーターの使用、および別のデータセットの作成で構成されます。コードをgitに保存し、その部分をカバーします。私は聞いてみたい: データバージョン管理のためのツール。 ステージと実験を再現できるツール。 そのようなプロジェクトのプロトコルおよび推奨ディレクトリ構造。 自動化されたビルド/実行ツール。

9
RプログラミングのIDEの代替(RStudio、IntelliJ IDEA、Eclipse、Visual Studio)
RプログラミングにはRStudioを使用しています。Visual StudioやEclipseなど、他のテクノロジースタックの堅牢なIDEについて覚えています。 2つの質問があります。 RStudio以外のIDE-sが使用されています(それらについての簡単な説明を提供することを検討してください)。 それらのいずれかがRStudioよりも顕著な利点を持っていますか? 私はほとんどの場合、それ自体のコーディングに加えて、デバッグ/ビルド/デプロイ機能を意味します(したがって、テキストエディターはおそらくソリューションではありません)。
46 r  tools  rstudio  programming 

11
データサイエンティストはExcelを使用していますか?
私は自分を旅人のデータサイエンティストと考えています。ほとんどのように(私は思う)、私は最初のチャートを作成し、Excelを使用して高校と大学で最初の集計を行いました。大学、大学院、および7年間の実務経験を経て、SQL、R、Python、Hadoop、LaTeXなど、より高度なツールと思われるものをすぐに見つけました。 データサイエンティストの立場についてインタビューを行っており、1人の候補者が15年以上の経験を持つ「シニアデータサイエンティスト」(最近は非常に曖昧な用語)として自分自身を宣伝しています。彼が好むツールセットは何かと尋ねられたとき、彼はそれがExcelだと答えた。 私は、彼が履歴書が主張するほど経験が豊富ではなかったという証拠としてこれを取り上げましたが、確信はありませんでした。結局のところ、それが私の好みのツールではないという理由だけで、他の人のものではないという意味ではありません。経験豊富なデータサイエンティストはExcelを使用していますか?主にExcelを使用している人の経験不足を想定できますか?
37 tools  career  excel 

5
データサイエンスプロジェクトのVMイメージ
データサイエンスのタスクに使用できるツールは多数あり、すべてをインストールして完璧なシステムを構築するのは面倒です。 Python、R、その他のオープンソースのデータサイエンスツールがインストールされ、すぐに使用できるLinux / Mac OSイメージはありますか?最新バージョンのPython、R(IDEを含む)、およびその他のオープンソースデータ視覚化ツールがインストールされたUbuntuまたは軽量OSが理想的です。私はグーグルでのクイック検索でこれに遭遇していません。 何かあるのか、それともあなたの誰かが自分で作ったのか教えてください。一部の大学には独自のVMイメージがあるかもしれません。そのようなリンクを共有してください。
24 python  r  tools 


5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
HadoopとnoSQLの違いは何ですか
人々がデータを処理するのを支援するための多くのツール/フレームワークについて聞いた(ビッグデータ環境)。 1つはHadoopと呼ばれ、もう1つはnoSQLの概念です。処理のポイントの違いは何ですか? それらは補完的ですか?

2
リーダーボードスコアのストリームのマイニングに役立つオープンソースツール
オンラインゲームでのユーザーのスコアを表すタプル を含むストリームについて考え(user, new_score)ます。ストリームは、毎秒100〜1,000の新しい要素を持つことができます。ゲームには20万人から30万人のユニークプレイヤーがいます。 次のような永続的なクエリが欲しいのですが。 1時間のスライディングウィンドウでxを超えるスコアを投稿したプレーヤー 1時間のスライディングウィンドウでx%のスコアを獲得したプレーヤー 私の質問は、このプロジェクトを迅速に開始するために使用できるオープンソースツールは何ですか?現在、エスパーを検討しています。 注:「マイニングデータストリーム」(大規模データセットのマイニングの第4章)を読み終えたばかりで、データストリームのマイニングはまったく初めてです。

2
実験の実行と結果の記録
私はハンズオンリサーチャーであり、実行可能なソリューションをテストするのが好きなので、多くの実験を実行する傾向があります。たとえば、ドキュメント間の類似性スコアを計算している場合、多くのメジャーを試してみたいと思うかもしれません。実際、いくつかのパラメーターの効果をテストするために、各測定で複数の実行が必要になる場合があります。 これまでのところ、入力に関する多くの情報を含むファイルに結果を書き込むことにより、実行の入力とその結果を追跡してきました。問題は、ファイル名に入力情報を追加しようとしても、特定の結果を取得することが難しい場合があることです。結果へのリンクを含むスプレッドシートを使用してみましたが、大きな違いはありません。 実験の記録のためにどのツール/プロセスを使用しますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
大規模なデータセットを理解するには、どの初期ステップを使用する必要がありますか、またどのツールを使用する必要がありますか?
警告:機械学習に関しては、私は完全な初心者ですが、学びたいと思っています。 大規模なデータセットがあり、そのパターンを見つけようとしています。既知の変数、またはデータに含まれているが実際には変数/関連があるとまだ認識していない変数のいずれかと、データ全体に相関がある場合とそうでない場合があります。 これはデータ分析の世界ではおなじみの問題になると思いますので、いくつか質問があります。 「銀の弾丸」は、このすべてのデータを統計/データ分析プログラムに投入し、関係を見つけようとする既知/未知のパターンを探してデータを処理することです。SPSSは適切ですか、それとも他のアプリケーションが適している可能性がありますか。 Rのような言語を学び、手動でデータを処理する方法を理解する必要があります。何をどのようにデータを分析するかを手動で指定する必要があるので、この関係を見つけるのは簡単ではありませんか? プロのデータマイナーはこの問題にどのように取り組み、どのような手順を実行しますか?


5
役立つ注釈ツール(ある場合)
私と私のチームがトレーニングセットに注釈を付けるのに役立つツールを探しています。大量のデータセットがある環境で作業しています。その一部は非構造化または半構造化されています。多くの場合、根拠のある真実を見つけるのに役立つ登録があります。ただし、多くの場合、評価のためだけのものであっても、キュレートされたセットが必要です。複雑な要因は、一部のデータが前提を離れることができないことです。 オブジェクト検出タスクに注釈を付けることを検討していますが、画像セグメンテーションタスク、テキスト分類タスク、および感情検出タスクが近い将来に見込まれます。 私が探しているのは、グループが注釈を作成するのを支援できるシステムです。できれば、グループの進捗状況、相対的な個人の進捗状況、そしておそらく個人の注釈者間の合意を示すことで、アノテーターに動機を与える方法です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.