データサイエンス sql

11

1996年からSQLを使用しているので、偏見があるかもしれません。MySQLとSQLite 3を広範囲に使用しましたが、Microsoft SQL ServerとOracleも使用しました。 Pandasで行った操作の大部分は、SQLで簡単に実行できます。これには、データセットのフィルタリング、表示する特定の列の選択、値への関数の適用などが含まれます。 SQLには、オプティマイザーとデータ永続性があるという利点があります。SQLには、明確で理解可能なエラーメッセージもあります。パンダは、時にはそれが単一使用するのに適切なのですここでやや不可解なAPI、持っている[ stuff ]あなたが必要とする、他の回[[ stuff ]]、そして時にはあなたが必要です.loc。パンダの複雑さの一部は、非常に多くの過負荷が進行しているという事実から生じています。だから、私はパンダがとても人気がある理由を理解しようとしています。

69 pandas sql

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

最新のRおよび/またはPythonライブラリはSQLを廃止しますか？

私は、SQL Serverがデータ処理からクリーニング、変更まで、私たちが行うすべてのバックボーンであるオフィスで働いています。私の同僚は、着信データを標準化してレポート、視覚化、および分析プロジェクトで使用できるように、複雑な関数とストアドプロシージャの作成を専門にしています。ここから始める前は、最も基本的なクエリを書くことは別として、SQLの経験はほとんどありませんでした。私の分析準備作業の大部分はすべてRで行われました。上司は、Rを使用してより効率的かつはるかに少ないコード行では実行できない割り当てが非常に少ないように思えても、SQLスキルを向上させると主張していますdplyr、data.table、tidyrなどのパッケージ（いくつか例を挙げると）。私の質問は、これは理にかなっていますか？数週間前、特定の条件を満たすテーブル内の各行の列名のリストを取得し、それらを文字列のベクトルに連結するタスクに直面しました。厳しい締め切りがあり、その時、私はいくつかの閉塞を経験していたので、問題を完全に解決することができませんでした。上司に尋ねたところ、上司は同僚に問題を解決するためのスクリプトTSQLを書くように頼みました。彼がそれに取り組んでいる間に、私はRでそれを行う方法を見つけて、かなり単純な関数を作成し、それをデータフレームに適用しました。私の同僚は、約2時間後にスクリプトで戻ってきました。ネストされた2つのforループを含む少なくとも75行でした。私は彼に、実行が終了したときに通知するように頼み、数時間かかると言いました。一方、私のRスクリプトは、約30秒で〜45,000レコードをループできました。データのクリーニングと変更には、Rのほうがはるかに良い選択だと思いますか？おそらく私のオフィスのSQL開発者は不適当でしょうか？RとSQLの両方（またはPythonとSQLの両方）を扱った人がこれについて何か考えを持っている場合、私は興味があります。

14 python r data-cleaning data sql

3

自然言語からSQLクエリ

私は「自然言語をSQLクエリに変換する」システムの開発に取り組んでいます。同様の質問の回答を読みましたが、探していた情報を入手できませんでした。以下は、Garima Singh、Arun SolankiによるリレーショナルデータベースのSQLクエリに自然言語を変換するアルゴリズムから取得したこのようなシステムのフローチャートです。私は品詞タグ付けステップまで理解しました。しかし、私は残りのステップにどのようにアプローチしますか。可能なすべてのSQLクエリをトレーニングする必要がありますか？または、品詞のタグ付けが完了したら、単語をいじってSQLクエリを作成する必要がありますか？編集：「ユーザークエリ」から「品詞タグ付け」までのステップを正常に実装しました。ありがとうございました。

12 machine-learning nlp sql natural-language-process

3

科学計算に最適な言語[終了]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか？さらに、どの言語が最もパフォーマンスが高くなりますか？PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか？さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

SQLテーブルの自動異常検出用ツール？

本質的にログである大きなSQLテーブルがあります。データはかなり複雑で、すべてのデータを理解せずに異常を特定する方法を見つけようとしています。私は異常検出のためのツールをたくさん見つけましたが、それらのほとんどは「中間者」のような種類、すなわちElastic Search、Splunkなどを必要とします。ベースラインを構築し、異常を自動的に警告するSQLテーブルに対して実行できるツールを知っている人はいますか？これは怠惰に聞こえるかもしれませんが、各イベントタイプの意味と各イベントに関連する他のフィールドを学習しているため、個別のレポートスクリプトを作成するのに数十時間を費やしてきました。意味のある方法。テーブルには41列があり、5億行（3年分のデータ）しかヒットしません。

10 sql anomaly-detection outlier

3

大規模なJSONデータセットでのPostgreSQLとMongoDBのどちらが速いですか？

9mのJSONオブジェクトがそれぞれ約300バイトの大きなデータセットがあります。それらはリンクアグリゲーターからの投稿です。基本的にはリンク（URL、タイトル、著者ID）とコメント（テキストと著者ID）+メタデータです。子レコードを指すIDを持つ配列フィールドが1つあるという事実を除いて、それらはテーブルのリレーショナルレコードである可能性が非常に高いです。どの実装がより堅固に見えますか？ PostgreSQLデータベース上のJSONオブジェクト（1つの列を持つ1つの大きなテーブル、つまりJSONオブジェクト） MongoDB上のJSONオブジェクト JSONオブジェクトを列に分解し、PostgreSQLで配列を使用する結合のパフォーマンスを最大化したいので、データをマッサージして、興味深い分析が見つかるまで調査できます。その時点で、データを各分析に固有の形式に変換する方が良いと思います。

10 data-mining bigdata databases sql mongodb

4

データ分析をデバッグする方法は？

私は偵察がかなり典型的であるという次の問題に遭遇しました。数百万行という大きなデータがあります。たとえば、いくつかのサブクエリで構成されるSQLクエリなど、重要な分析をいくつか実行します。たとえば、プロパティXが時間の経過とともに増加しているという結果が出ました。これにつながる可能性のある2つの可能性があります。 Xは確かに時間とともに増加しています分析にバグがあります 2番目ではなく1番目が発生したことをテストするにはどうすればよいですか？中間結果は何百万行にも及ぶ可能性があるため、ステップワイズデバッガーが存在しても、役に立ちません。私が考え得る唯一のことは、テストしたいプロパティを持つ小さな合成データセットを何らかの方法で生成し、ユニットテストとして分析を実行することでした。これを行うためのツールはありますか？特に、SQLに限定されません。

10 data-mining sql experiments

タグ付けされた質問 「sql」

タグ付けされた質問「sql」