データサイエンス statistics

4

一般化線形モデル（GLM）は統計モデルと見なされると思いましたが、友人から、それを機械学習手法として分類している論文があると言われました。どちらが本当ですか（またはより正確）？説明をいただければ幸いです。

11 machine-learning statistics glm

3

コルモゴロフ–スミルノフ検定（KS）、AUROC、ジニ係数などの一般的なモデル検証統計はすべて機能的に関連しています。しかし、私の質問は、これらがすべて関連していることを証明することに関係しています。誰かがこれらの関係を証明するのを手伝ってくれる人がいるかどうか知りたいです。私はオンラインで何も見つけることができませんでしたが、証明がどのように機能するかについて本当に興味があります。たとえば、私はGini = 2AUROC-1を知っていますが、私の最良の証明はグラフを指すことです。正式な証明に興味があります。どんな助けでも大歓迎です！

11 data-mining statistics predictive-modeling accuracy

3

統計学修士論文のためのデータサイエンス指向のデータセット/研究の質問

「データサイエンス」を探っていきたい。この用語は私には少しあいまいなようですが、私はそれが必要だと思います：（従来の統計ではなく）機械学習。クラスターで分析を実行する必要がある十分に大きいデータセット。データサイエンスの分野を探索するために使用できる、プログラミングの知識がある統計学者がアクセスできる、優れたデータセットと問題は何ですか？これを可能な限り狭く保つために、理想的には、リンクを開き、よく使用されるデータセットと問題の例を開きたいと思います。

11 statistics education knowledge-base definitions

3

科学計算に最適な言語[終了]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか？さらに、どの言語が最もパフォーマンスが高くなりますか？PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか？さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

さまざまな統計手法（回帰、PCAなど）は、サンプルのサイズと次元にどのように対応していますか？

サンプルサイズと次元に応じてスケーリングする方法を説明する統計手法の既知の一般的な表はありますか？たとえば、ある友人が先日、サイズnの1次元データを単純にクイックソートする計算時間はn * log（n）になると教えてくれました。したがって、たとえば、Xがd次元の変数であるXに対してyを回帰すると、O（n ^ 2 * d）になりますか？正確なガウスマルコフ解とニュートン法による数値最小二乗法で解を求めたい場合、どのようにスケーリングしますか？または、単純に解を取得するか、有意差検定を使用するか？私はここでの良い答えよりも良い答えの源（様々な統計的手法のスケーリングをまとめた論文のような）が欲しいと思います。たとえば、重回帰、ロジスティック回帰、PCA、Cox比例ハザード回帰、K平均クラスタリングなどのスケーリングを含むリストのように。

10 bigdata statistics efficiency scalability

3

統計+コンピュータサイエンス=データサイエンス？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 5年前休業。私はデータサイエンティストになりたいです。私は応用統計学（アクチュアリーサイエンス）を研究していたので、素晴らしい統計的背景（回帰、確率過程、時系列、ほんの数例を挙げます）を持っています。しかし、今、私はインテリジェントシステムのコンピューターサイエンスに重点を置いて修士号を取得します。これが私の研究計画です：機械学習高度な機械学習データマイニングファジーロジック推奨システム分散データシステムクラウドコンピューティング知識発見ビジネス・インテリジェンス情報検索テキストマイニング最後に、すべての統計およびコンピュータサイエンスの知識があれば、自分をデータサイエンティストと呼ぶことができますか？、または私は間違っていますか？答えてくれてありがとう。

10 machine-learning statistics career

3

同一の値をグループ化し、Pythonでその頻度を数える方法は？

Pythonを使用した分析の初心者なので、穏やかにしてください:-)この質問に対する答えが見つかりませんでした。別の形式ですでに他の場所で回答されている場合は、お詫びします。小売店のトランザクションデータのデータセットがあります。変数と説明は次のとおりです。 section：ストアのセクション、str。 prod_name：製品の名前、str; 領収書：請求書の番号、int; レジ係、レジ係の番号、int; コスト：アイテムのコスト、フロート。 MM / DD / YY形式の日付、str; 時間、形式HH：MM：SS、str; 領収書は、1回のトランザクションで購入されたすべての製品に対して同じ値を持つため、1回のトランザクションで行われた購入の平均数を決定するために使用できます。これについて最善の方法は何ですか？基本的groupby()には、ヒストグラムを作成できるように、独自の同一の出現ごとに受信変数をグループ化するために使用したいと思います。 Pandas DataFrameでデータを操作する。編集：以下は、ヘッダー付きのサンプルデータです（prod_nameは実際には16進数です）。 section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 このサンプルセットから、領収書102857の2つのオカレンス（1つのトランザクションで2つのアイテムを購入したため）と、領収書102856およびレシート102858のそれぞれ1つのオカレンスを示す領収書のヒストグラムが予想されます。注：データセットは巨大ではありません。 100万行。

10 python statistics pandas ipython

3

数学の畳み込みとCNNの関係

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

ビデオファイルのシャッフルされたピクセルを再構築する方法は？

ピクセルの順序が1回シャッフルされたビデオファイルがあるとします。つまり、ランダムな順序が一度定義され、すべてのフレームに適用されています。ピクセルの最初の順序を取得するための既知のアプローチは存在しますか？私は、空間と時間で相関しているピクセルをより近くに配置することにより、初期トポロジを取得することについていくつかのアイデアを持っています。これは研究されているのか、効率的なアルゴリズムが公開されているのか。また、この問題は、コンピュータビジョン技術（CNNなど）を適用できるようにするために、時間の経過とともに変化する値のセットを2Dマトリックスに投影する方法と考えることができます。

8 statistics convnet image-recognition convolution tsne

2

手動リセットで線形的に増加するデータ

センサーの線形に増加する時系列データセットがあり、値の範囲は50から150です。単純な線形回帰アルゴリズムを実装して、そのようなデータに回帰直線を当てはめ、系列が到達する日付を予測しています120。シリーズが上に移動すると、すべて正常に動作します。ただし、センサーが約110または115に達してリセットされる場合があります。このような場合、値は、たとえば50または60からやり直します。これは、回帰線が下向きに動き始め、古い日付の予測を開始するため、回帰直線の問題に直面し始めるところです。以前にリセットされたデータのサブセットのみを検討する必要があると思います。ただし、このケースを考慮したアルゴリズムが利用できるかどうかを理解しようとしています。私はデータサイエンスに不慣れです。先に進むためのヒントをいただければ幸いです。編集：nfmcclureの提案を適用提案を適用する前に以下は、リセットが発生するデータセットを分割した後のスナップショットと、2つのセットの傾きです。 2つの勾配の平均を見つけ、その平均から線を引きます。これでいい？

8 machine-learning statistics time-series

1

指定された変数に直交する（相関しない）予測を生成する

私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。このコード： import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

1

データのログ変換を正しく行っていますか？

一部のデータに対して探索的データ分析を行っており、次のヒストグラムが得られます。これはデータのログ変換の候補のように見えるため、次のPythonコードを実行してデータを変換します。 df["abv"].apply(np.log).hist() df["ibu"].apply(np.log).hist() plt.show() そして、変換されたヒストグラムのこの新しいプロットを取得します。この場合、ログ変換で問題がなかったと思いますか。その場合、結果を解釈するための最良の方法は何ですか。

8 python statistics pandas

3

2つのデータセットが互いに近いかどうかを確認する

次の3つのデータセットがあります。 data_a=[0.21,0.24,0.36,0.56,0.67,0.72,0.74,0.83,0.84,0.87,0.91,0.94,0.97] data_b=[0.13,0.21,0.27,0.34,0.36,0.45,0.49,0.65,0.66,0.90] data_c=[0.14,0.18,0.19,0.33,0.45,0.47,0.55,0.75,0.78,0.82] data_aは実際のデータで、他の2つはシミュレーションされたデータです。ここでは、data_bまたはdata_cのいずれがdata_aに最も近いか、または似ているかを確認しようとしています。現在、私は視覚的にks_2sampテスト（python）でそれを行っています。視覚的に実際のデータの累積分布関数とシミュレーションデータの累積分布関数をグラフにして、どれが最も近いかを視覚的に確認しようとしました。上記はdata_aのcdfとdata_bのcdfです。上記はdata_aのcdfとdata_cのcdfです。したがって、それを視覚的に見ると、data_cはdata_aよりdata_aに近いと言えますが、それでも正確ではありません。 KSテスト 2番目の方法はKSテストで、data_aをdata_bで、data_aをdata_cでテストしました。 >>> stats.ks_2samp(data_a,data_b) Ks_2sampResult(statistic=0.5923076923076923, pvalue=0.02134674813035231) >>> stats.ks_2samp(data_a,data_c) Ks_2sampResult(statistic=0.4692307692307692, pvalue=0.11575018162481227) 上記から、data_aをdata_cでテストした場合、統計値が低いことがわかります。したがって、data_cはdata_bよりもdata_aに近いはずです。仮説検定として考えるのは適切でなく、得られたp値を使用するのは適切ではないので、p値を考慮しませんでした。この検定は、帰無仮説が事前に決定されて設計されているためです。だから私のここでの質問は、私がこれを正しくやっているのなら、それを行う他のより良い方法があるのかということです??? ありがとうございました

7 python statistics visualization simulation

5

平均値と中央値を使用する場合

私はデータサイエンスと統計に不慣れなので、これは初心者の質問のように思えるかもしれません。私は、ユーザーのTwitterフォロワーが1日に獲得できるデータセットに取り組んでいます。一定期間の平均的な成長を測定したいのですが、成長の平均を求めることで測定しました。しかし、誰かが私にこれに中央値を使うように勧めています。誰もが説明できますか、どのユースケースで平均を使用する必要があり、いつ中央値を使用するのですか？

7 statistics descriptive-statistics

タグ付けされた質問 「statistics」

タグ付けされた質問「statistics」