タグ付けされた質問 「statistics」

統計は、データの確率モデルに基づく帰納的推論および予測への科学的アプローチです。さらに、この目的のためにデータを収集するための実験と調査の設計もカバーしています。


3
KS、AUROC、およびGiniの関係
コルモゴロフ–スミルノフ検定(KS)、AUROC、ジニ係数などの一般的なモデル検証統計はすべて機能的に関連しています。しかし、私の質問は、これらがすべて関連していることを証明することに関係しています。誰かがこれらの関係を証明するのを手伝ってくれる人がいるかどうか知りたいです。私はオンラインで何も見つけることができませんでしたが、証明がどのように機能するかについて本当に興味があります。たとえば、私はGini = 2AUROC-1を知っていますが、私の最良の証明はグラフを指すことです。正式な証明に興味があります。どんな助けでも大歓迎です!

3
統計学修士論文のためのデータサイエンス指向のデータセット/研究の質問
「データサイエンス」を探っていきたい。この用語は私には少しあいまいなようですが、私はそれが必要だと思います: (従来の統計ではなく)機械学習。 クラスターで分析を実行する必要がある十分に大きいデータセット。 データサイエンスの分野を探索するために使用できる、プログラミングの知識がある統計学者がアクセスできる、優れたデータセットと問題は何ですか? これを可能な限り狭く保つために、理想的には、リンクを開き、よく使用されるデータセットと問題の例を開きたいと思います。

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
さまざまな統計手法(回帰、PCAなど)は、サンプルのサイズと次元にどのように対応していますか?
サンプルサイズと次元に応じてスケーリングする方法を説明する統計手法の既知の一般的な表はありますか?たとえば、ある友人が先日、サイズnの1次元データを単純にクイックソートする計算時間はn * log(n)になると教えてくれました。 したがって、たとえば、Xがd次元の変数であるXに対してyを回帰すると、O(n ^ 2 * d)になりますか?正確なガウスマルコフ解とニュートン法による数値最小二乗法で解を求めたい場合、どのようにスケーリングしますか?または、単純に解を取得するか、有意差検定を使用するか? 私はここでの良い答えよりも良い答えの源(様々な統計的手法のスケーリングをまとめた論文のような)が欲しいと思います。たとえば、重回帰、ロジスティック回帰、PCA、Cox比例ハザード回帰、K平均クラスタリングなどのスケーリングを含むリストのように。

3
統計+コンピュータサイエンス=データサイエンス?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 5年前休業。 私はデータサイエンティストになりたいです。私は応用統計学(アクチュアリーサイエンス)を研究していたので、素晴らしい統計的背景(回帰、確率過程、時系列、ほんの数例を挙げます)を持っています。しかし、今、私はインテリジェントシステムのコンピューターサイエンスに重点を置いて修士号を取得します。 これが私の研究計画です: 機械学習 高度な機械学習 データマイニング ファジーロジック 推奨システム 分散データシステム クラウドコンピューティング 知識発見 ビジネス・インテリジェンス 情報検索 テキストマイニング 最後に、すべての統計およびコンピュータサイエンスの知識があれば、自分をデータサイエンティストと呼ぶことができますか?、または私は間違っていますか? 答えてくれてありがとう。

3
同一の値をグループ化し、Pythonでその頻度を数える方法は?
Pythonを使用した分析の初心者なので、穏やかにしてください:-)この質問に対する答えが見つかりませんでした。別の形式ですでに他の場所で回答されている場合は、お詫びします。 小売店のトランザクションデータのデータセットがあります。変数と説明は次のとおりです。 section:ストアのセクション、str。 prod_name:製品の名前、str; 領収書:請求書の番号、int; レジ係、レジ係の番号、int; コスト:アイテムのコスト、フロート。 MM / DD / YY形式の日付、str; 時間、形式HH:MM:SS、str; 領収書は、1回のトランザクションで購入されたすべての製品に対して同じ値を持つため、1回のトランザクションで行われた購入の平均数を決定するために使用できます。 これについて最善の方法は何ですか?基本的groupby()には、ヒストグラムを作成できるように、独自の同一の出現ごとに受信変数をグループ化するために使用したいと思います。 Pandas DataFrameでデータを操作する。 編集: 以下は、ヘッダー付きのサンプルデータです(prod_nameは実際には16進数です)。 section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 このサンプルセットから、領収書102857の2つのオカレンス(1つのトランザクションで2つのアイテムを購入したため)と、領収書102856およびレシート102858のそれぞれ1つのオカレンスを示す領収書のヒストグラムが予想されます。注:データセットは巨大ではありません。 100万行。

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
ビデオファイルのシャッフルされたピクセルを再構築する方法は?
ピクセルの順序が1回シャッフルされたビデオファイルがあるとします。つまり、ランダムな順序が一度定義され、すべてのフレームに適用されています。 ピクセルの最初の順序を取得するための既知のアプローチは存在しますか? 私は、空間と時間で相関しているピクセルをより近くに配置することにより、初期トポロジを取得することについていくつかのアイデアを持っています。これは研究されているのか、効率的なアルゴリズムが公開されているのか。 また、この問題は、コンピュータビジョン技術(CNNなど)を適用できるようにするために、時間の経過とともに変化する値のセットを2Dマトリックスに投影する方法と考えることができます。

2
手動リセットで線形的に増加するデータ
センサーの線形に増加する時系列データセットがあり、値の範囲は50から150です。単純な線形回帰アルゴリズムを実装して、そのようなデータに回帰直線を当てはめ、系列が到達する日付を予測しています120。 シリーズが上に移動すると、すべて正常に動作します。ただし、センサーが約110または115に達してリセットされる場合があります。このような場合、値は、たとえば50または60からやり直します。 これは、回帰線が下向きに動き始め、古い日付の予測を開始するため、回帰直線の問題に直面し始めるところです。以前にリセットされたデータのサブセットのみを検討する必要があると思います。ただし、このケースを考慮したアルゴリズムが利用できるかどうかを理解しようとしています。 私はデータサイエンスに不慣れです。先に進むためのヒントをいただければ幸いです。 編集:nfmcclureの提案を適用 提案を適用する前に 以下は、リセットが発生するデータセットを分割した後のスナップショットと、2つのセットの傾きです。 2つの勾配の平均を見つけ、その平均から線を引きます。 これでいい?

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

1
データのログ変換を正しく行っていますか?
一部のデータに対して探索的データ分析を行っており、次のヒストグラムが得られます。 これはデータのログ変換の候補のように見えるため、次のPythonコードを実行してデータを変換します。 df["abv"].apply(np.log).hist() df["ibu"].apply(np.log).hist() plt.show() そして、変換されたヒストグラムのこの新しいプロットを取得します。 この場合、ログ変換で問題がなかったと思いますか。その場合、結果を解釈するための最良の方法は何ですか。

3
2つのデータセットが互いに近いかどうかを確認する
次の3つのデータセットがあります。 data_a=[0.21,0.24,0.36,0.56,0.67,0.72,0.74,0.83,0.84,0.87,0.91,0.94,0.97] data_b=[0.13,0.21,0.27,0.34,0.36,0.45,0.49,0.65,0.66,0.90] data_c=[0.14,0.18,0.19,0.33,0.45,0.47,0.55,0.75,0.78,0.82] data_aは実際のデータで、他の2つはシミュレーションされたデータです。ここでは、data_bまたはdata_cのいずれがdata_aに最も近いか、または似ているかを確認しようとしています。現在、私は視覚的にks_2sampテスト(python)でそれを行っています。 視覚的に 実際のデータの累積分布関数とシミュレーションデータの累積分布関数をグラフにして、どれが最も近いかを視覚的に確認しようとしました。 上記はdata_aのcdfとdata_bのcdfです。 上記はdata_aのcdfとdata_cのcdfです。 したがって、それを視覚的に見ると、data_cはdata_aよりdata_aに近いと言えますが、それでも正確ではありません。 KSテスト 2番目の方法はKSテストで、data_aをdata_bで、data_aをdata_cでテストしました。 >>> stats.ks_2samp(data_a,data_b) Ks_2sampResult(statistic=0.5923076923076923, pvalue=0.02134674813035231) >>> stats.ks_2samp(data_a,data_c) Ks_2sampResult(statistic=0.4692307692307692, pvalue=0.11575018162481227) 上記から、data_aをdata_cでテストした場合、統計値が低いことがわかります。したがって、data_cはdata_bよりもdata_aに近いはずです。仮説検定として考えるのは適切でなく、得られたp値を使用するのは適切ではないので、p値を考慮しませんでした。この検定は、帰無仮説が事前に決定されて設計されているためです。 だから私のここでの質問は、私がこれを正しくやっているのなら、それを行う他のより良い方法があるのか​​ということです??? ありがとうございました

5
平均値と中央値を使用する場合
私はデータサイエンスと統計に不慣れなので、これは初心者の質問のように思えるかもしれません。 私は、ユーザーのTwitterフォロワーが1日に獲得できるデータセットに取り組んでいます。一定期間の平均的な成長を測定したいのですが、成長の平均を求めることで測定しました。しかし、誰かが私にこれに中央値を使うように勧めています。 誰もが説明できますか、どのユースケースで平均を使用する必要があり、いつ中央値を使用するのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.