タグ付けされた質問 「statistics」

統計は、データの確率モデルに基づく帰納的推論および予測への科学的アプローチです。さらに、この目的のためにデータを収集するための実験と調査の設計もカバーしています。

1
2つのカテゴリ変数とカテゴリ変数と連続変数の間の相関関係を取得する方法は?
私は回帰モデルを構築していますが、以下を計算して相関を確認する必要があります 2つのマルチレベルカテゴリ変数間の相関 マルチレベルのカテゴリ変数と連続変数の相関 マルチレベルのカテゴリ変数のVIF(分散インフレーション係数) ピアソンは2つの連続変数に対してのみ機能するため、上記のシナリオにピアソン相関係数を使用するのは間違っていると思います。 以下の質問に答えてください 上記の場合に最適な相関係数はどれですか? VIF計算は連続データに対してのみ機能するので、代替手段は何ですか? 提案する相関係数を使用する前に確認する必要がある仮定は何ですか? SAS&Rでそれらを実装する方法は?

4
ニューラルネットワーク:使用するコスト関数?
主にニューラルネットワークを使用した実験にTensorFlowを使用しています。かなりの実験(XOR-Problem、MNIST、いくつかのリグレッションなど)を行っていますが、全体的に初心者と見なされる可能性があるため、特定の問題に対して「正しい」コスト関数を選択するのに苦労しています。 TensorFlowに来る前に、PythonとNumPyを使用して、完全に接続されたMLPとリカレントネットワークをいくつかコーディングしましたが、ほとんどの場合、単純な2乗誤差と単純な勾配不足で十分な問題がありました。 ただし、TensorFlowはカスタムコスト関数を作成するだけでなく、かなり多くのコスト関数を提供するので、ニューラルネットワークのコスト関数専用のチュートリアルがあるかどうか知りたいのですが?(私はすでに公式のTensorFlowチュートリアルの半分のように実行しましたが、特定のコスト関数または学習者が特定の問題に使用される理由を実際には説明していません-少なくとも初心者には) いくつか例を挙げます: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) 1つのベクトルの合計が1になるように、両方の入力にsoftmax関数を適用すると思いますが、ロジットとのクロスエントロピーは正確には何ですか?私はそれが値を合計し、クロスエントロピーを計算すると思った...だからメトリック測定?!出力を正規化し、合計して二乗誤差を取ると、これは非常に同じではないでしょうか?さらに、なぜこれがMNISTなどに使用されるのですか(またはさらに難しい問題)?私は10または多分1000のクラスのように分類したい場合は、に関する情報破棄完全に値を合計しません。これは、実際の出力はクラスでしたの? cost = tf.nn.l2_loss(vector) これは何のため?l2の損失はほぼ二乗誤差であると考えましたが、TensorFlowのAPIは、入力が1つのテンソルに過ぎないことを示しています。まったく考えがつかないのですか?! 加えて、クロスエントロピーについてこれをかなり頻繁に見ました: cross_entropy = -tf.reduce_sum(y_train * tf.log(y_output)) ...しかし、なぜこれが使用されるのですか?数学的にクロスエントロピーの損失ではありません: -1/n * sum(y_train * log(y_output) + (1 - y_train) * log(1 - y_output)) (1 - y_train) * log(1 - y_output)ほとんどのTensorFlowの例の一部はどこにありますか?不足していませんか? 回答:この質問は非常に開かれていることは知っていますが、すべての問題/コスト関数が詳細にリストされている10ページほどになるとは思いません。どのコスト関数を使用するかについての簡単な要約(一般的にもTensorFlowでも、私にとっては重要ではありません)と、このトピックに関する説明が必要です。および/または初心者向けのソース;)

11
C(またはC ++)のデータサイエンス
私はR言語プログラマーです。私は、データサイエンティストと見なされているが、CS以外の学問分野から来た人々のグループにも所属しています。 これは、データサイエンティストとしての私の役割ではうまく機能しますが、R他のスクリプト/ Web言語の基本的な知識しか持たずにキャリアを開始することにより、2つの重要な分野でやや不十分だと感じました。 プログラミング理論の確かな知識の欠如。 競争力のあるような、より速く、より広く使われている言語のスキルのレベルの欠如C、C++およびJavaパイプラインとビッグデータの計算を高速化するだけでなく、より容易に高速に開発することができDS /データ製品を作成するために利用することができ、バックエンドスクリプトまたはスタンドアロンアプリケーション。 解決策はもちろん簡単です。プログラミングについて学びましょう。これは、いくつかのクラス(現在はCプログラミング)に登録することで行っていることです。 しかし、今私はアドレスの問題#1、#2上記に始めていることを、私は「自分自身を求めて左てるだけのような言語どのように生きているCとC++、データ・サイエンスのため?」。 たとえば、データを非常にすばやく移動し、ユーザーとうまくやり取りできますが、高度な回帰、機械学習、テキストマイニング、その他の高度な統計操作についてはどうでしょうか。 そう。C仕事をすることができます-高度な統計、ML、AI、およびデータサイエンスの他の分野で利用できるツールは何ですか?またはC、Rスクリプトや他の言語を呼び出すことでプログラミングすることで得られる効率のほとんどを失う必要がありますか? 私はこれまでCで見つけた最高のリソースが呼び出されるライブラリであるシャーク与え、C/ C++サポートベクターマシン、線形回帰(ない非線形および多項プロビットのような他の先進回帰、など)、およびその他の最終候補リストを使用する能力を(素晴らしいが)統計関数。

3
パンダとの相関行列の計算と可視化
いくつかのエントリを持つパンダデータフレームがあり、あるタイプの店舗の収入間の相関関係を計算したいと思います。収入データ、活動エリアの分類(劇場、衣料品店、食品など)およびその他のデータを備えた店舗が多数あります。 新しいデータフレームを作成し、同じカテゴリに属する​​すべての種類の店舗の収入を含む列を挿入しようとしましたが、返されるデータフレームには最初の列のみが入力され、残りはNaNでいっぱいです。私が疲れたコード: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] そうしたいので、.corr()店舗のカテゴリ間の相関行列を与えるために使用できます。 その後、matplolibでマトリックス値(ピアソンの相関を使用するため、-1から1)をプロットする方法を知りたいと思います。

4
データサイエンスの「科学」に関する書籍 [閉まっている]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 データサイエンスの背後にある科学と数学に関する本は何ですか?非常に多くの「データサイエンス」の本がプログラミングチュートリアルであり、データ生成プロセスや統計的推論などには触れないように感じます。私はすでにコーディングできますが、私が苦手としているのは、私がやっていることの背後にある数学/統計/理論です。 本で$ 1000を燃やす準備ができたら(約10本...ため息)、何を買うことができますか? 例:Agrestiのカテゴリデータ分析、経度データの線形混合モデルなど...など


4
単一のイベントが縦断データに影響を与える可能性を分析するには、どの統計モデルを使用する必要がありますか
特定のイベントがいくつかの縦断データに影響を与える可能性を分析するために使用する式、方法、またはモデルを見つけようとしています。Googleで何を検索すればよいかわかりません。 シナリオの例を次に示します。 毎日平均100人のウォークイン顧客がいるビジネスを所有しているイメージ。ある日、あなたは毎日あなたの店に来るウォークイン客の数を増やしたいと決めたので、あなたは店の外で狂気のスタントを引いて注意を引きます。来週には、1日平均125人の顧客がいます。 次の数か月間、あなたは再びビジネスを獲得し、おそらくそれをもう少し長く維持したいと決めたので、他のランダムなことを試して、より多くの顧客を獲得します。残念ながら、あなたは最高のマーケティング担当者ではなく、あなたの戦術のいくつかはほとんどまたはまったく効果がなく、他のものはマイナスの影響さえ持っています。 個々のイベントがウォークイン顧客の数にプラスまたはマイナスの影響を与える可能性を判断するために、どのような方法論を使用できますか?相関関係は必ずしも因果関係とは限りませんが、特定のイベント後のクライアントのビジネスにおける日々の歩行の増加または減少の可能性を判断するためにどのような方法を使用できますか? ウォークイン顧客の数を増やしようとする試みの間に相関関係があるかどうかを分析することに興味はありませんが、他のすべてとは独立した単一のイベントが影響を与えたかどうかは分析しません。 この例はかなり不自然で単純化されているため、私が使用している実際のデータについて簡単に説明します。 特定のマーケティング代理店が新しいコンテンツを公開したり、ソーシャルメディアキャンペーンを実行したりする際に、クライアントのウェブサイトに与える影響を特定しようとしています。各クライアントには、5ページから100万をはるかに超えるサイズのWebサイトがあります。過去5年間にわたって、各代理店は、クライアントごとに、行われた作業の種類、影響を受けたWebサイト上のWebページの数、費やされた時間数など、すべての作業に注釈を付けました。 データウェアハウスにアセンブルした(スター/スノーフレークスキーマの束に配置した)上記のデータを使用して、1つの作業(時間内の1つのイベント)が影響を与えた可能性を判断する必要があります特定の作業によって影響を受ける、すべてまたはすべてのページに到達するトラフィック。Webサイトにある40種類のコンテンツのモデルを作成しました。これらのモデルは、そのコンテンツタイプのページが発売日から現在までに経験する可能性のある典型的なトラフィックパターンを説明しています。適切なモデルに関連して正規化された、特定の作業の結果として特定のページが受信した増加または減少した訪問者の最高数と最低数を判断する必要があります。 私は基本的なデータ分析(線形および重回帰、相関など)の経験がありますが、この問題を解決するためのアプローチ方法に困惑しています。過去に私は通常、特定の軸について複数の測定値を使用してデータを分析しました(たとえば、温度対渇き対動物、および動物全体で温帯の増加に伴う渇きへの影響を決定しました)、私は上記の影響を分析しようとしています非線形であるが予測可能な(または少なくともモデル化可能な)縦断的データセットのある時点での単一イベントの 私は困惑しています:( ヘルプ、ヒント、ポインタ、推奨事項、または指示は非常に役立ち、私は永遠に感謝します!

4
重要な属性を指定する方法は?
多くのデータソースで構成される、緩やかに構造化されたデータのセット(Webテーブル/リンクされたオープンデータなど)を想定します。データが後に続く共通のスキーマはなく、各ソースは同義語属性を使用して値を記述することができます(例:「国籍」対「bornIn」)。 私の目標は、それらが記述するエンティティを何らかの形で「定義」する「重要な」属性を見つけることです。そのため、そのような属性に同じ値が見つかった場合、2つの説明が同じエンティティ(たとえば、同じ人物)についてである可能性が最も高いことがわかります。 たとえば、属性「lastName」は、属性「nationality」よりも差別的です。 他のどの属性よりも重要な属性を(統計的に)見つけることができますか? 単純な解決策は、各属性の値の平均IDFを取得し、これを属性の「重要」要素にすることです。同様のアプローチは、各属性に表示される個別の値の数をカウントすることです。 機械学習で機能という用語または属性選択を見てきましたが、残りの属性を破棄したくはありません。最も重要な属性に高い重みを付けたいだけです。

5
機械学習の初心者向け数学ブック
私は統計や高度な数学のバックグラウンドを持たないコンピューターサイエンスエンジニアです。 私は、ラシュカとミルジャリリの著書「Python Machine Learning」を勉強していますが、機械学習の数学を理解しようとしたとき、友人が私に示唆する統計学習の素晴らしい本を理解することができませんでした。 機械学習の簡単な統計と数学の本を知っていますか?そうでない場合、どのように移動する必要がありますか?

2
高次元データ:知っておくと便利なテクニックは何ですか?
次元のさまざまな呪いにより、多くの一般的な予測手法の精度と速度は、高次元データでは低下します。高次元のデータを効果的に処理するのに役立つ最も便利なテクニック/トリック/ヒューリスティックは何ですか?例えば、 特定の統計/モデリング手法は、高次元のデータセットでうまく機能しますか? 特定(距離の代替概念を定義する)またはカーネル(内積の代替概念を定義する)を使用して、高次元データの予測モデルのパフォーマンスを改善できますか? 高次元データの次元削減の最も有用な手法は何ですか?

3
p値はいつ欺くのですか?
p値が統計的有意性を判断する最善の方法ではない場合、注意すべきデータ条件は何ですか?このカテゴリに分類される特定の問題タイプはありますか?

1
ランダムフォレストを使用してサンプリングするフィーチャの数
Wikipediaのページ引用符「統計的学習の要素は、」言います: 通常、特徴を持つ分類問題の 場合、各分割で特徴が使用されます。ppp⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 私はこれがかなり良い教育された推測であり、おそらく経験的証拠によって確認されたことを理解していますが、平方根を選ぶ他の理由はありますか?そこで起こっている統計現象はありますか? これは何らかの形でエラーの分散を減らすのに役立ちますか? これは回帰と分類で同じですか?

2
独立したt検定を使用して、正規分布ではないA / Bテスト結果の分析
A / Bテストの結果セット(1つのコントロールグループ、1つの機能グループ)がありますが、正規分布に適合しません。実際、分布はランダウ分布により似ています。 独立したt検定では、サンプルが少なくともほぼ正規分布している必要があるため、有効な検定の有効な方法としてt検定を使用することはできません。 しかし、私の質問は次のとおりです 。どの時点で、t検定は有意性検定の良い方法ではないと言うことができますか? または、別の言い方をすれば、データセットのみが与えられた場合に、t検定のp値の信頼性をどのように修飾できますか?

6
ベストプラクティスを理解するデータセット
私はデータマイニングのCSマスター学生です。私のスーパーバイザーは、分類器を実行したり、データセットを使用したりする前に、データを完全に理解し、データがクリーンで正しいことを確認する必要があると言いました。 私の質問: データセットを理解するためのベストプラクティスは何ですか(数値属性と名義属性を持つ高次元)? データセットがクリーンであることを確認するためのプラクティス? データセットの値が間違っていないことを確認する方法

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.