タグ付けされた質問 「python」

Pythonは、機械学習で一般的に使用されるプログラミング言語です。このタグは、(a)質問の重要な部分または予想される回答として「Python」が含まれる、* on-topic *の質問に使用します。(b)「Python」の使い方について「*」*ではありません。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
ケラスのSGDでミニバッチサイズを設定する方法
私はケラスが初めてで、あなたの助けが必要です。 私はケラスでニューラルネットをトレーニングしており、損失関数は二乗差b / wネットの出力とターゲット値です。 勾配降下法を使用してこれを最適化したいと思います。ネット上のリンクをたどると、一般的に使用される3種類の勾配降下法があることがわかりました。 単一サンプル勾配降下:ここで、勾配は反復ごとに1つのサンプルのみから計算されます->勾配はノイズが多い場合があります。 バッチ勾配降下:ここで、勾配はデータセット内のすべてのサンプルから計算された勾配の平均です->勾配はより一般的ですが、巨大なデータセットには扱いにくいです。 ミニバッチ勾配降下:バッチGDに似ています。データセット全体を使用する代わりに、いくつかのサンプル(batch_sizeによって決定される)のみを使用して、すべての反復で勾配を計算します->あまりノイズが多くなく、計算上扱いにくい->両方の長所。 質問: ケラスでミニバッチ勾配降下法を実行したいと思います。これどうやってするの?SGDオプティマイザーを使用する必要がありますか? SGDを使用する場合、batch_sizeを設定するにはどうすればよいですか?batch_sizeを設定するためのSGD関数のパラメーターがないようです。 optimizer = keras.optimizers.SGD(lr=0.01, decay=0.1, momentum=0.1, nesterov=False) Kerasのmodel.fit()にbatch_sizeパラメータがあります。 history = model.fit(x, y, nb_epoch=num_epochs, batch_size=20, verbose=0, validation_split=0.1) これはミニバッチ勾配降下法のバッチサイズと同じですか?そうでない場合、入力のバッチでトレーニングするとはどういう意味ですか?「batch_size」という意味ではありませんか。のスレッドが並列に実行され、モデルの重みを並列に更新しますか? それが役立つ場合は、これまでに書いたpythonコードスニペットを次に示します。


1
GWASデータセットのPCAプロジェクションで、子供たちはどのようにして親をまとめることができますか?
IID座標各10,000次元空間で20個のランダムな点を取るN(0,1)N(0,1)\mathcal N(0,1)。それらを10個のペア(「カップル」)に分割し、各ペア(「子」)の平均をデータセットに追加します。次に、結果の30ポイントでPCAを実行し、PC1とPC2をプロットします。 注目すべきことが起こります。それぞれの「家族」は、すべてが互いに近接する3組の点を形成します。もちろん、すべての子供は元の10,000次元の空間ではそれぞれの親に近いので、PCA空間でも親に近いと期待できます。ただし、PCA空間では、親の各ペアは互いに近接しています。ただし、元の空間ではそれらは単なるランダムなポイントです。 PCAプロジェクションでは、子供はどうやって親をまとめるのですか? \quad\quad\quad\quad これは、子供たちが親よりも規範が低いという事実に何らかの影響を受けていることを心配するかもしれません。これは問題ではないようです:(x + y )/ √として子供を生成する場合(x+y)/2–√(x+y)/2(x+y)/\sqrt{2}xxxyyy \quad\quad\quad\quad この質問はおもちゃのデータセットを使用していますが、それは、私がゲノム全体の関連研究(GWAS)からの実世界のデータセットで観察した、ディメンションが単一ヌクレオチドの多型(SNP)であることに動機付けられています。このデータセットには、母・父・子のトリオが含まれていました。 コード %matplotlib notebook import numpy as np import matplotlib.pyplot as plt np.random.seed(1) def generate_families(n = 10, p = 10000, divide_by = 2): X1 = np.random.randn(n,p) # mothers X2 = np.random.randn(n,p) # fathers X3 = (X1+X2)/divide_by # children X …

2
調整されたランドインデックスと調整された相互情報量
クラスタリングのパフォーマンスを評価しようとしています。メトリックに関するスキスチ学習ドキュメントを読んでいました。ARIとAMIの違いがわかりません。彼らは2つの異なる方法で同じことをしているように私には思えます。 ドキュメントからの引用: グラウンドトゥルースクラスの割り当てlabels_trueと、同じサンプルlabels_predのクラスタリングアルゴリズムの割り当てに関する知識がある場合、調整されたRandインデックスは、順列を無視し、偶然に正規化して、2つの割り当ての類似性を測定する関数です。 対 グラウンドトゥルースクラスの割り当てlabels_trueと、同じサンプルlabels_predのクラスタリングアルゴリズムの割り当てに関する知識がある場合、相互情報は、順列を無視して2つの割り当ての一致を測定する関数です... AMIはより最近提案され、正規化されています。機会。 クラスタリング評価で両方を使用する必要がありますか、それとも冗長ですか?

1
数学理論の「傾斜均一分布」から乱数を生成する
ある目的のために、「傾斜均一」分布から乱数(データ)を生成する必要があります。この分布の「勾配」は、ある程度の間隔で変化する可能性があり、その場合、私の分布は勾配に基づいて均一から三角形に変化するはずです。これが私の派生です: それを簡単にして、からまでのデータを生成しましょう(青、赤は均一な分布です)。青い線の確率密度関数を取得するには、その線の方程式が必要です。したがって:000BBB f(x)=tg(φ)x+Y(0)f(x)=tg(φ)x+Y(0)f(x) = tg(\varphi)x + Y(0) 以降(写真): tg(φ)Y(0)=1/B−Y(0)B/2=1B−tg(φ)B2tg(φ)=1/B−Y(0)B/2Y(0)=1B−tg(φ)B2\begin{align} tg(\varphi) &= \frac{1/B - Y(0)}{B/2} \\[5pt] Y(0) &= \frac{1}{B} - tg(\varphi)\frac{B}{2} \end{align} 私たちはそれを持っています: f(x)=tg(φ)x+(1B−tg(φ)B2)f(x)=tg(φ)x+(1B−tg(φ)B2)f(x) = tg(\varphi)x + \left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) 以来、 PDFであり、CDFに等しいです。f(x)f(x)f(x) F(x)=tg(φ)x22+x(1B−tg(φ)B2)F(x)=tg(φ)x22+x(1B−tg(φ)B2)F(x) = \frac{tg(\varphi)x^2}{2} + x\left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) 次に、データジェネレータを作成します。アイデアは私が修正しますならばということ、である、乱数 Iから番号を取得します場合に計算することができます説明するように一様分布からここに。私は固定と私の分布から100個の乱数が必要な場合はこのように、、その後、いずれかの一様分布からがあり「傾斜配分」からは、およびのように計算することができます。φ,Bφ,B\varphi, Bxxx(0,1)(0,1)(0,1)φ,Bφ,B\varphi, Btitit_i(0,1)(0,1)(0,1)xixix_ixxx tg(φ)x2i2+xi(1B−tg(φ)B2)−ti=0tg(φ)xi22+xi(1B−tg(φ)B2)−ti=0\frac{tg(\varphi)x_i^2}{2} + x_i\left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) …

3
Pythonによる時系列異常検出
いくつかの時系列データセットに異常検出を実装する必要があります。私はこれまでにこれをやったことがなく、いくつかのアドバイスを期待していました。私はpythonに非常に慣れているので、ソリューションを実装することを好みます(私のコードのほとんどは、私の作業の他の部分ではpythonです)。 データの説明:過去2年間(つまり24-36期間のみ)に収集され始めたばかりの月次時系列データです。基本的に、複数のクライアントについて月ごとに監視されるいくつかのメトリックがあります。 time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... これが私が考えていることです:データをデータフレーム(パンダ)に取り込み、各クライアント/メトリックのペアのローリング6か月の平均を計算します。現在の期間の値が6か月平均に基づくしきい値を超える場合は、フラグを立てます。問題はかなり単純なようです。しっかりとしたアプローチを取っていることを確認したいだけです。 このアイデアを少し具体化するためのアドバイスをいただければ幸いです。質問が少し抽象的であることを知っています。それをお詫びします。

2
セグメント化されたファネルをどのように視覚化しますか?(そして、Pythonでそれを行うことができますか?)
セグメント化されたマーケティング目標到達プロセスを提示するMozのこの投稿を見ました。 この種のことは私の仕事にかなりの価値があるでしょう。このようなセグメント化された目標到達プロセスを表示するために、生データを視覚化する方法はわかりません。考えは、セールスリードはさまざまなソース(データの分割に使用)から来ており、取引に変換するまでにいくつかの段階を経ることです。各ステージから別のステージへのドロップオフ。各スライスの幅は、それぞれのリードの絶対数によって決まります。[ 編集:参照用にここで使用されている画像は、各スライスの右側に指定されている数値に関して誤解を招くものであることに注意してください。スライスの幅と数の間に関係はないようです。画像は、セグメント化されたファネルのデザインへの参照としてのみ取られるべきです。 とにかく、それを視覚化する方法はありますか?可能であれば、Pythonでこれを行う方法が欲しいです。 これは、誰かが必要な場合のダミーデータを含むGoogleドキュメントです... あなたの洞察を楽しみにしています。ありがとう!

1
scikit Learnの慣性公式のクラスタリング
パンダとscikit学習を使用して、Pythonでkmeansクラスタリングをコーディングしたいと思います。良いkを選択するために、Tibshirani and al 2001(pdf)からのギャップ統計をコード化したいと思います。 すべての距離計算を再コーディングする必要なしに、scikitの惰性結果を使用してギャップ統計式を適応できるかどうか知りたいのですが。 高レベル距離関数を使用してギャップ統計を再コーディングする簡単な方法をscikitで使用されている慣性公式を知っている人はいますか?

2
Rでような回帰を適合させる方法は?
測定された変数が離散正整数(カウント)であるいくつかの時系列データがあります。時間の経過とともに上昇傾向があるかどうかをテストしたいと思います。独立変数(x)の範囲は0〜500、従属変数(y)の範囲は0〜8です。 y = floor(a*x + b)通常の最小二乗(OLS)を使用してフォームの回帰を当てはめることで、これに答えると思いました。 R(またはPython)を使用してこれを行うにはどうすればよいですか?そのための既存のパッケージはありますか、それとも自分のアルゴリズムを記述した方がよいですか? PS:これは理想的な手法ではないことはわかっていますが、実際に理解できる比較的単純な分析を行う必要があります。私の背景は数学ではなく生物学です。測定された変数の誤差、および時間の経過に伴う測定値の独立性に関する仮定に違反していることを知っています。
9 r  regression  python 

2
細胞シグナルデータの時系列のピークの評価
細胞シグナル測定における応答の存在を測定しています。最初に行ったのは、データの時系列に平滑化アルゴリズム(Hanning)を適用してから、ピークを検出することでした。私が得るものはこれです: 応答の検出を「ええ、継続的な低下の上昇を見る」よりも客観的にしたいのであれば、どのアプローチが最適でしょうか?線形回帰によって決定されたベースラインからのピークの距離を取得することですか? (私はpythonコーダーであり、統計についてほとんど理解していません) ありがとうございました

5
正規分布の百分位数の計算
このウィキペディアのページをご覧ください: http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Agresti-Coull_Interval Agresti-Coull Intervalを取得するには、と呼ばれる正規分布のパーセンタイルを計算する必要があります。パーセンタイルを計算するにはどうすればよいですか?Wolfram MathematicaやPython / NumPy / SciPyでこれを行う既成の関数はありますか?zzz

2
SVMを最適化して、バイナリ分類での偽陰性を回避
私はScikit学習を使用してSVMバイナリ分類器をトレーニングしています。 私の問題の性質上、私は偽陰性を避ける必要があります。何も無料ではないので、偽陰性の数を減らすために偽陽性率を高くしても大丈夫です。どうすればそれができますか(理想的にはScikit学習で) つまり、SVM分類器を使用して偽陰性を最小限に抑えるにはどうすればよいでしょうか。偽陰性よりも偽陽性を優先するためにハイパーパラメータを調整する方法はありますか?

2
scikit-learnでカテゴリ変数の相互作用を準備する方法は?
scikit-learnでフィッティングする前に、カテゴリ特徴の相互作用を準備する最良の方法は何ですか? とstatsmodels私はRスタイルで便利に言うことができましたsmf.ols(formula = 'depvar ~ C(var1)*C(var2)', data=df).fit()(とスタタで同じですregress depvar i.var1##i.var2)。 sklearn.preprocessing.PolynomialFeatures(v0.15では、現在開発中)カテゴリ変数を使用できますか?

2
アイデンティティリンク機能はガンマファミリーのドメインを尊重していませんか?
アイデンティティリンクでガンマ一般化線形モデル(GLM)を使用しています。独立変数は、特定のグループの報酬です。 Pythonのstatsmodelsの概要で、IDリンク関数に関する警告("DomainWarning:IDリンク関数はガンマファミリのドメインを考慮していません。")がわかりません。背景:統計学における基本的な正式な教育のみであり、ロジスティック回帰を超えるGLMの経験はほとんどありません。 関連するPythonコードは次のとおりです。 model=statsmodels.genmod.generalized_linear_model.GLM(target, reducedFeatures, family=sm.families.Gamma(link=sm.families.links.identity)) results=model.fit() print(results.summary()) 出力は次のとおりです。 私の質問はこれです:アイデンティティリンクはどのようにしてガンマファミリのドメインを尊重しませんか?ガンマファミリーのドメインは0から無限大ですか?また、IDリンクはほとんど何も実行していない、つまり独立変数をそのまま維持し、それらを従属変数との関係を変換しないという印象も受けました。うやうやしいリンク機能のように聞こえます;) 修正してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.