データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

2
多数の機能を備えたロジスティック回帰を実行するにはどうすればよいですか?
330のサンプルと各サンプルに27の特徴を持つデータセットがあり、ロジスティック回帰のバイナリクラスの問題があります。 「10の場合のルール」によると、各機能を含めるには少なくとも10のイベントが必要です。しかし、私は20%の陽性クラスと80%の陰​​性クラスの不均衡なデータセットを持っています。 その結果、イベントは70件になり、ロジスティックモデルに含めることができる機能は約7/8だけになります。 すべての機能を予測変数として評価したいのですが、機能を手動で選択したくありません。 それであなたは何を提案しますか?7つの機能をすべて組み合わせる必要がありますか?アソシエーションモデルで各機能を単独で評価し、最終的なモデルに最適な機能のみを選択する必要がありますか? カテゴリカルな機能と継続的な機能の扱いについても知りたいのですが、混在させることはできますか?カテゴリー[0-1]と連続[0-100]がある場合、正規化する必要がありますか? 私は現在Pythonを使用しています。 あなたの助けをありがとう!

4
関数が滑らかな場合、なぜ勾配降下を高速化するのですか?
私は「Scikit-LearnとTensorFlowを使用した実践的な機械学習」というタイトルの本を読み、第11章で、ELU(Exponential ReLU)の説明について次のように説明しています。 第3に、関数はz = 0付近を含むすべての場所で滑らかであり、z = 0の左と右にそれほど跳ね返らないため、勾配降下の高速化に役立ちます。 z上のグラフのX軸を意味します。z < 0ラインには曲線があり、その領域では微分はもはやに等しくないため、微分は滑らかであることを理解してい0ます。 しかし、関数が「z = 0付近を含め、どこでも滑らか」である場合、勾配降下が高速になるのはなぜですか?

1
英語の文章の複雑さを判断するにはどうすればよいですか?
私は人々が第二言語として英語を学ぶのを助けるアプリに取り組んでいます。文章が追加のコンテキストを提供することで言語の学習に役立つことを検証しました。60人の生徒の教室で小規模な調査を実施しました。 私はWikipediaから10万以上の文をさまざまな英語の単語(Barronsの800の単語と1000の最も一般的な英語の単語を含む)についてマイニングしました データ全体はhttps://buildmyvocab.inで入手できます コンテンツの品質を維持するために、理解しにくい可能性があるため、160文字を超える文章は除外しました。 次のステップとして、このコンテンツを理解しやすい順に並べ替えるプロセスを自動化できるようにしたいと考えています。私自身は英語を母国語としない人です。簡単な文章と難しい文章を区別するために使用できる機能を知りたい。 また、これは可能だと思いますか?

2
word2vecの特徴マトリックスは何ですか?
私はニューラルネットワークの初心者で、現在はword2vecモデルを探索しています。しかし、機能マトリックスが正確に何であるかを理解するのに苦労しています。 最初の行列が特定の単語のワンホットエンコーディングベクトルであることは理解できますが、2番目の行列は何を意味していますか?より具体的には、これらの各値(つまり、17、24、1など)はどういう意味ですか?

3
DataFrameで連続するゼロを見つけ、条件付き置換を行います
私はこのようなデータセットを持っています: サンプルデータフレーム import pandas as pd df = pd.DataFrame({ 'names': ['A','B','C','D','E','F','G','H','I','J','K','L'], 'col1': [0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0], 'col2': [0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0]}) 私はいくつかの交換したい0のではcol1とcol2と1さんが、それに置き換わるものではありませ0「3以上の場合だ0sが同じ列で連続しています」。これはパンダでどのように行うことができますか? 元のデータセット: names col1 col2 A 0 0 B 1 0 C 0 …

1
勾配ブースティングツリー:「変数が多いほど良い」?
XGBoost のチュートリアルから、各ツリーが成長すると、すべての変数がスキャンされてノードが分割され、最大のゲイン分割を持つ変数が選択されると思います。だから私の質問は、いくつかのノイズ変数をデータセットに追加すると、これらのノイズ変数は変数の選択に影響しますか?私の論理では、これらのノイズ変数は最大ゲイン分割をまったく提供しないため、それらが選択されることはなく、ツリーの成長に影響を与えません。 答えが「はい」の場合、「変数が多いほどXGBoostに適している」というのは本当ですか?トレーニング時間は考慮しません。 また、答えが「はい」の場合、「モデルから重要でない変数を除外する必要がない」というのは本当です。 ありがとうございました!

3
画像からの教師なし特徴抽出にGANを使用する方法
2つのネットワーク(生成的および識別的)が互いに競合する間、GANがどのように機能するかを理解しました。私はDCGAN(たたみ込み弁別器とたたみ込みジェネレーターを備えたGAN)を構築しました。これにより、MNISTデータセットと同様の手書き数字が正常に生成されます。 画像から特徴を抽出するためのGANのアプリケーションについては、たくさん読んだことがあります。トレーニングされたGANモデル(MNISTデータセット上)を使用して、MNIST手書きのdigist画像から特徴を抽出するにはどうすればよいですか?


1
異なるPythonカーネル間でDataFrameをリロードしないでください
変数(大きなテーブル/データフレーム)をメモリに保持し、複数のipythonノートブックで共有する方法はありますか? 私はMATLABの永続変数に概念的に似ている何かを探しています。そこで、複数の個別のエディター(ノートブック)からカスタム関数/ライブラリーを呼び出し、その外部関数に結果(または大きなテーブル)をキャッシュさせることができます。 頻繁に使用するテーブル(ノートブックから呼び出されるカスタムライブラリを介して読み込まれる)の再読み込みは避けたいと思います。これは、新しい分析を開始するたびに約2〜3分かかるためです。

3
ジュピターノートブックの1つのセルをエクスポートする方法は?
私は現在、Jupyterノートブックで作業/プロトタイピングしています。スタンドアロンのiPythonシェルでコードの一部を実行したい。 とりあえず、iPythonコード(ファイル->ダウンロード形式)をエクスポートし、それをiPythonで実行します(%runを使用)。動作しますが、1つのセルまたはセルのセットのみをエクスポートします。そのため、Jupyterノートブックで変更したものだけを実行できます。
10 ipython  jupyter 

3
最適な通話時間を予測する
カリフォルニア州のさまざまな都市にいる顧客のセット、各顧客の呼び出し時間、および呼び出しのステータス(顧客が呼び出しに応答する場合はTrue、応答しない場合はFalse)を含むデータセットがあります。 電話に出る確率が高くなるように、将来の顧客を呼び込む適切な時期を見つけなければなりません。それで、この問題の最良の戦略は何ですか?時間(0、1、2、... 23)がクラスである分類問題と見なす必要がありますか?それとも、時間が連続変数である回帰タスクと見なす必要がありますか?電話に出る確率が高いことを確認するにはどうすればよいですか? 任意の助けいただければ幸いです。同様の問題を紹介していただければ幸いです。 以下はデータのスナップショットです。

2
ニューラルネットワークとディシジョンフォレストのデータを正規化する方法
20000サンプルのデータセットがあり、それぞれに12の異なる機能があります。各サンプルは、カテゴリ0または1のいずれかにあります。ニューラルネットワークと決定フォレストをトレーニングしてサンプルを分類し、結果と両方の手法を比較できるようにします。 最初に遭遇したのは、データの適切な正規化です。一つの特徴は、範囲内にある、で別の[ 30 、40 ]、ほとんどが、私は異なるソースに読み取るように、入力データの適切な正規化を時々値8と7を取ることが一つの特徴がありますニューラルネットワークにとって重要です。私が知ったように、データを正規化する多くの可能な方法があります、例えば:[ 0 、106][0、106][0,10^6][ 30 、40 ][30、40][30,40] ミニマックス正規化:入力範囲は直線区間に変換され(または[ - 1 、1 ]、その問題していますか?)[ 0 、1 ][0、1][0,1][- 1 、1 ][−1、1][-1,1] Zスコアの正規化:データは平均がゼロで分散が単位に変換されます: yん E W= yo l d−意味するVar−−−√yんew=yold−平均Vary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} どの正規化を選択する必要がありますか?意思決定フォレストにも正規化が必要ですか?Zスコアの正規化では、テストデータのさまざまな機能が同じ範囲内にありません。これは問題でしょうか?すべての機能を同じアルゴリズムで正規化して、すべての機能にMin-Maxを使用するか、すべての機能にZスコアを使用するかを決定する必要がありますか? データがマップされる組み合わせがあるまた、ゼロ平均(データの非線形変換を意味し、したがって分散の変化と入力データの他の特徴であろう)を有しているが。[ - 1 、1 ][−1、1][-1,1] これらの質問に答える参考文献が見つからないので、少し迷っています。


3
同一の値をグループ化し、Pythonでその頻度を数える方法は?
Pythonを使用した分析の初心者なので、穏やかにしてください:-)この質問に対する答えが見つかりませんでした。別の形式ですでに他の場所で回答されている場合は、お詫びします。 小売店のトランザクションデータのデータセットがあります。変数と説明は次のとおりです。 section:ストアのセクション、str。 prod_name:製品の名前、str; 領収書:請求書の番号、int; レジ係、レジ係の番号、int; コスト:アイテムのコスト、フロート。 MM / DD / YY形式の日付、str; 時間、形式HH:MM:SS、str; 領収書は、1回のトランザクションで購入されたすべての製品に対して同じ値を持つため、1回のトランザクションで行われた購入の平均数を決定するために使用できます。 これについて最善の方法は何ですか?基本的groupby()には、ヒストグラムを作成できるように、独自の同一の出現ごとに受信変数をグループ化するために使用したいと思います。 Pandas DataFrameでデータを操作する。 編集: 以下は、ヘッダー付きのサンプルデータです(prod_nameは実際には16進数です)。 section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 このサンプルセットから、領収書102857の2つのオカレンス(1つのトランザクションで2つのアイテムを購入したため)と、領収書102856およびレシート102858のそれぞれ1つのオカレンスを示す領収書のヒストグラムが予想されます。注:データセットは巨大ではありません。 100万行。

1
方法:ディープニューラルネットワークの重みの初期化
難しい学習タスク(高次元、固有のデータの複雑さなど)が与えられると、ディープニューラルネットワークはトレーニングが難しくなります。多くの問題を緩和するには、次のようにします。 ハンドピック品質データを正規化する 別のトレーニングアルゴリズムを選択する(たとえば、勾配降下の代わりにRMSprop) 勾配の急なコスト関数を選択します(例:MSEの代わりにクロスエントロピー) 異なるネットワーク構造を使用する(例:フィードフォワードではなくたたみ込み層) より良い重みを初期化する賢い方法があると聞いたことがあります。例えば、あなたはより良い等級を選ぶことができます:Glorot and Bengio(2010) シグモイド単位の場合: Uniform(-r、r)をサンプリングしますr = 6NI N+ NoU T−−−−−−√r=6N私ん+Noあなたtr = \sqrt{\frac{6}{N_{in} + N_{out}}} または双曲線正接単位: Uniform(-r、r)をサンプリングしますr = 4 6NI N+ NO U T−−−−−−√r=46N私ん+Noあなたtr =4 \sqrt{\frac{6}{N_{in} + N_{out}}} 重みをより適切に初期化する一貫した方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.