データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

5
文の類似性予測
私は次の問題を解決しようとしています:データセットとして一連の文があり、新しい文を入力して、新しい文がデータセット内で最も類似している文を見つけたいです。例は次のようになります。 新しい文:「I opened a new mailbox」 データセットに基づいた予測: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% コサインの類似性は、tf-idfと組み合わせたこれらの種類の問題を解決するために使用できることを読みました(およびRNNは基本的な方法に大きな改善をもたらすべきではありません)、またはword2vecも同様の問題に使用されます。これらもこの特定のケースで実際に使用可能ですか?これを解決する他のテクニック/アルゴリズムはありますか(できればPythonとSKLearnを使用しますが、TensorFlowについても学ぶことができます)?

2
useragent、ip、session_idによる一意の訪問者のクラスタリング
フォームのWebサイトアクセスデータsession_id, ip, user_agent、およびオプションでタイムスタンプを使用して、以下の条件に従って、セッションを一意の訪問者にどのようにクラスター化するのが最適ですか? session_id:は、すべての新しい訪問者に与えられるIDです。有効期限はありませんが、ユーザーがCookieを受け入れない/ Cookieをクリアする/ブラウザーを変更する/デバイスを変更すると、ユーザーは認識されなくなります IP 異なるユーザー間で共有することができ(無料のwi-fiカフェ、またはISPがIPを再割り当てすることを想像してください)、多くの場合、少なくとも2人の自宅と職場があります。 User_agentブラウザとOSのバージョンであり、デバイスを区別できます。たとえば、ユーザーは電話とラップトップの両方を使用する可能性がありますが、windows + appleラップトップを使用する可能性は低いです。同じセッションIDに複数のユーザーエージェントが存在することはほとんどありません。 データはフィドルのように見えるかもしれません:http ://sqlfiddle.com/#!2/ c4de40/1 もちろん、私たちは仮定について話していますが、それは可能な限り現実に近づくことです。たとえば、セッションIDが異なる限られた時間枠で同じipとuseragentに遭遇した場合、エッジケースの例外を除いて、それは同じユーザーであるという公正な仮定になります。 編集:問題が解決される言語は無関係であり、それは主に実装ではなくロジックに関するものです。擬似コードは問題ありません。 編集:フィドルの遅い性質のため、代わりにmysqlを読む/実行することができます: select session_id, floor(rand()*256*256*256*256) as ip_num , floor(rand()*1000) as user_agent_id from (select 1+a.nr+10*b.nr as session_id, ceil(rand()*3) as nr from (select 1 as nr union all select 2 union all select 3 union all select 4 …
15 clustering 

4
パンダは現在data.tableよりも高速ですか?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping data.tableベンチマークは2014年以降更新されていません。それがどこPandasよりも速いと聞いたことがありdata.tableます。これは本当ですか?誰もベンチマークをしましたか?Pythonを使ったことがありませんpandasが、勝てるなら切り替えを検討しdata.tableますか?
15 python  r  pandas  data  data.table 

2
特定のトピックに関する知識のないデータサイエンスは、キャリアとして追求する価値がありますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、 Data Science Stack Exchangeで話題になるようにします。 5年前に閉鎖されました。 最近誰かと会話をし、データ分析に興味があり、必要なスキルとツールを習得するつもりだと話しました。彼らは私に、ツールを学びスキルを構築するのは素晴らしいことですが、特定の分野の専門知識がない限り、そうすることにはほとんど意味がないと示唆しました。 彼らは基本的に、いくつかの木製の箱を建てることができ、より良いもの(キャビン、食器棚など)を建てることができるツールの山を持つビルダーのようになりますが、特定の分野の知識がなければ決して特定の製品のために人々が訪れるビルダーになります。 誰もこれを見つけましたか、これをどうするかについての入力がありますか?物事のデータサイエンスの側面を学び、専門化するためだけに新しい分野を学ばなければならないのが本当だと思われます。

4
XGBoost出力は極端になる傾向があります
私は現在リスク予測にXGBoostを使用していますが、バイナリ分類部門ではうまく機能しているようですが、確率出力はかなりずれています。つまり、観測値の特徴の値を少しだけ変更すると、確率が高くなります。 0.5から0.99への出力ジャンプ。 0.6〜0.8の範囲の出力はほとんど見えません。すべての場合において、確率は0.99または1未満です。 Platt ScalingやLogistic Correctionなどのトレーニング後のキャリブレーション方法は知っていますが、XGBoostトレーニングプロセスで調整できることがあるかどうか疑問に思っていました。 私はFFIを使用してさまざまな言語からXGBoostを呼び出します。そのため、他のキャリブレーションライブラリを導入せずにこの問題を修正できると便利です。たとえば、評価メトリックをAUCからログ損失に変更します。

3
特徴とターゲット変数の相関関係を確認するにはどうすればよいですか?
Regressionモデルを構築しようとしていますが、機能とターゲット変数の間に相関関係があるかどうかを確認する方法を探していますか? これは私のサンプルです dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849 1 LP001003 Male Yes 1 Graduate No 4583 2 LP001005 Male Yes 0 Graduate Yes 3000 3 LP001006 Male Yes 0 Not Graduate No 2583 4 LP001008 Male No 0 Graduate No …

3
GAN(生成的敵対ネットワーク)もテキストに対して可能ですか?
GAN-生成的敵対ネットワーク-は画像だけに適していますか、それともテキストにも使用できますか? 同様に、ネットワークをトレーニングして、要約から意味のあるテキストを生成します。 UPD-GANの発明者イアン・グッドフェローからの引用。 GANはNLPに適用されていません。GANは実数値のデータに対してのみ定義されているためです。(2016)ソース それは根本的に欠陥のあるアイデアではありません。以下の少なくとも1つを実行できるはずです...(2017)source
14 gan 

1
PyTorch vs. Tensorflow Eager
Googleは最近、Tensorflowのナイトリービルドに含まれているEagerモード、Tensorflow計算機能にアクセスするための必須APIです。 Tensorflow EagerはPyTorchと比較してどうですか? 比較に影響を与える可能性のある側面は次のとおりです。 静的グラフのレガシー(ノード内の名前など)によるeagerの長所と短所。 どちらにも固有の制限があり、もう一方にはありません。 それらの1つが改善が必要な領域(機能の完全性、計算の最適化など)。 生態系の違い(例:テンソルボード?)。 注1:Yaroslav Bulatovは熱心な素晴らしい機能についてのレビューを書きました。 注2:前の質問で、PyTorchとTensorflow Foldの比較をリクエストしました。当時、FoldはGoogleの支援のおかげでPyTorchに直面しているように思えました。私は非常に間違っていました。最終的には、Google自体がEoldを支持してFoldを放棄しました。これは、通常のテンソルフローAPIの固有の制限が原因で、Foldがあまり親しみにならず、その採用が制限されていたことがわかります。

4
Generative Adversarial Networksで巨大なデータセットを生成できますか
私は、トレーニングのためにディープニューラルネットワークに入力するのに十分なデータセット(画像)を見つけることができなかった問題を扱っています。 私は、スコット・リードらによって発行された論文「Generative Adversarial Text to Image Synthesis」にとても触発されました。生成的敵対ネットワークについて。 私はそれを知りたいのですが、利用可能な小さなデータセットをGANモデルへの入力として使用し、より深いネットワークモデルに対処するためにはるかに大きなデータセットを生成できますか? それで十分でしょうか?

1
層別サンプリングは必要ですか(ランダムフォレスト、Python)?
Pythonを使用して、不均衡なデータセットでランダムフォレストモデルを実行します(ターゲット変数はバイナリクラスでした)。トレーニングデータセットとテストデータセットを分割するとき、階層化されたサンプリング(表示されているコードなど)を使用するかどうかに苦労しました。これまでのところ、プロジェクトで層別化されたケースがより高いモデルのパフォーマンスにつながることを観察しました。しかし、現在のデータセットとターゲットクラスの分布が非常に異なる可能性が高い新しいケースを予測するためにモデルを使用すると思います。そこで、私はこの制約を緩め、階層化されていないスプリットを使用する傾向がありました。誰でもこの点を明確にするためにアドバイスできますか? train,test=train_test_split(myDataset, test_size=0.25, stratify=y)


4
住所のあいまい一致を行う方法
住所の形式が異なる場合、または住所の1つが間違っている場合の住所の照合方法を知りたい。 これまでのところ、さまざまなソリューションを見つけましたが、それらはかなり古く、あまり効率的ではないと思います。より良い方法がいくつかあると確信しているので、もしあなたが私が読むための参考文献を持っているなら、それは複数の人に興味があるかもしれない主題であると確信しています。 私が見つけた解決策(例はRにあります): レーベンシュタイン距離。1つの単語を別の単語に変換するために挿入、削除、または変更する必要がある文字数に相当します。 agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE) ## [1] "accusait" "abusait" 音素の比較 library(RecordLinkage) soundex(x<-c('accusait','acusait','abusait')) ## [1] "A223" "A223" "A123" スペルコレクター(最終的にはPeter Norvigのようなベイジアンコレクター)を使用しますが、アドレスではあまり効率的ではないと思います。 Googleの提案を使用することを考えましたが、同様に、個人の郵便住所ではあまり効率的ではありません。 機械学習の教師ありアプローチを使用することは想像できますが、ユーザーのスペルミスのリクエストを保存する必要がありますが、これは私にとって選択肢ではありません。

4
AlphaGo(および強化学習を使用する他のゲームプログラム)、人間のデータベースなし
私はこの主題の専門家ではありません。私の質問はおそらく非常に素朴です。AlphaGoプログラムで使用されている強化学習の力と限界を理解するためのエッセイに基づいています。 プログラムAlphaGoは、特に、モンテカルロによる樹木の探索など)を使用して構築されています。ニューラルネットワークは、人間がプレイする囲gamesゲームの巨大なデータベースから訓練され、その後、それ自体に対して何度もプログラムします。 今、私は人間のデータベースなしでそのようなプログラムを構築しようとしたのだろうか、つまり、Goの基本プログラムでルールとツリーを探索する方法を知っているだけで開始し、ニューラルネットワークを改善するために自分自身と対戦することを試みますか?私たちは、それ自体に対して多くのゲームをした後、最高の人間のプレーヤーと競争したり、打ち負かすことができるプログラムに到達しますか?そして、もしそうなら、そのために必要なゲームの数は(大きさの順で)何ですか?それとも逆に、そのようなプログラムははるかに弱いプレーヤーに向かって収束しますか? AlphaGoは非常に新しいので、実験は行われていないと思います。しかし、それでも答えは専門家には明らかかもしれません。そうでなければ、経験に基づいた推測に興味があります。 「簡単な」ゲームについても同じ質問をすることができます。AlphaGoで使用されるほぼ同じ強化学習テクニックを使用しますが、チェスプログラムで人間のデータベースを使用しない場合、最終的には最高の人間を倒せるプログラムが得られるでしょうか?もしそうなら、どのくらいの速さ?これは試されましたか?それともチェスではない場合、チェッカー、またはより単純なゲームはどうですか? どうもありがとう。

1
T-SNEの視覚化では、より近いポイントをより類似していると見なすことができますか?
ヒントンの論文から、T-SNEはローカルの類似性を維持するのに優れた仕事をしており、グローバル構造(クラスター化)を維持するのにまともな仕事をしていることがわかります。 ただし、2D t-sneビジュアライゼーションでより近くに表示されるポイントを「より類似した」データポイントと見なすことができるかどうかはわかりません。25個の機能を持つデータを使用しています。 例として、下の画像を観察すると、青色のデータポイントが緑色のデータポイント、特に最大の緑色のポイントクラスターに似ていると仮定できますか?または、別の質問として、青い点が他のクラスターの赤い点よりも、最も近いクラスターの緑の点に似ていると仮定しても大丈夫ですか?(赤みがかったクラスターの緑の点は無視) sci-kit learn Manifold learningで提示されているような他の例を観察するとき、これを仮定するのは正しいように思えますが、統計的に正しいかどうかはわかりません。 編集 元のデータセットからの距離を手動で計算し(ペアワイズ平均ユークリッド距離)、視覚化は実際にデータセットに関する比例空間距離を表します。しかし、これは単なる偶然ではなく、t-sneの元の数学的定式化から予想されることがかなり許容できるかどうかを知りたいと思います。

4
決定木またはロジスティック回帰?
私は分類の問題に取り組んでいます。同じ数のカテゴリ変数と連続変数を含むデータセットがあります。使用するテクニックを知るにはどうすればよいですか?決定木とロジスティック回帰の間で ロジスティック回帰が連続変数により適し、決定木が連続+カテゴリー変数により適していると仮定するのは正しいでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.