データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

1
ReLUが他のアクティベーション機能より優れている理由
ここでの答えは、-のsigmoidような活性化関数にあった勾配の消失と爆発を指しますが、Relu不利な点があり、それはその期待値です。の出力に制限はないReluため、その期待値はゼロではありません。Reluそれtanhが機械学習の専門家の間で最も人気があった前の時代を覚えていsigmoidます。その理由は、の期待値がtanhゼロに等しく、それがより深い層での学習がニューラルネットでより速くなるのを助けたからです。Reluこの特性はありませんが、その派生的な優位性を脇に置いておくとなぜうまく機能するのでしょうか。さらに、派生物も影響を受ける可能性があると思います。アクティベーション(の出力Relu)更新ルールの計算に関与しています。

5
文の類似性に最適な実用的なアルゴリズム
S1とS2の2つの文があり、どちらも15未満の単語数(通常)を持っています。 最も実用的で成功している(機械学習)アルゴリズムは、実装がおそらく簡単です(アーキテクチャがGoogle Inceptionなどのように複雑でない限り、ニューラルネットワークは大丈夫です)。 あまり時間をかけなくても問題なく動作するアルゴリズムを探しています。成功した使いやすいアルゴリズムがありますか? これは、クラスタリングのカテゴリに分類できますが、分類する必要はありません。私の背景は機械学習からですので、どんな提案でも大歓迎です:)

3
ディープニューラルネットワークでのバギングとドロップアウト
バギングは、単一の予測子としてアンサンブルとして機能する複数の予測子の生成です。ドロップアウトは、考えられるすべてのサブネットワークを平均化するためにニューラルネットワークに教える手法です。最も重要なKaggleのコンペティションを見ると、この2つの技術は非常に頻繁に使用されているようです。実際の実装以外に理論的な違いは見られません。実際のアプリケーションで両方を使用する理由を誰が説明できますか?そして、両方を使用するとパフォーマンスが向上するのはなぜですか?

1
テキストクラスタリングのアルゴリズム
大量の文章を意味ごとにグループ化する問題があります。これは、文がたくさんあり、それらを意味ごとにグループ化する場合の問題に似ています。 これを行うにはどのようなアルゴリズムが推奨されますか?クラスターの数が事前にわかりません(さらに多くのデータが追加されるにつれてクラスターも変化する可能性があります)。通常、各文を表すためにどの機能が使用されますか? 私は今、単語のリストと次のように定義された文の間の距離を持つ最も単純な機能を試しています: (AとBは、文AとBの対応する単語のセットです) それはまったく理にかなっていますか? 事前にクラスターの数を必要としないので、scikitライブラリーの平均シフトアルゴリズムをこの距離に適用しようとしています。 誰かが問題のより良い方法/アプローチをアドバイスするなら-私はまだトピックに新しいので、それは非常に高く評価されます。


2
Doc2Vec-段落にラベルを付ける方法(gensim)
gensimでdoc2vecを使用して文/段落/文書にラベルを付ける(タグ付けする)方法を考えています-実際的な観点から。 各文/段落/文書に固有のラベル(「Sent_123」など)を付ける必要がありますか?これは、「 "Sent_123"というラベルの付いた特定の1つの文に最も似ている単語や文を言いたい場合に便利です。 内容に基づいてラベルを繰り返すことはできますか?たとえば、各文/段落/ドキュメントが特定の製品アイテムに関するものである場合(および特定の製品アイテムに複数の文/段落/ドキュメントがある場合)、アイテムに基づいて文にラベルを付けてから、単語または単語間の類似性を計算できます文とこのラベル(製品アイテムに関係するすべての文の平均に似ていると思います)?

4
ニューラルネットワークの追加出力層(10進数から2進数)
私はオンラインブックからの質問に取り組んでいます: http://neuralnetworksanddeeplearning.com/chap1.html 追加の出力層が5つの出力ニューロンである場合、前の層のバイアスをそれぞれ0.5、重みをそれぞれ0.5に設定できることを理解できます。しかし、今の質問では、4つの出力ニューロンの新しい層を求めています。これは、で10の可能な出力を表すのに十分24242^{4}です。 誰かがこの問題を理解して解決するために必要な手順を説明してくれますか? 演習問題: 上記の3層ネットワークに追加の層を追加することにより、数字のビット単位の表現を決定する方法があります。下の図に示すように、追加のレイヤーは前のレイヤーの出力をバイナリ表現に変換します。新しい出力レイヤーの重みとバイアスのセットを見つけます。ニューロンの最初の3つの層は、3番目の層(つまり、古い出力層)の正しい出力の活性化が少なくとも0.99で、誤った出力の活性化が0.01未満であると仮定します。

3
最近傍データによる非常に高次元のデータの検索
私は、ユーザーと彼らが好むアイテムの大きなまばらなマトリックスを持っています(100万ユーザーと100Kアイテムのオーダーで、非常に低いレベルのスパース性があります)。kNN検索を実行する方法を模索しています。データセットのサイズと実行した初期テストを考えると、使用する方法は並列または分散のいずれかである必要があるという前提があります。そこで、2つのクラスの可能なソリューションを検討しています。1つは単一のマルチコアマシンで利用可能(または合理的に簡単な方法で実装可能)、もう1つはSparkクラスター、つまりMapReduceプログラムとして利用可能です。私が検討した3つの広範なアイデアは次のとおりです。 コサイン類似度メトリックを想定して、正規化された行列とその転置(外積の合計として実装)の完全な乗算を実行します。 局所性依存ハッシュ(LSH)の使用 最初にPCAで問題の次元を減らす この問題に取り組むことができる他の可能な方法についての考えやアドバイスをいただければ幸いです。

7
100万の頂点を持つグラフを視覚化する
1000000の頂点を持つグラフを視覚化(頂点とエッジを描画)するために使用する最適なツールは何ですか?グラフには約50000のエッジがあります。そして、個々の頂点とエッジの位置を計算できます。 svgを生成するプログラムを書くことを考えています。他の提案はありますか?

6
Rでダッシュボードを生成するには何を使用しますか?
定期的(毎日、毎月)のWeb分析ダッシュボードレポートを生成する必要があります。それらは静的であり、相互作用を必要としませんので、ターゲット出力としてPDFファイルを想像してください。レポートには、テーブルとチャート(主にggplot2で作成されたスパークラインとブレットグラフ)が混在します。次のようなStephen Few / Perceptual Edgeスタイルのダッシュボードを考えてください。 ただし、ウェブ分析に適用されます。 これらのダッシュボードレポートの作成に使用するパッケージに関する提案はありますか? 私の最初の直観は、Rマークダウンとknitrを使用することですが、おそらくより良い解決策を見つけたでしょう。Rから生成されたダッシュボードの豊富な例を見つけることができないようです。
17 r  visualization 

5
異常検出による猫の視覚的検出
私は趣味のプロジェクトを持っています。これは、これまで限られた機械学習の経験を増やす方法としてコミットすることを考えています。トピックに関するCoursera MOOCを取得して完了しました。私の質問は、プロジェクトの実行可能性に関するものです。 タスクは次のとおりです。 近所の猫は時々私の庭を訪れますが、私の芝生で排泄する傾向があるので嫌いです。猫がいると警告を発する警告システムが欲しいので、スーパーソーカーを使って追い払うことができます。簡単にするために、私は黒と白の色の猫しか気にしないと言ってください。 庭の一部のビデオや写真をキャプチャできるカメラモジュールを備えたラズベリーパイをセットアップしました。 サンプル画像: 私の最初のアイデアは、猫または猫のようなオブジェクトを識別する分類器を訓練することでしたが、十分な数の陽性サンプルを取得できないことに気付いた後、異常検出を支持してそれを放棄しました。 1日ごとに写真を撮ると、1日に猫(日光のある約6万枚)を含む写真が5枚になると推定されます。 これは異常検出を使用して実行可能ですか?その場合、どの機能を提案しますか?これまでの私のアイデアは、特定の色を持つピクセルの数を単純に数えることです。何らかの種類のblob検出/画像分割(どのように行うのかわからないため回避したい)を行い、それらに対して同じ色分析を実行します。

2
データサイエンスでの倫理の適用方法
最近、ユーザーの感情を変えることができるかどうかを確認するためにユーザーを実験しているFacebookで激しい論争がありました。 私はプロのデータ科学者ではありませんが、キャシー・オニールの本「Doing Data Science」からデータ科学の倫理について読んでおり、これが専門家が学術レベルで教えられているものかどうかを知りたいです(私はそう期待します)無視されるか、プロの世界で軽く適用されます。特に誤ってデータサイエンスを行うことになった人たちにとって。 リンクされた記事ではデータの整合性について触れましたが、この本では、作成されたデータモデルの影響と、不適切に(時には無意識に)使用されたり、モデルが不正確で、やはり不利な結果を生む。 この記事では、実践規範について説明し、データサイエンス協会の行動規範に言及していますが、これは使用されているものですか?ルール7は特に興味深い(ウェブサイトから引用): (a)問題に関してクライアントとデータの科学者の関係を形成する可能性についてデータ科学者と相談する人は、見込み顧客です。 (b)クライアントとデータの科学者との関係が続かない場合でも、見込みのあるクライアントから情報を学んだデータ科学者は、その情報を使用または開示してはなりません。 (c)パラグラフ(b)の対象となるデータサイエンティストは、データサイエンティストが見込み客から情報を受け取った場合、同じまたは実質的に関連する業界の見込み客の利益に実質的に不利な利益をクライアントに専門のデータサイエンスサービスを提供してはなりませんそれは問題のその人に著しく有害である可能性があります これは専門的に実践されているものですか?多くのユーザーは、私たちが何らかの無料サービス(メール、ソーシャルネットワーク、画像ホスティング、ブログプラットフォームなど)を利用していることを盲目的に受け入れ、広告を私たちにプッシュするためにEULAに同意します。 最後に、これはどのように規制されていますか?サービスの条件が変わったときにユーザーが武装していることをよく読みますが、何かが起こる前にそのようなことに反応するためにいくつかの自由組織、集団訴訟または上院議員が必要であるようです。 ちなみに、ここで判断を下したり、すべてのデータサイエンティストがこのように振る舞うとは言っていませんが、学術的に教えられ、専門的に実践されていることに興味があります。

5
リレーショナルDBMSのデータが大きくなっています。NoSQLに移行する時ですか?
eラーニングを目的としたソーシャルネットワークアプリケーションを作成しました。これは実験室で研究している実験プロジェクトです。しばらくの間、いくつかのケーススタディで使用されており、リレーショナルDBMS(SQL Server 2008)のデータは大きくなっています。現在は数ギガバイトであり、テーブルは相互に高度に接続されています。パフォーマンスは依然として良好ですが、いつ他のオプションを検討する必要がありますか?パフォーマンスの問題ですか?

2
セマンティック分析のためにビッグデータでliblinearを使用する
Libsvmを使用して、データをトレーニングし、セマンティック分析の問題の分類を予測します。ただし、セマンティック分析はn次元の問題に関係するため、大規模データのパフォーマンスの問題があります。 昨年、Liblinearがリリースされ、パフォーマンスのボトルネックを解決できます。しかし、メモリが多すぎます。あるMapReduceはビッグデータに意味解析の問題を解決する唯一の方法?または、Liblinearでメモリのボトルネックを改善できる他の方法はありますか?

4
類似性スコアに基づくクラスタリング
要素Eのセットと、2つの要素ei、ej∈E間の類似性(距離ではない)関数sim(ei、ej)があると仮定します。 simを使用して、Eの要素を(効率的に)クラスター化するにはどうすればよいですか? たとえば、k -meansには所定のkが必要で、Canopy Clusteringには2つのしきい値が必要です。このような事前定義されたパラメーターが必要ない場合はどうなりますか? simは必ずしもメトリックではないことに注意してください(つまり、三角形の不等式は成り立つ場合もあれば、成り立たない場合もあります)。さらに、クラスターが互いに素(Eのパーティション)であるかどうかは関係ありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.