データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

3
制限付きボルツマンマシン(RBM)の背後にある直感
CourseraのGeoff HintonのNeural Networksコースを受講し、制限付きボルトマンのマシンを紹介しましたが、RBMの背後にある直感を理解していませんでした。 このマシンでエネルギーを計算する必要があるのはなぜですか?そして、このマシンでの確率の使用は何ですか?このビデオも見ました。ビデオでは、計算ステップの前に確率とエネルギーの方程式を書いただけで、どこでも使用するようには見えませんでした。 上記に加えて、尤度関数が何のためにあるのか分かりませんか?

4
R:GPUでの機械学習
GPUを利用してトレーニング速度を改善できるR向けの機械学習パッケージはありますか(Pythonの世界のtheanoのようなもの)? gpuでコードを実行できるgputoolsと呼ばれるパッケージがありますが、機械学習のためのより完全なライブラリを探しています。

5
隠れマルコフモデルを実装するPythonライブラリ
隠れマルコフモデルの実装に使用できる安定した Pythonライブラリは何ですか?私は以前にこのモデルを実際に使用したことがないため、合理的に十分に文書化する必要があります。 あるいは、HMMを使用してデータセットで時系列分析を実行するためのより直接的なアプローチはありますか?

4
Scalaを使用したデータサイエンスツール
SparkはScalaと完全に統合されていることを知っています。ユースケースは、特に大規模なデータセット向けです。Scalaを適切にサポートしている他のツールはどれですか?Scalaはより大きなデータセットに最適ですか?または、より小さなデータセットにも適していますか?

2
HadoopとnoSQLの違いは何ですか
人々がデータを処理するのを支援するための多くのツール/フレームワークについて聞いた(ビッグデータ環境)。 1つはHadoopと呼ばれ、もう1つはnoSQLの概念です。処理のポイントの違いは何ですか? それらは補完的ですか?

4
重要な属性を指定する方法は?
多くのデータソースで構成される、緩やかに構造化されたデータのセット(Webテーブル/リンクされたオープンデータなど)を想定します。データが後に続く共通のスキーマはなく、各ソースは同義語属性を使用して値を記述することができます(例:「国籍」対「bornIn」)。 私の目標は、それらが記述するエンティティを何らかの形で「定義」する「重要な」属性を見つけることです。そのため、そのような属性に同じ値が見つかった場合、2つの説明が同じエンティティ(たとえば、同じ人物)についてである可能性が最も高いことがわかります。 たとえば、属性「lastName」は、属性「nationality」よりも差別的です。 他のどの属性よりも重要な属性を(統計的に)見つけることができますか? 単純な解決策は、各属性の値の平均IDFを取得し、これを属性の「重要」要素にすることです。同様のアプローチは、各属性に表示される個別の値の数をカウントすることです。 機械学習で機能という用語または属性選択を見てきましたが、残りの属性を破棄したくはありません。最も重要な属性に高い重みを付けたいだけです。

2
スライディングウィンドウは、LSTMでオーバーフィッティングにつながりますか?
スライディングウィンドウアプローチでLSTMをトレーニングする場合、LSTMをオーバーフィットしますか?なぜ人々はそれをLSTMに使用しないように見えるのですか? 簡単な例として、文字のシーケンスを予測する必要があると仮定します。 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 次のミニバッチを使用してLSTMをトレーニングし続けると、悪い(またはより良い)でしょうか。 A B C D E F G H I J K L M N, backprop, erase the cell B C D …

3
歪んだデータを正規分布に変換する理由
Kaggle(住宅価格に関するヒューマンアナログのカーネル:Advance Regression Techniques)での住宅価格競争の解決策を経験していて、この部分に出会いました: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 歪んだ分布を正規分布に変換する必要があるかどうかはわかりません。誰かが詳細に説明できますか: なぜこれがここで行われているのですか?またはこれはどのように役立ちますか? これは機能のスケーリングとどう違うのですか? これは機能エンジニアリングに必要なステップですか?この手順をスキップするとどうなりますか?

4
2つの単語の類似性
2つの単語または文の類似性を識別するのに役立つPythonライブラリを探しています。 私は音声からテキストへの変換を行って、英語の辞書または辞書にない単語を作成します(これは人名または会社名の場合があります)その後、既知の単語と比較する必要があります。 例: オーディオ結果への1)テキスト:アメリカの拡張を呼び出すためのおかげ と比較されますアメリカンエクスプレス。 両方の文は何らかの形で似ていますが、同じではありません。 共有する文字数を調べる必要があるようです。どんなアイデアも素晴らしいでしょう。Google検索の「あなたが言った」機能のような機能に見えます。
15 nlp  nltk 

2
アクティベーション関数が単調でなければならないのはなぜですか?
現在、ニューラルネットワークに関する試験の準備をしています。以前の試験のいくつかのプロトコルで、ニューロンの活性化機能(多層パーセプトロン)は単調でなければならないことを読みました。 アクティベーション関数は微分可能でなければならず、ほとんどの点で0でない導関数を持ち、非線形でなければならないことを理解しています。単調であることが重要である/役立つ理由がわかりません。 次のアクティベーション関数を知っており、それらは単調であることを知っています。 ReLU シグモイド タン Softmax:単調性の定義が関数適用可能かどうかわかりません withf:Rn→ Rmf:Rn→Rmf: \mathbb{R}^n \rightarrow \mathbb{R}^mn 、m > 1n、m>1n, m > 1 ソフトプラス (身元) ただし、たとえばような理由はまだわかりません。φ (x )= x2φ(バツ)=バツ2\varphi(x) = x^2 アクティベーション関数が単調でなければならないのはなぜですか? (関連する質問:対数/指数関数がアクティベーション関数として使用されない理由はありますか?)


1
特定のテキストの特定の文字の後の文字列を削除する
以下のようなデータセットがあります。文字©の後のすべての文字を削除したい。Rでそれを行うにはどうすればよいですか? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 

2
Mahoutのアイテムベースとユーザーベースの推奨の違い
ユーザーベースの推奨事項とアイテムベースの推奨事項がどれだけ正確に異なるかを知りたい。 それを定義します ユーザーベース:同様のユーザーを見つけてアイテムを推奨します。多くの場合、ユーザーの動的な性質のため、これをスケーリングするのは困難です。 アイテムベース:アイテム間の類似性を計算し、推奨事項を作成します。通常、アイテムはあまり変化しないため、多くの場合、オフラインで計算できます。 しかし、2種類の推奨事項がありますが、私が理解しているのは、これらの両方が何らかのデータモデル(たとえば、1,2または1,2、.5としてitem1、item2、valueまたはuser1、user2、valueが値ではない場合)必須)そして、選択した類似度測定値とリコメンダービルトイン関数としてすべての計算を実行し、同じデータに対してユーザー/アイテムベースの推奨の両方を実行できます(これは正しい仮定ですか??)。 したがって、これら2つのタイプのアルゴリズムがどのように正確にどの側面で異なるかを知りたいと思います。

2
K平均とオンラインK平均
K-meansはクラスタリング用のよく知られたアルゴリズムですが、そのようなアルゴリズムのオンラインバリエーションもあります(オンラインK-means)。これらのアプローチの長所と短所は何ですか?また、それぞれをいつ優先すべきですか?

3
並列および分散コンピューティング
並列コンピューティングと分散コンピューティングの違いは何ですか?スケーラビリティと効率に関しては、マシンのクラスターで計算を処理するソリューションが非常に一般的であり、並列処理または分散処理と呼ばれることもあります。 ある意味では、並行して実行されているものがあるため、計算は常に並行しているように見えます。しかし、分散計算は単に複数のマシンの使用に関連しているのでしょうか、それともこれらの2種類の処理を区別するさらなる特異性はありますか?たとえば、計算が並列AND分散であると言うのは冗長ではないでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.