データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

5
最新のRおよび/またはPythonライブラリはSQLを廃止しますか?
私は、SQL Serverがデータ処理からクリーニング、変更まで、私たちが行うすべてのバックボーンであるオフィスで働いています。私の同僚は、着信データを標準化してレポート、視覚化、および分析プロジェクトで使用できるように、複雑な関数とストアドプロシージャの作成を専門にしています。ここから始める前は、最も基本的なクエリを書くことは別として、SQLの経験はほとんどありませんでした。私の分析準備作業の大部分はすべてRで行われました。上司は、Rを使用してより効率的かつはるかに少ないコード行では実行できない割り当てが非常に少ないように思えても、SQLスキルを向上させると主張していますdplyr、data.table、tidyrなどのパッケージ(いくつか例を挙げると)。私の質問は、これは理にかなっていますか? 数週間前、特定の条件を満たすテーブル内の各行の列名のリストを取得し、それらを文字列のベクトルに連結するタスクに直面しました。厳しい締め切りがあり、その時、私はいくつかの閉塞を経験していたので、問題を完全に解決することができませんでした。上司に尋ねたところ、上司は同僚に問題を解決するためのスクリプトTSQLを書くように頼みました。彼がそれに取り組んでいる間に、私はRでそれを行う方法を見つけて、かなり単純な関数を作成し、それをデータフレームに適用しました。私の同僚は、約2時間後にスクリプトで戻ってきました。ネストされた2つのforループを含む少なくとも75行でした。私は彼に、実行が終了したときに通知するように頼み、数時間かかると言いました。一方、私のRスクリプトは、約30秒で〜45,000レコードをループできました。 データのクリーニングと変更には、Rのほうがはるかに良い選択だと思いますか?おそらく私のオフィスのSQL開発者は不適当でしょうか?RとSQLの両方(またはPythonとSQLの両方)を扱った人がこれについて何か考えを持っている場合、私は興味があります。
14 python  r  data-cleaning  data  sql 

2
高次元データ:知っておくと便利なテクニックは何ですか?
次元のさまざまな呪いにより、多くの一般的な予測手法の精度と速度は、高次元データでは低下します。高次元のデータを効果的に処理するのに役立つ最も便利なテクニック/トリック/ヒューリスティックは何ですか?例えば、 特定の統計/モデリング手法は、高次元のデータセットでうまく機能しますか? 特定(距離の代替概念を定義する)またはカーネル(内積の代替概念を定義する)を使用して、高次元データの予測モデルのパフォーマンスを改善できますか? 高次元データの次元削減の最も有用な手法は何ですか?

3
p値はいつ欺くのですか?
p値が統計的有意性を判断する最善の方法ではない場合、注意すべきデータ条件は何ですか?このカテゴリに分類される特定の問題タイプはありますか?

5
機能選択と機能抽出。いつ使用しますか?
特徴抽出と特徴選択は、データの次元を本質的に減らしますが、私が正しいなら、特徴抽出はデータをより分離可能にします。 どの技術が他よりも優先されますか? 機能選択は元のデータとそのプロパティを変更しないため、トレーニング中の機能を変更しないことが重要である場合は、機能選択を使用すると想定しています。しかし、なぜこのようなものが欲しいのか想像できません。


6
Keras —転移学習—入力テンソル形状の変更
この投稿は、私が達成したいことが不可能であることを示しているようです。しかし、私はこれを確信していません-私がすでにやったことを考えると、私がやりたいことを達成できない理由がわかりません... 2つの画像データセットがあり、一方には形状(480、720、3)の画像があり、もう一方には形状(540、960、3)の画像があります。 次のコードを使用してモデルを初期化しました。 input = Input(shape=(480, 720, 3), name='image_input') initial_model = VGG16(weights='imagenet', include_top=False) for layer in initial_model.layers: layer.trainable = False x = Flatten()(initial_model(input)) x = Dense(1000, activation='relu')(x) x = BatchNormalization()(x) x = Dropout(0.5)(x) x = Dense(1000, activation='relu')(x) x = BatchNormalization()(x) x = Dropout(0.5)(x) x = Dense(14, activation='linear')(x) model = Model(inputs=input, …
14 keras 

1
RandomForestClassifier OOBスコアリングメソッド
scikit-learnでのランダムフォレストの実装は、スコアリング方法として平均精度を使用して、out-of-bagサンプルで一般化エラーを推定しますか?これはドキュメントには記載されていませんが、score()メソッドは平均精度を報告します。 非常に不均衡なデータセットがあり、グリッド検索のスコアリングメトリックとしてROCのAUCを使用しています。OOBサンプルでも同じスコアリング方法を使用するように分類子に指示する方法はありますか?

2
xgBoostのペアワイズランキングモデルにどのように適合しますか?
私の知る限り、モデルをランク付けするように学習をトレーニングするには、データセットに次の3つを含める必要があります。 ラベルまたは関連性 グループまたはクエリID 特徴ベクトル たとえば、Microsoft Learning to Rankデータセットはこの形式(ラベル、グループID、機能)を使用します。 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... GBMを使用してペアワイズランキングを行うxgBoostを試しています。これらには、C ++プログラムを使用して上記のようなMicrosoftデータセットで学習するランキングタスクの例があります。 しかし、私は彼らのPythonラッパーを使用しており、グループID(qid上記)を入力できる場所が見つからないようです。機能と関連性スコアのみを使用してモデルをトレーニングできますが、何かが足りないように感じます。 これがサンプルスクリプトです。 gbm = XGBRegressor(objective="rank:pairwise") X = np.random.normal(0, 1, 1000).reshape(100, 10) y = np.random.randint(0, 5, 100) gbm.fit(X, y) ### --- no group id needed??? print gbm.predict(X) # should be in …
14 search  ranking  xgboost  gbm 


2
SelectKBestはどのように機能しますか?
私はこのチュートリアルを見ています:https : //www.dataquest.io/mission/75/improving-your-submission セクション8では、最良の機能を見つけると、次のコードが表示されます。 import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values for each feature, and transform from p-values into scores scores …

4
Gensim Word2Vec実装のエポック数
Word2Vec実装にiterパラメーターがありますgensim クラスgensim.models.word2vec.Word2Vec(sentences = None、size = 100、alpha = 0.025、window = 5、min_count = 5、max_vocab_size = None、sample = 0、seed = 1、workers = 1、min_alpha = 0.0001、sg = 1、hs = 1、negative = 0、cbow_mean = 0、hashfxn =、iter = 1、null_word = 0、trim_rule = None、sorted_vocab = 1) エポックの数を指定します。つまり、 iter =コーパス全体の反復数(エポック)。 それがコーパス全体でモデルを改善するのに役立つかどうか誰か知っていますか? がiterデフォルトで1に設定されている理由はありますか?いいえを増やすことにはあまり効果はありません。エポックの? いいえを設定する方法についての科学的/経験的評価はありますか?エポックの? 分類/回帰タスクとは異なり、ベクトルは監視されていない方法で生成され、目的関数は単純に階層型ソフトマックスまたは負のサンプリングのいずれかであるため、グリッド検索方法は実際には機能しません。 いいえを短縮するための早期停止メカニズムはありますか?ベクトルが収束した時点のエポックの数 また、階層的なソフトマックスまたは負のサンプリング目標は収束できますか?

3
Kerasからのmodel.predict関数の出力はどういう意味ですか?
Quora公式データセットで重複する質問を予測するLSTMモデルを作成しました。テストラベルは0または1です。1は質問のペアが重複していることを示します。使用してモデルを構築した後model.fit、私が使用してモデルをテストしmodel.predict、テストデータに。出力は、以下のような値の配列です。 [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] 配列の最初の10個の値のみを表示しています。これらの値の意味と、各質問ペアの予測ラベルは何ですか?

3
PandasデータフレームからDMatrix
xgboostをscikit learnで実行しようとしています。そして、私はパンダを使用してデータをデータフレームにロードします。xgboostでpandas dfを使用する方法 xgboostアルゴを実行するために必要なDMatrixルーチンに混乱しています。

3
ケラスのシーケンスDNNでアクティベーション関数としてLeakyReluを使用するにはどうすればよいですか?
ケラスのシーケンスDNNでアクティベーション関数としてLeakyReluをどのように使用しますか?次のようなものを書きたい場合: model = Sequential() model.add(Dense(90, activation='LeakyRelu')) 解決策は何ですか?LeakyReluをReluと同じように配置しますか? 2番目の質問は、LeakyReluのパラメーターを調整するための最も一般的な設定は何ですか?Reluよりパフォーマンスが大幅に向上するのはいつですか?

5
システムからGoogle Colabに画像フォルダーをアップロードする
約3000枚の画像を含むデータセットでディープラーニングモデルをトレーニングしたいと考えています。データセットは巨大なので、GPUがサポートされているため、Google colabを使用したいと思います。このフル画像フォルダをノートブックにアップロードして使用するにはどうすればよいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.