前書き さまざまな人々のさまざまな観察のデータセットがあり、他の人に最も近い人を知るために人々をグループ化したいとします。また、それらが互いにどれだけ近いかを知り、統計的有意性を知るための測定も必要です。 データ eat_rate drink_rate sleep_rate play_rate name game 1 0.0542192259 0.13041721 5.013682e-03 1.023533e-06 Paul Rayman 4 0.0688171511 0.01050611 6.178833e-03 3.238838e-07 Paul Mario 6 0.0928997660 0.01828468 9.321211e-03 3.525951e-07 Jenn Mario 7 0.0001631273 0.02212345 7.061524e-05 1.531270e-07 Jean FIFA 8 0.0028735509 0.05414688 1.341689e-03 4.533366e-07 Mark FIFA 10 0.0034844717 0.09152440 4.589990e-04 5.802708e-07 Mark …
tmパッケージを使用して、テキスト文字列のベクトルをコーパス要素に変換しようとしています。 私のコードはこのようなものです Corpus(d1$Yes) ここで、d1$Yes124のレベル、テキスト文字列を含むそれぞれ有する因子です。 例えば、 d1$Yes[246] = "So we can get the boat out!" 次のエラーが表示されます。 "Error: inherits(x, "Source") is not TRUE" これを解決する方法がわかりません。
個別の要素が入力されたマトリックスがあり、それらを(Rを使用して)そのままのグループにクラスター化する必要があります。したがって、たとえば、次のマトリックスを見てください。 [A B B C A] [A A B A A] [A B B C C] [A A A A A] Aには2つの個別のクラスター、Cには2つの個別のクラスター、Bには1つのクラスターがあります。 私が探している出力は、理想的には次のような一意のIDを各クラスターに割り当てます。 [1 2 2 3 4] [1 1 2 4 4] [1 2 2 5 5] [1 1 1 1 1] 今、私は最近傍を繰り返しチェックするだけで再帰的にこれを行うコードを書きましたが、行列が大きくなると(つまり、100x100)すぐにオーバーフローします。 これを行うことができるRの組み込み関数はありますか?ラスターと画像処理を調べましたが、うまくいきませんでした。私はそれがそこにあるに違いないと確信しています。
パラメータを含むことができる固定構造のテキストフラグメントを含むデータセットがあります。次に例を示します。 Temperature today is 20 centigrades Temperature today is 28 centigrades または Her eyes are blue and hair black. Her eyes are green and hair brown. 最初の例は、1つの数値パラメーターを持つテンプレートを示しています。2つ目は、2つの因子パラメーターを持つテンプレートです。 テンプレートの数とパラメータの数は不明です。 問題は、テンプレートを識別し、各テキストフラグメントを対応するテンプレートに割り当てることです。 明白な最初のアイデアは、クラスタリングを使用することです。距離測定は、一致しない単語の数として定義されます。つまり、例1のレコードの距離は1で、例2の距離は2です。例1と2のレコード間の距離は7です。この方法は適切に機能し、クラスターの数がわかっている場合はそうではありません。役に立たない。 距離行列をスキャンして、距離1(または2、3、...)に多くの近傍を持つレコードを検索するプログラムによるアプローチを想像できますが、監視されていない機械学習アルゴリズムを適用して問題を解決できるかどうか知りたいです。Rが推奨されますが、必須ではありません。