ウェブサイトを通る経路のパス確率ツリーを構築する


10

私は現在、Webサイトで分析を行っています。そのため、Webサイトにアクセスしたときに人々がたどる可能性のある経路を示すディシジョンツリー図を作成する必要があります。data.frameホームページから、すべてのお客様のサイトへの経路を表示するa を扱っています。たとえば、顧客は次の方法をとることができます。

Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3

したがって、この顧客は3ページの移動を行うことになります。私がRでやろうとしていることは、すべての顧客のパスを組み合わせて、サイトの特定のパスをたどる顧客に確率を割り当てることです。たとえば、すべてのパスを調べると、ホームページにアクセスした人の34%が「キッチンアイテムのページ」にアクセスすることがわかりました。Rにはこの機能がありますか?

rpartpartykitパッケージを使用してさまざまなメソッドを調べましたが、それらは役に立たないようです。

このための正しい方向への操縦は非常に高く評価されています!


1
この分野についてはあまり知りませんが、igraphパッケージは非常に包括的です。
richiemorrisroe 2013年

3
うん、igraphは視覚化のための方法です。事前に自分で遷移確率を計算する必要があります。一般的に、Markovチェーンを
steffen

1
サンプルデータを投稿できますか?状況をよりよく理解するのに役立ちます。
curious_cat 2013

回答:


1

n×nMn×nnMrcrc

あなたの最初の質問はすでにこれで答えられています:「ホームページ(ページ1と言う)のユーザーの何パーセントが、たとえばキッチンアイテム(ページ2と言う)の隣に移動しますか?」

M12cM1c

それともあまりにも単純すぎますか?


1
いいえ、これは正しいです。ここからも-これのそれぞれを動的にRのツリーにグラフ化する方法はありますか?そうでない場合、使用できる別のツールはありますか?
nellington 2013年

@nellington:どんな種類の木を考えていますか?
curious_cat

1
ルートノードがホームページである確率ツリー(ただし、ルートノードをサイト上の別のページに変更できる場合-これは素晴らしい機能です)は、ルートノードからの各ブランチが、次に訪問したページを表すルートノード。理想的には、各ブランチに%確率が付加されます。各サブノードで拡張および収縮できるという意味では動的です。これを処理できる視覚化ソフトウェアを知っていますか?
nellington 2013年

@nellington:純粋に視覚化するには、graphvizを試してください。そのツリーは有向グラフになり、それを処理するためのグラフビズ指向のツールがたくさんあります。
curious_cat 2013

0

GoogleのPageRankアルゴリズムを再作成しようとしているようです。PageRankアルゴリズムのほとんどは、マルコフ連鎖を使用して開発されました。RでPageRankメソッドの開発に関する多くの言及を見つけることができます。

igraph.sourceforge.net/doc/R/page.rank.htm


1
私の知る限り、これはページランクに関するものではありません。私見、唯一の重複は、ユーザーパスがサイトのデザイン(リンク)に関連付けられる可能性が最も高いことですが、それだけです。余談ですが、提供されたリンクは機能していません。
steffen 2013年

1
私はリンクを見つけたと思います。おそらくigraphを多用しているように見えるため、それはおそらくどこかの時点でigraphのWebページにありました。stat.berkeley.edu/users/vigre/undergrad/reports/...
geneorama

ああ、そうですね... page.rankはigraphの関数です。一部のマニュアル:リンク1 リンク2 LINK3
geneorama

最初のレポートを簡単にざっと読んだ後、これはかなり良い答えだと私は実際に考えて、私はそれを賛成票を投じました(ただし、多少の詳細を使用することもできました!)。ページランク機能が答えのようです。
ジェネラマ2013年

0

私がここで見るものから、igraphs / Markov Chainsがおそらく進むべき道であることに同意しますが、rpartやpartykitを確実に使用することができます。

私があなたの限られた例で簡単な答えを出すのは難しいですが、私はあなたがそれをどのように行うか一般的に説明できます。

たとえば、すべてのユーザーがどこにいたかを確認し、それを文字列に要約します。

"Home / product4 / product3 / product4 / buynow"
"Home / product3 / buynow"
"Home / product3 / product4"

次に、ユーザーをカテゴリに分類します。たとえば、「今すぐ購入」ページに到達したユーザーとそうしなかったユーザーなどです。その後、単にその最終結果で予測を開始できます。この例では、比較商品を最も多く購入した人が何かを購入したか、購入しなかったことがわかるでしょう。

「buynowページの前のページは何か」、「何かを購入する前にアクセスしたページ数」、「最初のアカウントを作成したのはいつか」など、さらに多くの変数を作成し、それらの指標を分析に追加することもできます。

さまざまな方法があり、さまざまな質問に答え始めますが、私のポイントは、木を使用することができ、いくつかの問題については、洞察へのより迅速で単純なルートになる可能性があるということです。

ちなみに、パーティを使用する場合は、factorまたはを使用して、非数値変数を因数分解する必要がありas.factorます。パーティーはあなたを始めるためのいくつかの素晴らしいビネットがあります。


1
正直なところ、ホームページを最適化したいので、ホームページからページ2に行き、次にページ2から3ページ目に移動する場所を予測することが、データの最も重要なセクションです。ターミナルページはあまり興味がありません。私は旅の途中でページのURLとページ番号を持っているので、遷移確率はそれを行う方法のように思えます。これにもかかわらず、それは少し手作業のようであり、私はRがより反復的な解決策を提供できるかもしれないと思います...
nellington

あなたの質問と最後のコメントをもう一度読んだ後、あなたは単にホームページから人々が何をするかの表が欲しいと思います。(開始する)
ジェネラマ

ホームページとホームページの次のページから人々が行うことは最も重要ですが、すべてのユーザーデータをrに連結して確率を割り当てることができるのが最も難しいところです。たぶんエクセルは行く方法ですか?私はigraphで頂点/エッジのルートを進んでいますが、ヘルプよりも害が大きいようです。
nellington

連絡先情報をプロフィールに追加しました。オフラインで話せるかな?
ジェネラマ2013

それは非常に役に立ちます。感謝-メールを送信しました
nellington
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.