江南スタイルのYoutubeビュー数を予測するモデル


73

PSYのミュージックビデオ「江南スタイル」は人気があり、2か月強で約5億4,000万人の視聴者がいます。私は先週の夕食でプレティーンの子供たちからこれを学び、すぐに議論は10-12日で何人の視聴者がいるのか、歌がいつ(/ if) 8億人の視聴者または10億人の視聴者を通過させます。

以下は、投稿されてからの多くの視聴者の写真です。 PSY OGS

これは、No1「Justin Biever-Baby」とNo2「Eminem-Love the way you ly」のミュージックビデオの視聴者数からの写真です。 ジャスティン エミネム

このモデルについて最初に考えたのは、Sカーブであるべきだということでしたが、これはNo1とNo2の曲には合わないようで、ミュージックビデオの再生回数に制限がないということにも合いません。成長は遅くなります。

私の質問は次のとおりです。ミュージックビデオの視聴者数を予測するには、どのようなモデルを使用すればよいですか。


21
食卓の会話を江南から統計に導くことに成功した+1。あなたのような人が必要です!
S. Kolassa -モニカ元に戻し

4
gui11aumeまたはこれをモデル化しようとする方程式を書いている他の人に役立つと思う議論に追加できるのは、KONYの例では、地理的クラスタリングがウイルスの広がりの重要な側面であったということです。PSYが最初に韓国語、次にアジアの現象であるという事実は、物語の重要な部分です。どのようにモデル化されるかは正確にはわかりませんが、手がかりになるかもしれません。

2012年11月の動画の視聴、コメント、好きなもの、嫌いなものに関するデータは、docs.google.com
spreadsheet /…

回答:


38

ああ、素晴らしい質問!!

また、S字型ロジスティック曲線を素朴に提案していましたが、これは明らかに不十分な適合です。私が知る限り、YouTubeは一意のビュー(IPアドレスごとに1つ)をカウントするため、一定の増加は概算であり、コンピューターよりも多くのビューはありません。

人々の感受性が異なる疫学モデルを使用できます。簡単にするために、リスクの高いグループ(子供など)とリスクの低いグループ(大人など)に分けることができます。さんが呼ぶことにしましょう「感染」子供との割合時間で「感染」大人の割合。高リスクグループの(未知の)個人数、低リスクグループの(未知の)個人数と呼びます。x(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

ここで、。そのシステムを解決する方法はわかりません(@EpiGradが解決するかもしれません)が、グラフを見ると、いくつかの単純な仮定を立てることができます。成長が飽和しないため、は非常に大きく、は小さいと仮定できます。r1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

これは、高リスクグループが完全に感染すると線形成長を予測します。このモデルでは、を仮定する理由はなく、大きな項が包含されるため、まったく逆であることに注意してください。r1>r2Yy(t)r2

このシステムは

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

ここで、とは積分定数です。「感染した」母集団の合計は 、3つのパラメーターと2つの積分定数(初期条件)があります。フィットするのがどれだけ簡単かわかりません...C1C2x(t)+y(t)

更新:パラメーターをいじってみたところ、このモデルでは一番上の曲線の形状を再現できませんでしたからへの移行は常に上記よりもシャープです。同じ考えを続けると、2種類のインターネットユーザーがいると再び仮定することができます:"sharers"と "loners"です。共有者はお互いに感染し、たまたまビデオに偶然出会う。モデルは0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

に解決します

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

我々は、想定可能性、すなわちのみで患者0があることをが得られる、ので、です多数。なので、と仮定でき。これで、3つのパラメーター、およびのみがダイナミクスを決定します。x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

このモデルを使用しても、変曲は非常に鋭く、適切ではないため、モデルは間違っているはずです。それは実際問題を非常に興味深いものにします。例として、以下の図は、および構築されています。X=600,000,000r1=3.6671010r2=1,000,000

江南スタイルの成長モデル

更新:私が収集したコメントから、YoutubeはユニークなIPではなくビューを(秘密の方法で)カウントしているので、大きな違いがあります。ふりだしに戻る。

簡単にするために、視聴者がビデオに「感染」していると仮定しましょう。彼らは感染を一掃するまで、定期的にそれを見るために戻ってきます。最も単純なモデルの1つは、次のSIR(Susceptible-Infected-Resistant)です。

˙ IT=αSTIT-βIT ˙ RT=βIT

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

ここで、は感染率、はクリアランス率です。合計ビュー数はになります。ここで、は感染した個人の1日あたりの平均ビュー数です。β X T ˙ XT = K I T Kαβx(t)x˙(t)=kI(t)k

このモデルでは、感染の開始後しばらくするとビュー数が急激に増加し始めますが、これは元のデータには当てはまりません。おそらくビデオも非ウイルス(またはミーム)方式で広がったためです。私は、SIRモデルのパラメーターを推定する専門家ではありません。異なる値で遊んでいるだけで、ここで私が思いついたものです(R)。

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

江南スタイルのYoutubeビデオのビューの外挿

モデルは明らかに完璧ではなく、多くの健全な方法で補完できます。この非常に大まかなスケッチは、2013年3月頃の10億ビューを予測しています。


5
(+1)最初のアプローチとして。YouTubeが再生回数をカウントするポリシーは、アルゴリズムを公開していないため、よく理解されていないことに注意してください。「YouTubeで動画を視聴するたびに視聴回数がカウントされます。人為的に視聴回数を増やす試みを回避するために、これ以上の具体性はありません」(参照)

3
@FredrikDありがとう。私がそれを間違えた場合、2013年3月にまだ「承諾」を削除することができます:D
gui11aume

2
SIRモデルパラメーターの推定、rsfs.royalsocietypublishing.org
content /

1
私はこれを失うつもりです!彼らは...でも2013年前に万人を打つこと
gui11aume

2
engadget.com/2012/12/21/gangnam-style-billion-views 世界は終わりませんでしたが、今日は10億回の視聴がありました。
DanTheMan

5

おそらく、新製品の採用を予測するための最も一般的なモデルは低音拡散モデルです。これは、@ gui11aumeの答えと同様に、現在のユーザーと潜在的なユーザー間の相互作用をモデル化します。新製品の採用は、予測において非常にホットなトピックです。この用語を検索すると、大量の情報が得られるはずです(残念ながら、ここで詳しく説明する時間はありません...)。


はい、それは候補モデルでもあります。ただし、ユーザーになることができるのは一度だけであると想定しているようです。ここで、「感染」している場合、ビデオを何度も表示します。
FredrikD

1
@FredrikD:取ったポイント。(私は個人的にこの「製品」の単一の「使用」を介して座ることができませんでした...)これに対処するための低音の一般化があるはずです。(恥知らずのプラグ:)来年の予測国際シンポジウムはソウルで開催されるので、誰もがお気に入りの江南予測モデルを提示することを検討すべきです!;-)
S. Kolassa -元に戻しモニカ

4

ゴンペルツ成長曲線を見ます。

ゴンペルツ曲線は、独立変数として時間Tを持つ3パラメーター(a、b、c)二重指数式です。

Rコード:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

ゴンペルツ成長式は、多くのライフサイクル現象を説明するのに適していることが知られており、最初は成長が加速し、その後テーパー状になり、ピークの右側よりも左側で微分が急峻になる非対称シグモイド曲線になります。たとえば、ウィキペディアの記事総数は本質的にウイルス性でもあり、長年にわたってゴンペルツ成長曲線(特定のa、b、cパラメーター)を非常に正確に追跡しています。

ゴンペルツ曲線のチャート:合計サイズとその成長率の導関数

編集: ゴンペルツ曲線が探している形状を近似するには不十分な場合、指数と一般化されたワイブルゴンペルツ分布でd説明されているようにパラメーターとθ を追加することができます。このペーパーでは、独立した時間パラメータの代わりに使用していることに注意してください。興味深いことに、ウィキペディアは2012年以降の実際の値からの予測の相違を説明するために、単一の4番目のパラメーターを追加することで最良の近似値を変更しました。変更された4パラメーターゴンペルツ曲線の式は次のとおりです。xtd

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

ゴンペルツ関数の名前は、それを記述する最初の数学者である現代のガウス(ちょうど2年後のガウスであるベンジャミンゴンペルツ(1779-1865)にちなんで付けられました。


いい視点ね!ただし、モデルが挑戦しているのは、制限ではないように見えることです(No1およびNo2を参照)。つまり、モデルの係数aも時間とともに増加します。
FredrikD

「限界はないようだ」に挑戦します。江南スタイルは1Bに達することができますか?10B?100B?ビュー?最終的に、成長率はほぼゼロになり、曲線はプラトーになります。江南と一緒にいるように、あなたが高成長段階にあるとき、これはわかりにくいですが、数年待ってください、そしてあなたはゴンペルツが勝ちます:)トリックはもちろん、正しいことを理解することです(a、 b、c)この特定のケースのパラメーター。
アリエル

2
Gompertzモデルのパラメーターを推定するためのリファレンスを次に示します。weibull.com
RelGrowthWeb /…を

3

江南スタイルのような現象を分離する必要があると思います。江南スタイルは、ミーム/ウイルス的なものであるという見方の多くを、ジャスティンビーバーとエミネムから分離する必要があります。 JBやエミネムも多くのシングルを売るだろう、PSYが売れるかどうかは分からない。


いい視点ね。PSYと「OGS」(Oppa Gangnam Style)の背後にあるチームのインタビューを読んで聞いた後、彼らがどのボタンを押してバイラルなものを作成するかをよく知っていることは明らかです。上記のビュー画像の画像分析により、発売後約90日まではビューの数が線形ではないように見えます。その後、PSYが韓国グランプリに表示され、単位時間あたりのビュー数が増加します。
FredrikD

-そして、これらの2つのクラスは「クラシック」とどのように異なりますか-YouTubeに最初にアップロードされたときにおそらく有名だった曲(David Bowieの考えです)。
-abaumann

2

5
サイト@ ProfRoy47へようこそ。この投稿について詳しく説明していただけますか?これが実際にOPの質問への答えであるかどうかは明らかではありません。OTOH、これはコメントとしては当てはまらないでしょう。そして、このスレッドに役立つ貢献をしていると思います。私たちのよくある質問は、あなたに役立つかもしれCVに提供答え、再いくつかの議論があります。
GUNG -モニカ元に戻し

1

モデルは明らかに完璧ではなく、多くの健全な方法で補完できます。この非常に大まかなスケッチは、2013年3月頃の10億ビューを予測しています。

過去1週間の視聴率の低下を見ると、3月13日の日付はまともな賭けのように見えます。新しいビューの大部分は、すでに感染したユーザーであり、1日に複数回アクセスするようです。

モデルを補完することに関して、研究者がウイルスの広がりを追跡するために使用する方法の1つは、そのゲノム変異を監視することです-いつ、どこで変異したかによって、ウイルスの伝播と拡散の速度を研究者に示すことができます(米国の西ナイルウイルスの追跡を参照) 。

実用的な意味で、江南スタイルやパーティーロックアンセム(グループLMFAOによる)などのビデオは、ジャスティンビーバーのベイビーやエミネムの歌よりも、パロディー、フラッシュモブ、ウェディングダンス、リミックス、その他のビデオレスポンスに「変化」する可能性が高くなります。

研究者は、突然変異の代用としてビデオ応答(特にパロディ)の数を分析できました。これらの変異の頻度と人気を動画の早い段階で測定することは、YouTubeの生涯視聴回数をモデル化するのに役立ちます。


サイトへようこそ、@ lucasng。CVは(あなたが私たちの読むことをお勧めします実質的な質問への深刻な、事実上の答えのために意図されたよくある質問を)、&Iは、OPは心の中で/このwを求めていると思います。あなたの答えはここの境界線にあります。突然変異などについての考えに基づいたままにすべきだと思いますが、ビデオのメリットについての意見は実際には関係ないことに注意してください。
GUNG -モニカ元に戻し

アイデアは良いと思います。@gung OPに対する答えではないことは確かですが、2番目の答えもそうではありません。
gui11aume

@gung:(Googleの検索によると)lucasngはあなたが編集した部分に意見を述べているのではなく、曲を演奏するグループの名前を引用していました!
枢機

1
@枢機inal、ヘッズアップに感謝します。Lucasng、混乱についてごめんなさい。グループ名を戻しました。
GUNG -モニカ元に戻し
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.