刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

概率传播模型

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

如果我们想流行病消亡，则迭代f（x）必须为零。因此，f（x）必须低于y = x。
f（x）的形状是什么？

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

生殖数R0 = q⋅d：

它确定疾病是否会扩散或消亡。

如果R0≥1就会流行
仅R0重要：

R0≥1：流行病永不消亡，感染人数呈指数增长
R0 <1：流行迅速迅速消失

当R0接近1时，q或d的微小变化可能导致流行病消亡或发生

隔离人员/节点[减少d]
鼓励更好的卫生习惯，减少细菌传播[减少q]
HIV的R0在2到5之间
麻疹的R0在12至18之间
埃博拉病毒的R0在1.5和2之间

应用：Flickr的社交级别和从真实数据估计R0

数据集

Flickr社交网络：

用户通过朋友链接连接到其他用户
用户可以“喜欢/收藏”照片

数据：

100天
用户数量：200万
34,734,221喜欢 11,267,320张照片

可以通过社交影响力（级联）或外部链接向用户展示照片
某人喜欢通过社交联系传播吗？

不，如果用户喜欢某照片，并且他的朋友以前都不喜欢该照片
是，如果用户在至少一个朋友喜欢该照片之后才喜欢该照片 -> 社交级联

社会级联示例： A->B和A->C->E

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

如果从真实数据中估计R0

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

来自前1,000个照片级联的数据

每个+是一个级联

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

流行照片的基本复制数量在1到190之间

这比麻疹等传染性极高的疾病要高得多，这表明社交网络是有效的传播媒介，在线内容可能具有很高的传染性。

传染病模型

病毒传播模型

病毒传播：2个参数：

（病毒）出生率β：

受感染邻居攻击的可能性

（病毒）死亡率δ：

受感染节点治愈的可能性

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

流行病模型的一般方案：

每个节点可以经历以下阶段：
过渡概率。由模型参数控制

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

S…易感
E…暴露
I…感染
R…恢复
Z…免疫

SIR 模型

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

SIS模型

易感-感染-易感（SIS）模型
治愈的节点立即变得易感
病毒的``强度''： s=β/δ
节点状态转换图：

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

流感模型：

易感节点被感染
节点然后愈合并变为再次易感

假设完美混合（完整图表）：

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

SIS模型：任意图G的流行阈值为τ，使得：

如果病毒的“强度” s =β/δ<τ，则该流行病不会发生（最终消失）

给定图，其流行阈值是多少？

事实：如果我们没有流行病如果

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

λ1，A单独捕获图形的属性！

实验结果：

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

最初感染多少人有关系吗

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

用SEIR对Ebola病毒建模

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

S：易感人群，
E：暴露人群，
I：社区感染病例，
H：住院病例
F：死亡但尚未埋葬，
R：不再传播疾病的个人

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

R0=1.5～2.0

应用：使用SEIZ模型的谣言传播

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

SIS 模型

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

SEIZ模型细节

来自八个故事的推文：四个谣言和四个真实故事

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

SEIZ模型被用于拟合每个级联，以最小化||l(t)-tweets(t)||：

tweets(t)=谣言推文数量
l（t）=该模型估计的谣言推文数量

使用网格搜索并找到误差最小的参数

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

波士顿马拉松*弹炸**事件

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

SEIZ模型可以更好地为真实数据建模，尤其是在初始点

教皇退位

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

通过拟合SEIZ模型获得的参数可有效识别谣言与新闻

独立集联模型

最初，某些节点S是活动的
每个边（u，v）都有概率（权重）puv

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

当节点u被激活/感染时：

它以概率prob激活每个邻居v

激活通过网络传播！

独立的级联模型很简单，但是需要很多参数！

从数据中估计它们非常困难[Goyal等。 2010]

解决方案：使所有边缘具有相同的权重（这使我们回到SIR模型）

简单，但是太简单

我们能做得更好吗？

从暴露到采纳

暴露：节点的邻居将节点暴露在传染性环境中
采纳：节点作用于感染

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

暴露曲线：

采纳新行为的可能性取决于已经采纳的朋友总数

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

从暴露到采纳

暴露：节点的邻居将节点暴露给信息

采纳：节点对信息起作用

不同采纳曲线的示例：

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

推荐的发送者和关注者可获得产品折扣

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

数据：激励式病毒营销计划

1600万条建议
400万人，50万种产品

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

网上论坛的成员资格遍布网络：

红色圆圈代表现有的小组成员
黄色方块可能会加入

问题：

概率如何。加入小组的方式取决于小组中已经有多少朋友？

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

LiveJournal组成员

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

总结

基本生殖数R0
流行模型

SIR，SIS，SEIZ
独立的级联模型
谣言传播的申请
曝光曲线

刚哥的公开课笔记：图机器学习（十二）概率传染和影响模型

应用：Flickr的社交级别和从真实数据估计R0

传染病模型

应用： 使用SEIZ模型的谣言传播

独立集联模型

总结

应用：使用SEIZ模型的谣言传播