摘要:随着新浪微博用户的激增,微博网站已经成为广大用户获取信息的平台。由于微博是一种长度有限的特殊文本,传统的主题模型不能很好地分析微博内容。本文提出了一种基于lda的微博生成模型rt-lda。采用吉布斯抽样的方法推导了该模型,该模型不仅能准确地挖掘每个微博的主题,而且能诱导相关主题的分布。通过对实际数据的实验,验证了RT-LDA在微博主题挖掘中的有效性。
关键词:新浪微博;文本挖掘;RT-LDA;吉布斯抽样
限制,信息覆盖的主题更加粗,有很快的更新速度和传播速度····当一条微博在多次转发后能获得很高的关注,例如今年流的“网络反腐”·可以看到,微博对用户来说是一个很好的信息源,对一个信息而言是快速发布和传播工具。·
国内外对twitter的研究,在微博上进行文本掘的程度很高[3],一些传统的文本掘方法在处理微博这类短文的时候,会此人处境lda(潜伏dirichlet all分配)〔4〕是近几年比较比较较高门的一种非监督的主题模型,已经有一些研究通过lda模型以及它的扩展发展[3],一些传统的文本掘方法在处理微博这类短文的时候,会此人处境lda(潜伏dirichlet all分配)〔4〕是近几年比较高门的一种非监督的主题模型模型,已经有一些研究通过lda模型以及它的扩展扩展扩展[4]模型[4]是近几年比较高门的一种非监督的主题模型,已经有一些研究通过ld1'5'6]来处理twitter,本文同样也是基于lda模型,提出了一种合适的中文微博的挖掘方法,数据源来自新的wawsmicrobog。
在微博主题讨论的实验中,本文分以下五个部分来阐述,
(1)新浪微博数据的采集,
(2)分析影响微博主题的因素
〈3)利用rt·lda模型对短文本进行处理·
(4)和其他主题模型的实验对比,
(5)未来的本挖掘还有哪些因素需要考虑,
1数据的准备
1,1微博数据采集
为了能够很好地对微博主题进行研究,原始数据的获取尤其重要·············································其调整有诸多限制,从而影响了数据的完整获取·,因此在实现的过程中,将两者的优势相结合,可以获得比较好的效果···在真实的实验中,为了提高数据采集的效率,可以利用分布式系统的架构,将采集任务分配到多台机器上;并将调整数据采集和数据存储之间的资源调整·
1.2数据预处理
在获得原始数据后,需要进行数据预处理,提高数据的可靠性···本文的实验是针对中文微博的主题,拟通过以下步骤优化数据源·
〈1)采用ICTCLAS分词系统[8]进行分词处理。·
〈2)过滤微博中的停等词以及特殊字符、以@开头的短句等影响主题验证的词·
(3)提取微博的作者信息、转发信息,并与相应微博文本相关联·
(4)将数据收集按照作业者分类,除去微博数据目的过少的作业者及其微博内容·
〈5)将数据收集部分作为训练部分80%和测试部分20‰
1.3实验环境和数据准备
实验环境为6台Intel(R)Core(TM)i5的CPU,4G内存的PC机;操作系统为Windows 7;开发工具为Visual Studio 2010。
经过数据采集、数据预处理等过程后,获得的真实数据大约有2000多位用户的12万条微博·
2微博主题
2.1主题模型的演出
在出现主题模型之前,本文主要采用空间向量模型和统计语言模型····················································································lysis)[9]模型,该模型引入了“语义学维护”,是文档集上信息更为形象的表示···················································································相似法和产生式模型的概率模型pi sac概率潜在语义分析)(l()j
在plsa中,每个词义维护t对应一个词义v的概率分布,即p〈公司d“v;documents d对应每个词义维护的概率分布,即p(tld)ter
David Blei等人在PLSA的基础上引述了Dirichlet的先验分布,形成了一个“文档一主题一词”三层的贝叶斯模型组,首次提出了“主题”的概念,在主题模型的框架下,主题是语料集合上的词义,是语料集合依赖的,不同的语料潜在的词义是不同的;最后通过概率方法对模型推进,即可以写出本集的词义结构。
2.2标准IDA模型
标准lda模型认为一篇文章的每个词都是通过“以一定的概率选择某个主题,并从这个主题中以一定的概率选择某个词”这样一个过程得到·················在lda模型的框架中,文档的词是可以观察的数据,而文档的主题是隐藏着随着机器的变化量······································
pc-words):学习p(words-words)×p〈主题]文档)。
假设存在一个训练语料集,由若干文献组成,文献中的词条都取自定的词条集有k个主题角,k,每个主题都是词条上的概率分布;对每个文档d,它的主题分布是
,9“代表主题在D档中所占的比例;代表主题在D档上的价值,”,代表主题在D档中的价值;最后D档的观察值是-,“代表文档D的第几个词(1)的联合概率分布可以表示成
(2)式(2)中,有许多条件的概率,表示变量与变量之间的依赖关系·对于此类概率问题,通常使用概率图来简化模型,有助于设计合理的计算方法·ida的概率图模型[如12]·
图1 LDA概率图模型
图1潜在dirichlet分配的图形模型
特技
2.3 RT-LDA模型
在此,本文首先抽取了一定量的微博进行研究,发现微博通常存在于两种生产路径,表现在消息发布方式上,就是:原创新微博和转化微博············因此,本文首先抽取了一定量的微博进行研究,发现微博通常存在于两种生产路径,表现在消息发布方式上,就是:原创新微博和转化微博················原创新微微微微微微微微微微微微微博和转化微博····原创新微微微微微微博。1.博是微博用户发布的原创信息,内容大多是微博用户感兴趣的主题,比如,一辆车可能会发一条这样的微博“很精彩的比武!瓦特尔的表现超越了同一辆车的手一个档次”,而发发微博相对比较特殊,它的内容由其他用户发布的原创微博组成,有时会带来一些评论。·在新浪微博中,通过“/@”把转发部分与原创部分相隔开,例如“精彩//@formulai:阿隆索越轨”,其中//@之前的是原创内容,有时间可以省去,/@之后的是转发内容,@f.rmu[al表示转发部分的作者为formulai,这类微博的主题并不取决于微博发布者,但一定与转发发部一致,而考虑到转发部也是一条原创微博,因此可以很好地确定其主题·
基于对微博生产方式的分析,本文认为,在标准的LDA模型中,主题由文本本身确定不适合短文的分析,从图2中可以看出,rt一LDA模型引来了作者的主题分布和对转发微博的处理,能够弥补LDA模型带来的缺陷所在,在rt一LDA模型中,一条微博如果是原创微博,其主体由作者的主题分布中抽取;如果是转发微博,则由转发部分的主题确定·
在一个微博数据集中,假设设备存在于t个主题,用代表主题‘在词组上的分布,用代表背景主题(考虑到一些词可能重复出现在多个主题中,并且含有近似的含义,模型认为它充分了文本的背景,不具备充分的含义,例如“中国”)在词组上的分布,用代表用户感兴趣的主题分首先通过微博的文字特征,判断其是否为转发微博;如果是,则r:1,转发部分d与各主题之间的关系是否为门,r:0,从参数为的dirichlet分布中抽取用户与各主题之间的关系六,从参数或的多项分布中抽取当前词组所属的主题·,整个微博集中,z的概率分布是
p(z,0 1 r,au'art):p(o au)(l-r)p(z···(3)在确定主题后,从参数为丌的预算分布中抽取,来确定当前词组是否选择背景主题。如果,:1,从参数为的多项分布中抽取具体词组仂;否则,从参数为的多项分布中抽取词组仂·
综合上,一条微博所有词的联合概率分布是
一条微博的生成过程如图3所示·
1。绘图、目录(_)、目录(7)
2.对于每个主题t=
a)牵引、导向(_)
3·每次使用
=1,“·,u
对于每个微博d,如果d是一个微微博draw 04=ort-dir(art)else draw=、d u)draw zu.d、m t),对于d draw yu中的每个单词wn,d.n~m t丌)
wu,d.n,m视柘@2)否则,=0 tvu.d.n,multi()b)端到端
图3基于rt·lda模型的微博生成过程
图3基于rt-lda的微博生成过程
2.4模型推进
通常的主题模型推导出采用抽样算法(sampling based algorithms)和变分法〈variational algorithms)。RT-LDA模型将采用吉布斯(Gibbs)样[13]推导出,这是一种快速高效的MCMC(Markov Chain Monte Car Tail)抽样方法,构造接收某目标概率分布的Markov链,并从链中抽取被认为接近概率分布值的样本。·
吉布斯样本的过程是依据估算文献中每个词对应每个主题的条件概率,表示成p():=丿
,d,··············································
进一步分析条件概率[14],可以得到
P(Z)
W(5)乥+一1练习+ta-1
W—1
其中,c和c分别是W兴t和D兴t的矩,前者代表词·的主题是丿的次数,后者代表文件档d中主题是j的词的数目·式(5)右边分两部分,前者可以看成是主题的概率,后者则是主题j在文件档d中的分布情况·一旦被认为是主题j,则会加大其他词是主题j的概题j的概题。比率同样,如果主题j在document d中频繁出现,那么document中词是主题j的概率相应增加·
在吉布斯抽样计算法开始时,需要随机确定词条的主题,并初始化c和c accru,接对式
特技
5)反复代························································································
在吉布斯抽样过程中取出的样本直接给出了每个词的主题,当需要将模型用于测试数据时,可以提出和0的估计是
cyt+(6)eckyt+w_
为此,rt-lda模型通过Gibbs抽样的方法获得了words上的概率分布和micro-bog上的概率分布,
3主题调查实验
3·1实验步骤
按照以下步骤进行实验·
(1)将训练数据集根据作业者分类,采用rt一lda模型进行实验,
2)将测试数据收集根据作业者分类,利用1)中获得的预测模型和六推断测试微博的主题分布(3)利用其他数据挖掘模型对同一数据进行实验,比较结果。
3·2 RT-LDA模型参数
在rt“lda模型中,主要存在三类超额参数:a和7·,根据文献贡献[14]中对这些超额参数的研究,本文献取得经验值:t:100m:50/t:0.01,7:0.5,其中t代表了整个数据集上的主题总量,可以根据真实数据集的情况进行调整。·
3.3实验结果
针对中文微博主题实验的结果,通过人工评价的方法对实验结果逐步进行分析,评价的目的是确定主题的关键词类是否符合,主题与主题之间是否相互独立·····
分类完全正确,记录s,=1;如果关键词有歧义,可能属于不同的主题,记录s,=1/“(代表可能的主题数目的,为实验的方便当,本文献取“:2);如果关键词无意义或分类错误,记录s:0·本文献实验中采用的参考模型是标准的IDA模型和文献[15]中提出的组合多条微博形成长微博的模型(后文用aggregate model表示)·本文定义了分类的计算公式
分数
(8)其中t代表了所有属的主题,刀具代表了每个主题中的关键词。计算的结果如图4所示。·
从结果中可以看出,三种模型的效果都不错:rt一lda模型充分考虑了主题选择的因素,相比较标准lda模型纯从文本本体选择主题变更合并(由于文本短,导致主题信息不足),也说明lda模型虽然可以应用于短文本中,但本本体不是为此设计;聚合模型由于合并同一用户的大量微博,本文认为,它造成了一些微博主题信息的丢失,因为每一条微博都可能包含一个特定的主题···········································99
微博即一段文字,包含一个主题·
80%
70%
60%
50% 40%
30%
20% 10%
氧%
AVG评分
图4主题模型的结果比较
图4不同主题模型的比较
在研究主题模型的过程中,可以采用基于困惑的方法对模型进行评估,来确定模型在数据集上的扩展性,困惑是度量概率图模型性能的重要指标[16],其定义是
困惑(D_st)exp
(9)
其中,d为测试集,为测试集中可观测的数据,nd是words的总数,当与标准LDA模型比较时,如果困惑值较小,则表示模型的建模效果更好,在相同的参数下,分别计算不同模型的困惑,结果如图5所示·
6 8特技