第期于兴隆等 : 基于用户行为的高校 BBS 热帖预测模型 49 相关概念及数据描述. 论坛网络模型在互联网论坛中, 用户之间通过帖子的回复关系可建立明显的连接关系随着时间的推移帖子的发布和用户的增加, 用户之间的关系也逐渐复杂, 将会形成庞大的网络我们可以发现用户之间的关系与言论和话题之

第 30 卷第期计算机应用与软件 Vol 30 No. 203 年月 ComputerApplicationsandSoftware Jan.203 基于用户行为的高校 BBS 热帖预测模型于兴隆李丽萍吴斌 ( 北京邮电大学计算机学院北京 00876) 摘要校园 BBS 是高校网络舆论的主要载体, 反应了大学生的舆论倾向以及生活的各个方面, 高校 BBS 的实证研究具有重要的意义如何高效地对帖子的热度进行预测是发现突发网络舆情的基础, 对网络舆情的研究具有重要的意义以一高校 BBS 实际的数据为研究对象, 对帖子和用户进行深入分析, 提出一种基于用户行为的高校 BBS 热帖预测模型, 通过实验分析, 该方法可以对论坛中的热帖进行较好的预测关键词热帖预测用户聚类人类行为动力学高校 BBS 中图分类号 TP39 文献标识码 A DOI:0.3969/j.isn.000 386.203.0.0 PREDICTIONMODELFORHOTCOLLEGEBBSPOSTSBASEDONUSERBEHAVIOUR YuXinglong LiLiping WuBin (SchoolofComputerScience,BeijingUniversityofPostsandTelecommunications,Beijing00876,China) Abstract CampusBBSisthemaincarierofcolegenetworkspublicopinion,itreflectsthetendencyofcolegestudents publicopinions aswelasvariousaspectsoftheirlife,theempiricalstudyoncolegebbshasimportantsignificance.howtoeficientlypredictthehotdegree ofthepostsisthebaseofthediscoveryofunepectednetworkspublicopinion,andisofsignificanttothestudyofnetworkspublicopinions. Inthispaper,wetaketheactualdataofauniversityBBSastheresearchobject,andmakein depthanalysisonthepostsandtheusers.we thenputforwardapredictionmodelforhotcolegebbspostswhichisbasedonuserbehaviour.throughtheeperimentalanalysis,this methodisprovedtobeabletowelpredictthehotbbsposts. Keywords Hotpostsprediction Userclustering Humanbehaviourdynamics ColegeBBS 0 引言随着互联网技术的发展, 高校网络舆论的载体变得越来越广泛, 各类网站的公共论坛校园 BBS 社交网站学生个人网站博客微博等为个人观点的表达和传播提供了一个自由的公共平台, 权威中心化等得以消解, 每个大学生都可以成为信息的发布者但从目前的调查情况看, 高校网络舆论的主要载体还是校园 BBS [] 基于 BBS 的舆情研究已经成为当前一个研究热点和难点目前,BBS 舆情研究大部分都是围绕社会学传播学以及心理学文本挖掘等角度进行展开, 分析手段的限制使得大部分研究仍停留在探索阶段如文献 [2,3] 建立情感激励模型来模拟回复量的变化情况, 对于预测起到一定的借鉴作用 ; 文献 [4] 从网络拓扑结构进行分析, 但没有涉及现实论坛情况 ; 文献 [5] 提出了一种基于隐马尔科夫的网络舆情预测模型, 但是不能对网络舆情突发事件进行预测对于网络舆情的发现目前主要以文本分类和聚类为主要研究手段, 文献 [6] 从帖子回复结构出发, 利用词语的潜在影响力进行聚类, 发现当日的十大热贴, 但是准确率和查全率都偏低, 而且这种方法有滞后性文献 [7] 利用粗糙集结合集成学习的方法建立网络舆情分类模型, 对网络舆情的预测进行了初步的探索本文针对 BBS 论坛帖子热度预测问题, 提出了基于用户行为的热帖预测模型, 其流程如图所示, 论坛数据采集模块用来收集高校 BBS 数据, 作为研究的真实数据源 ; 用户和帖子特征分析主要包括了基于用户行为的聚类分析典型的长贴时间间隔序列模式分析, 另外, 本文对帖子回复时间间隔分布进行了实证研究 ; 在大量数据分析的基础上, 本文提出了 7 种帖子热度的预测属性, 并结合集成分类器建立了预测模型, 最终达到 BBS 热帖预测的目的图 BBS 热帖预测模型流程图收稿日期 :202-08-07 202 中国计算机大会论文国家自然科学基金项目 (607428) 于兴隆, 硕士, 主研领域 : 数据挖掘, 社会网络李丽萍, 硕士吴斌, 教授

第期于兴隆等 : 基于用户行为的高校 BBS 热帖预测模型 49 相关概念及数据描述. 论坛网络模型在互联网论坛中, 用户之间通过帖子的回复关系可建立明显的连接关系随着时间的推移帖子的发布和用户的增加, 用户之间的关系也逐渐复杂, 将会形成庞大的网络我们可以发现用户之间的关系与言论和话题之间存在映射关系, 如图 2 所示其中 Set(U) 表示用户的集合,Set(O) 表示言论的集合, Set(T) 表示话题的集合, 言论是来自用户的集合, 一定的言论又是针对特定的话题, 可见它们之间存在一种映射关系因而通过构建用户之间的关系网络, 就可以反应用户的影响力以及间接地反应舆情的变化图 2 用户与话题关系.2 数据处理及描述本文采用爬虫技术对截止 20 年月 24 日的北邮人论坛 (htp://bbs.byr.cn/#!default) 数据进行了的全站爬取为了方便后面的研究, 本研究中把抓取到的 html 格式的网页文件通过解析转化为设定的 XML 文件格式和 SQL 文件格式为了研究论坛群体用户发帖时间间隔的分布规律和长帖的典型模式, 抽取了每个话题所有帖子的发帖时间, 并计算了相邻发帖时间的间隔, 选取了几个典型的版面作为研究的对象, 数据整理结果如表所示表回帖时间间隔整理结果版面总话题数总间隔数最长贴回复数燕赵情怀 40 674 7 情感天空 226 35582 524 足球吧 2045 32687 257 缘来如此 256 7900 856 笑口常开 350 72389 784 谈天说地 770 24523 529 根据定义的用户行为数据格式, 对 57584 注册用户的行为数据进行了统计用户行为数据的格式为 : 用户名, 总发帖量, 发主贴数, 发回帖数, 总共使用过版块数量,20 年发贴量, 其他年份发帖量, 一天中每六个小时的发帖数汇总其中, 发主贴数和发回帖数反应了用户的使用倾向, 总共使用过的板块数量反应了用户兴趣的集中程度 20 年发贴量反应了用户近期活跃度, 一天中每六个小时的发帖数反应了用户的发帖的时间规律以上定义的数据格式从用户兴趣和使用时间分布等方面反应了用户行为特点为了对基于用户行为的角色识别的有效性进行验证, 本文整理了论坛注册用户的等级数据库, 全论坛共 4 名站务用户账号,225 个管理员用户账号, 其他为普通用户账号为了对热帖进行预测, 本文整理了一周 (20 年 0 月 20 日 -20 年的 0 月 26 日 ) 的论坛几个热门版面的热帖以及普通帖子数据, 帖子的特征将在 3.4. 节进行详细说明 2 算法和模型 2. BBS 动力学实证研究人类的动力学行为具有非线性, 并且高度复杂, 一直是社会心理学研究的中心问题之一由于缺少人类行为的定量数据, 绝大多数以前的研究常常把人类的行为简化为可以使用泊松过程描述的稳态随机过程 [8], 即人类行为发生的速率是近似均匀的, 两个相继行为之间存在极大的时间间隔的概率很小 2005 年 Barabasi 通过挖掘分析人类活动的历史数据, 发现人类从事特定活动的行为具有阵发和胖尾的特性, 也就是说, 这些行为的发生过程是不能用泊松过程描述的 [9] 之后, 引发了学者们对这一问题极为广泛的研究已有学者的研究涉及网页浏览 [0] 短消息发送 [] 微博 [2] 博客评论 [3] [4] 在线电影点播等包含了商业行为娱乐行为日常使用习惯等众多的人类行为在这些行为中, 普遍发现有偏离泊松过程的特性这些现象显示, 除了受到生理周期强烈影响的部分行为外, 时间间隔统计所显示的非泊松特性可能是在人类行为中普遍存在的在人类行为动力学研究的初始阶段, 实证研究具有特别重要的意义本文针对论坛的发帖时间间隔进行了如下研究 2.. 概率分布模型设 X 为独立同分布的随机变量, 如果其概率密度函数满足 : p() -α () 其中,α 为标度指数, 称 X 服从幂律分布对于连续幂律分布 : p()d=p( X +d)=c -α d (2) 其中 C 为标准化常量, 当 0 时发散, 因此存在的下限使得式 (2) 成立根据标准化条件 C -α d=, 解得 C =(α- ) α-, 且 α> 概率密度函数可以写为: p()= α- -α ( ) 其累计概率分布函数为 : P()= p()d= ( ) -α+ (3) (4) 对于离散幂律分布,p()=P(X=)=C -α, 同理, 取并标准化后, 可以表示为 : -α p()= ζ(α, ) (5) 其中,ζ(α, )= =0(+ ) -α 回帖时间间隔是离散型的随机变量, 本文采用后者建模 2..2 参数估计本文采用极大似然法对计算幂指数, 根据文献 [5] 提出的方法, 先求出其似然函数 : p( α)= n -α ( i ) α- 对其求对数后对参数求导, 可以得到参数方程 : ( ) α^=+n ln i - (6) (7)

50 计算机应用与软件 203 年这个方程给出了估计的幂指数的值然而, 在现实网络应用中, 更多的是离散的度序列值, 简单地把离散的度看成是连续的度来分析计算, 得出的结果就会存在偏差对于离散的度来说 : -α p()= ζ(α, ) (8) 其中,ζ(α, )= (+ ) -α 为 zeta 函数, 累计分布为 : =0 同理可以推导出 : P()= ζ(α,) ζ(α, ) ζ (α^, ) ζ(α^, ) (9) =- ln( n n i ) (0) 理论上可以从方程解出幂指数事实上精确的解很难获得, 文献 [5] 通过一个模糊的整数函数 F() 获得近似解法 (F() =f()), 可得到参数的近似估计值 : - i ( ) α^ +n ln -0. 5 () 用连续的度的逼近来代替离散度值的偏差很小, 经验证明 6 时偏差极小 2..3 假设检验依对于的求解过程中, 或者假定其为已知的值, 比如假设其为 X 序列的最小值, 或者从图中直观地观测得到, 这样处理往往会给计算带来误差文献 [5] 引进了 KS 统计量, 较好地解决了这个问题,KS 统计量的基本算法在于寻找 2 个分布的最大距离, 它既可以用来检验样本是否来源于给定分布, 也可以检验 2 个样本分布是否相似 K = ma F ()-S() (2) 式中,F () 是拟合的累计分布,S() 是基于样本的经验累积分布基于最小的 K 值的就是所求的统计量这种方法不仅使用于检验幂律分布, 对于检验其他的分布也是适用的对于检验幂律分布的拟合优度而言, 这个时候的 F () 和 S() 的代表的分布变为 :F () 为拟合最好的累积分布,S() 为满足给定幂律条件下随机产生的分布 ( 包括在内 ) 本文采用 p 0.05 作为对于 KS 统计量拒绝原假设检验标准 2.2 基于 FCM 算法用户行为聚类 2.2. 模糊 C 均值聚类本文采用了 FCM 算法, 即模糊 C 均值算法 [6] 它是一种基于划分的聚类算法, 基本思想为通过聚类过程, 使得被划分到同一簇的对象之间相似度最大, 而不同簇之间的相似度最小它是对普通 C 均值聚类算法 (K MEANS 算法 ) 的改进, 后者对于数据的划分是硬性非此即彼的而 FCM 则通过加入模糊集合的概念, 实现了一种柔性的模糊划分 FCM 把 n 个向量 i (i =,2,,n) 分为 c 个模糊组, 并求每组的聚类中心, 使得非相似性指标的价值函数达到最小 FCM 与 HCM 的主要区别在于 FCM 用模糊划分, 使得每个给定数据点用值在 0, 间的隶属度来确定其属于各个组的程度与引入模糊划分相适应, 隶属矩阵 U 允许有取值在 0, 间的元素不过, 加上归一化规定, 一个数据集的隶属度的和总等于 : u ij =,,n (3) 那么,FCM 的价值函数 ( 或目标函数 ) 为 : J(U,c,,c c )= J i = j u m ijd 2 ij (4) 这里 u ij 介于 0, 间 ;c i 为模糊组 i 的聚类中心,d ij = c i - j 为第 i 个聚类中心与第 j 个数据点间的欧几里德距离 ; 且 m [, ) 是一个加权指数构造如下新的目标函数, 可求得使式 (3) 达到最小值的必要条件 : J(U,c,,c c,λ,,λ n )=J(U,c,,c c )+ λ j( = u m ijd 2 ij+ j λ j ( u ij -) u ij -)(5) 这里 λ j (,2,,n) 是式 (3) 的 n 个约束式的拉格朗日乘子对所有输入参量求导, 使式 (4) 达到最小的必要条件为 : u m ij j c i = (6) u m ij 和 u ij = 2/(m-) d ( ij k= d ) kj (7) 由上述两个必要条件, 模糊 C 均值聚类算法是一个简单的迭代过程在批处理方式运行时,FCM 用下列步骤确定聚类中心 c i 和隶属矩阵 U 算法 FCM 算法输入 : 聚类样本数据和要求的聚类数目输出 : 隶属矩阵和聚类中心步骤用值在 0, 间的随机数初始化隶属矩阵 U, 使其满足式 (3) 中的约束条件步骤 2 用式 (6) 计算 c 个聚类中心 c i,,,c 步骤 3 根据式 (4) 计算价值函数如果它小于某个确定的阈值, 或它相对上次价值函数值的改变量小于某个阈值, 则算法停止步骤 4 用式 (7) 计算新的 U 矩阵返回步骤 2 2.2.2 聚类评价指标为了对聚类的结果进行正确评价, 确定最佳的聚类数, 本文通过分析已提出的 5 种模糊聚类有效性指标, 即 : 划分系数 [7], 改进的划分系数 [8],XB 指标 [9] [20],PBMF 指标和 ZWJ 指标 [2], 对比发现近年提出的 PBMF 指标和 ZWJ 指标可以较好的反应聚类的质量, 本文以两者的乘积作为聚类的综合评价指标其中, 划分系数定义为 : 改进的划分系数 : V pc (U;c)= n c u 2 ij (8) V pc (U;c)= (ma c u n n ij ) (9) XB 指标是目前广泛使用的指标, 其定义为 : n u m ij v i - j 2 V XB (U,V,c)= n v (20) i-v j 2 i j PBMF 指标是最近提出来的较好的聚类有效性指标, 其定义形式如下 : V PBMF (U,V,c)= c E ma i j v i-v j u m ij j -v i (2)

第期于兴隆等 : 基于用户行为的高校 BBS 热帖预测模型 5 ZWJ 指标 : V zwj = 其中 v 0 2 [ ] n i (u ij ) m j -v i i v i c ( v i -v 0 2 ) [ c ] + - n n (mau ij ) (22) = v c c i, v i - v 0 2 反映类间总变差, [ ] n i (u ij ) m 2 j -v i 反映类内总差变,- j v i n n (ma c u ij ) 包含改进的划分系数, 反映划分结果是否分明, 其值愈小, 则划分愈分明, 同时该值也可做为校正值使用通过对比分析, 本文选定表现较优的后两个指标的乘积作为本文的综合指标即 V ot =V PBMF V zwj, 该指标越小, 聚类效果越好 2.3 基于关键点的回贴时间间隔序列聚类本文首先采用了文献 [22] 中的关键点选择算法 KPSegmen tation(keypointssegmentation) 对时间间隔序列进行了关键点的抽取该方法将时间序列中重要的信息点全部提取出来, 有效地去除了时间序列中的噪声与重要性小的数据点设 X = (, 2,, n ) 与 X 2 =( 2, 22,, 2n ) 为两条原始时间序列, 则通过 KPSegmentation 算法处理后, 将得到两条时间关键点序列 X =( m, m2,, ms ) 与 X 2 =( n, n2,, np ) 在找出时间序列的关键点之后, 需对时间序列间求相似度研究中本文采用欧氏距离这一最常用的度量方法计算时间序列之间的相似度该方法具有运算速度快, 复杂度低的优点对于 n 维空间的两个点, 它们之间的欧氏距离为 : d= ( - 2 ) 2 +( 2-22 ) 2 + +( n - 2n ) 2 (23) 槡关键值时间序列 X 与 X 2 在大多数情况下是不等长的, 也就无法直接求出两者间的欧氏距离本文采用了对两者的时间点取并集, 只留下在关键点序列 X 与 X 2 上都存在的时间点上的数据, 这样再次简化后的时间序列就变为等维的了之后便可使用上式即可求得二者之间的欧氏距离, 作为两条时间序列相似程度高低的评判依据最后, 在获取任意两个时间序列的相似度后, 采用基于 FCM 聚类算法进行聚类分析 2.4 论坛热帖预测 2.4. 热帖预测属性本文利用数据挖掘的方法来对高校 BBS 中的热帖进行预测鉴于网络中帖子的变化是一非线性运动, 成为热帖需要一个过程, 因此, 在研究中本文并没有关注帖子的内容, 而是在分析了大量数据的基础上, 从帖子参与者和回复帖子的属性上提取了 7 个特征作为热帖预测属性 ) 发帖人影响力研究发现在论坛中影响力较大的用户的帖子往往容易引起大家的关注, 因此, 发表的帖子是否会成为热帖是和发帖人有一定的联系本文从两个方面来定义用户的影响力, 根据用户聚类的等级 UserClas(i) 和回复网络拓扑结构中用户影响力的评定系数 PageRank(i) 的乘积作为综合评定指标 ; 则用户 i 的综合影响力 : Influence(i) =UserClas(i) PageRank(i) (24) 2) 回复者平均影响力帖子参与者的影响力也会影响到帖子的发展, 活跃的回复者往往会推动帖子的快速发展和发帖人影响力的影响力计算相同, 本文将参与帖子 j 的回复者的平均影响力作为一个特征 ; AvgReInfluence(j)= U i i U j UserClas(i) PageRank(i) (25) 其中,U i 代表了参与帖子 j 的前 n 个回复帖的用户集合, U j 代表了用户的数目 3) 用户交互率通过对帖子的观察分析, 一些热门帖子往往会引起大家的讨论和意见的交流, 从而用户之间的引用和交互的频率较大话题 j 的参与者之间的交互率定义为 : InteractiveRate(j) t = QuoteNum(j) t ReplyNum(j) t (26) 其中,QuoteNum(j) t 代表在 t 时刻帖子 j 参与者之间的引用次数,ReplyNum(j) t 表示在 t 时刻帖子 j 的总共回复数量 4) 回复率属性 R(Δt) i 反映了帖子在一段时间内的发展变化, 热帖一般会在短时间内有较大的波动 R(Δt) i = R(t ) i -R(t 0 ) i t -t 0 t t 0 (27) R(t ) i 表示帖子 i 在 t 时刻的回复量,R(t 0 ) i 表示帖子 i 在 t 0 时刻的回复量 5) 平均回帖时间间隔热帖会在相对短的时间内吸引大家的关注, 表现在前 n 帖的平均回复时间间隔与普通帖相比会相对较小定义为 : ReplyInterval(n) j = T(n) j-t(0) j n (28) 其中,T(n) j 表示帖子 j 的回复量达到 n 的时刻本文选取帖子的前 20 回帖的平均回复时间间隔作为预测指标 6) 系统回复密度参照文献 [23] 定义系统的回复密度, 此值越大说明当时 BBS 系统有大量的用户在关注最新发表的帖子 BBS 系统越有可能存在新的热帖 RM(t)=[rb(Δt)+ob(Δt)] lg2[rb(δt)+ob(δt)+] rb(δt)+ob(δt)+ (29) 其中,ob(Δt) 表示 Δt 时间内到达 BBS 系统的主贴数量,rb(Δt) 表示 Δt 时间内到达 BBS 系统的新帖的回帖数量 7) 回帖占有率参照文献 [23] 定义某话题的回复集中度, 此值越大说明当时 BBS 系统有大量的用户在关注该帖子, 该话题越有可能成为新的热帖 RP(Δt) j = rb j(δt) lg2[orb(δt)+] orb(δt)+ (30) 其中,orb(Δt) 表示 Δt 时间内被回复过的新帖的数量 ;rb j (Δt) 表示 Δt 时间内帖子 j 的回复量本文将第 3, 第 4, 第 6 和第 7 属性的观测时间设定为主帖发帖后的 20 分钟 2.4.2 分类器本文中选用 KNN C4.5 和基于 Adaboost 的集成分类器作为实验分类器 )KNN(K 最近邻分类算法 ):KNN 是一种基于样本密度评估的简单机器学习分类算法算法采用向量空间模型来分类, 概念为相同类别的样本, 彼此的相似度高, 而可以借由计算与已知类别样本的相似度, 来评估未知类别样本可能的分类 2)C4.5( 决策树算法 ): 决策树算法是一种逼近离散函数值的方法它是一种典型的分类方法, 首先对数据进行处理, 利用归纳算法生成可读的规则和决策树, 然后使用决策对新数据进行分析本质上决策树是通过一系列规则对数据进行分类的过程 3)Adaboost:Adaboost 是一种迭代算法, 其核心思想是针对

52 计算机应用与软件 203 年同一个训练集训练不同的分类器 ( 弱分类器 ), 然后把这些弱分类器集合起来, 构成一个更强的最终分类器 ( 强分类器 ) 其算法本身是通过改变数据分布来实现的, 它根据每次训练集之中每个样本的分类是否正确, 以及上次的总体分类的准确率, 来确定每个样本的权值将修改过权值的新数据集送给下层分类器进行训练, 最后将每次训练得到的分类器最后融合起来, 作为最后的决策分类器使用 Adaboost 分类器还可以排除一些不必要的训练数据特征, 并将重点放在关键的训练数据上面本文选用 C4.5 作为基分类器, 通过 AdaBoost 算法进行多轮迭代, 每次迭代增加错分样本的权重, 最终通过投票产生强分类器 2.4.3 评价指标本文选择的精度指标召回率指标, 以及 F 值的得分作为系统评价指标这些指标定义如下 : precision= recal= {truehotposts} {detectedposts} {detectedposts} {truehotposts} {detectedposts} {truehotposts} (3) (32) F=2 precision recal (33) precision+recal 其中 {truehotposts} 是热帖的集合,{detectedPosts} 是所有被检测帖子的集合在本文中, 帖子被分类成热帖和普通帖子 3 实验与分析 3. 时间间隔幂律分布和聚类表 2 时间间隔幂律分布版面该版最长贴幂律全版块幂律燕赵情怀.4783.604 情感天空 2.366 2.47 足球吧.6406 2.3932 缘来如此.8284.4890 笑口常开 2.0455 2.2304 谈天说地.7849 2.5396 从表 2 可以看出, 该论坛各个版的回复时间间隔大体满足.5 至 2.5 的幂律分布结合长贴时间间隔序列的聚类结果, 长贴的整体演变过程, 可以分为以下几类 : 帖子的关注度会随着时间逐渐降低, 表现在回帖的密集程度逐渐降低, 如图 3 中 (a) [3] 组, 基于兴趣随时间不断衰减的模型可以较好地解释此类帖子现象 ;(c) 组中贴子的回复开始非常少, 后面却引起了大量的回复, 这种情况的帖子数量较少 ; 大部分帖子的回复频率会随着时间先逐渐增加, 后逐渐减少, 如图 3 中 (b) 组人们的回帖行为与人们的兴趣和对事物的关注度有着密切联系, 通过分析大量的数据, 发现帖子被回复趋势并不都是随时 [9,3,24,25] 间严格递减的, 而已有的人类动力学模型基于的假设都不能很好的解释该论坛回帖行为图 3 典型的长贴时间间隔序列模式 ( 其中一个竖线表示一次帖子回复 ) 3.2 用户聚类结果描述为了对聚类结果进行有效评估, 本文用 PBMF 指标和 ZWJ 指标的乘积作为有效性的综合指标 V ot 根据两个指标的性质, 可知当 V ot 值越小聚类的效果越佳本文总共做了组实验, 即聚类数 K 的实验范围定在 2-2 之间表 3 是实验的结果表 3 聚类指标记录聚类数 V PBMF ( 0-3 ) V ZWJ V ot ( 0-3 ) 2 0.92878.056.0278 3.4 0.5489 0.76846 4 2.0 0.3822 0.7644 5 2.2 0.3408 0.74976 6 2.3 0.377 0.8549 7 2.3 0.3650 0.8395 8 2.5 0.3658 0.945 9 2.5 0.3782 0.9455 0 2.7 0.3775.0925 2.9 0.386.0664 2 3. 0.3829.8699 从图 4 可以看出, 第 4 组, 即聚类数为 5 时, 综合有效性指标值最小, 聚类的效果最佳此时 5 个聚类中心属性值分布如图 5 所示

第期于兴隆等 : 基于用户行为的高校 BBS 热帖预测模型 53 图 4 聚类指标变化曲线了 23 名真实管理员和 42 名行为活跃的普通用户第四类和第五类为普通用户, 正确率达到 99% 以上充分说明了基于用户行为聚类的角色识别的有效性 3.3 论坛热帖预测结果首先, 本文将 9 组实验结果做了一个对比, 结果如图 6 所示, 包括 AdaBoost 集成分类器,C4.5,KNN 算法以及基于主成分分析后的实验结果本文采用主成分分析试图发现向量空间降维后对分类预测的影响例如, 图 6 中 3-C4.5 代表在数据降到 3 维后应用 C4.5 算法的分类预测效果从图 6 中可以看出, 热帖的预测识别可以达到较高的准确率和召回率其中,AdaBoost 和 C4.5 在所有的实验组中均保持了较高识别效率 AdaBoost 集成分类器在所有组实验中表现得最优, 充分说明了采用基于 AdaBoost 的集成分类器的有效性 C4.5 算法对于本文的分类是一种具有健壮性的可选用的分类器, 虽然在实验效果上比 AdaBoost 显的略差在使用主成分分析之后, 所有的分类器的效果都开始变差图 5 聚类中心基于聚类结果, 本文对每类用户进行了分析, 并基于行为进行了用户论坛角色识别结果如下 : ) 超级管理员类型即站务人员, 人数最少仅人, 他们的累计发帖量最多, 回帖数量与主贴数量的比例约为 49 关注版面数的平均值接近 00 个, 涉及了论坛 60% 以上的版块在一天内不同时段发帖累计频率依次上升, 且即使在 0-6 时这段时间, 也保持了最大的累计发帖量这一类用户属于论坛最活跃的用户 2) 积极管理员类型人数较少为 56 人, 平均发帖数相较于第一类用户要减少一半, 平均值接近 5000 贴, 其中回帖数量与主贴数量的比例约为 5 关注的版面数为 85 个左右一天之内发帖平稳, 且在晚间较为积极 3) 活跃用户与管理员混合类型人数稍多达到 299 人此类用户包含普通用户中最为活跃的一部分人, 总发帖量在 700 左右, 回帖数量与主贴数量的比例约为 0 关注和参与的版面数在 54 个左右 4) 稍活跃的普通用户人数到达近 2000 人, 占论坛用户人数 3.36% 这类用户较为活跃, 参与的版面数达到 30 个左右, 各个时间段发帖较为平稳回帖数量与主贴数量的比例约为 9 5) 普通用户人数达到用户总数 96% 以上他们的特点是参与关注的版数较少, 仅为 5 个版块左右发布和回复帖子的数量在 0 贴左右这个级别这类用户的行为很不积极, 极少参与话题讨论回帖数量与主贴数量的比例约为 3.76 从以上分析中, 我们发现论坛的 96% 注册用户的活动并不积极, 少数用户创造了论坛上的大部分信息为了验证角色识别的有效性, 参照建立的用户等级数据库, 对推测的用户角色进行验证 : 个超级管理员类型账户全部为站务账户, 而其他 3 个站务账号被划分到了管理员级别第二类和第三类总共包含图 6 论坛热帖预测的 9 组实验结果之后, 本文分析了不同类别的属性对分类预测结果的影响, 即帖子参与者的特征属性和帖子的特征属性, 实验结果如表 4 表 5 所示从表中我们可以看出帖子的特征属性是预测帖子热度的重要指标, 而帖子参与者的特征在热帖演变过程中也起到了重要的作用表 4 帖子参与者的属性特征实验结果 AdaBoost C4.5 KNN 热帖准确率 0.727 0.684 0.443 热帖召回率 0.656 0.639 0.705 热帖 F 值 0.69 0.66 0.544 普通帖准确率 0.865 0.856 0.84 普通帖召回率 0.899 0.879 0.638 普通帖 F 值 0.882 0.868 0.725 表 5 帖子的特征属性实验结果 AdaBoost C4.5 KNN 热帖准确率 0.85 0.825 0.5 热帖召回率 0.836 0.852 0.738 热帖 F 值 0.843 0.839 0.596 普通帖准确率 0.933 0.939 0.867 普通帖召回率 0.94 0.926 0.698 普通帖 F 值 0.936 0.932 0.773 [7] 另外, 同吴焕政等提出的方法相比, 尽管两者用到的数据集不一样, 但都是针对 BBS 论坛热帖展开的研究, 结论具有一定相似性, 与文献 [7] 中对于天涯杂谈中的突发舆情帖子预测的准确率 0.467 和召回率 0.667 相比, 本文对于高校 BBS 热帖的预测的准确率 0.933 和召回率 0.883 均取得了一定的进步

54 计算机应用与软件 203 年 4 结语校园 BBS 是高校网络舆论的主要载体, 反应了大学生的舆论倾向以及生活的各个方面, 高校 BBS 的舆情研究具有重要的意义本文针对高校 BBS 热帖预测问题, 提出的基于用户行为的热帖预测模型该模型以一个高校 BBS 的实际数据为研究对象, 从用户和贴子的特征分析入手, 研究发现帖子回复时间间隔服从幂律分布, 通过基于用户行为的聚类研究, 对用户的论坛角色进行了有效的识别, 并从用户和帖子两个角度, 提出了 7 种帖子热度预测的特征属性, 结合集成分类器建立了预测模型, 通过实验证明了对高校 BBS 热帖预测的有效性本文下一步将以多个 BBS 为研究对象, 如果把研究对象扩展为多个 BBS 将更能体现 BBS 热帖预测的普遍意义, 并结合一定的文本分析技术, 进一步提高热贴预测的效率参考文献 [] 蒋研川, 肖铁岩, 凌晓明, 等. 新媒体环境下高校校园网络舆论的现状及引导策略研究 [J]. 重庆大学学报 : 社会科学版,202,8(): 36 42. [2] 曾祥平, 方勇, 等. 基于元胞自动机的网络舆论激励模 [J]. 计算机应用,2007,27():2686 2688,274. [3] NaruseKM.LognormaldistributionofBBSarticleanditssocialand generativemechanism[c]//webinteligence:proceedingsofthe2006 IEEE/WIC/ACM internationalconferenceonwebinteligence.wash ington:ieeecomputersociety,2006:03 2. [4]GreenDG,LeishmanTG,SadedinS.Theemergenceofsocialconsen susinbooleannetworks[c]//proceedingsofthe2007ieeesymposi umonartificiallife.washington:ieeecomputersociety,2007:402 408. [5] ZengXP,ZhangSY,WuCY.Predictivemodelforinternetpublico pinion[c]//fourthinternationalconferenceonfuzysystemsand knowledgediscovery(fskd2007).washington:ieeecomputersoci ety,2007:7. [6] 高俊波, 安博文, 王晓峰, 等. 在线论坛中潜在影响力主题的发现研究 [J]. 计算机应用,2008,28():40 42. [7] 吴焕政, 吴渝, 肖开州. 基于粗糙集和集成学习的 BBS 网络舆情分类 [J]. 广西大学学报 : 自然科学版,2009,34(5):696 699. [8]HaightFA.HandbookofthePoisondistribution[M].NewYork,967. [9] Barabasi,Albert Laszlo.Theoriginofburstsandheavytailsinhuman dynamics[j].nature,2005,435(7039):207 2. [0] DezsoZ,AlmaasE,LukacsA,etal.Dynamicsofinformationacceson theweb[j].phys.rev.e,2006(73):06632. []HanXP,ZhouT,etal.Heavy tailedstatisticsinshort mesagecommu nication[j].chinesephysicsleters,2009,26(2):028902. [2] YanQ,YiL,WuL.Humandynamicmodelco drivenbyinterestand socialidentityinthemicroblogcommunity[j].physicaa:statistical MechanicsanditsApplications,202,39:540 545. [3] 郭进利. 博客评论的人类行为动力学实证研究和建模 [J]. 计算机应用研究,20,28(4). [4] ZhouT,KietH,KimB,etal.Roleofactivityinhumandynamics[J]. EurophysLet,2008,82:28002 28006. [5]ClausetA,ShaliziCR,NewmanM EJ.Power LawDistributionsin EmpiricalData[J].SIAM Review,2009,5(4):66 703. [6] 齐淼, 张化祥. 改进的模糊 C 均值聚类算法研究 [J]. 计算机工程与应用,2009,45(20):33 35. [7]BezdekJC.Clustervaliditywithfuzysets[J].JournalofCybernetics, 974,3(3):58 72. [8] 范九伦, 吴成茂, 丁夷. 基于样本最大分类信息的聚类有效性函数 [J]. 模糊系统与数学,200,5(3):69 74. [9] XieX L,BeniG.A validitymeasureforfuzyclustering[j].ieee TransactionsonPaternAnalysisandMachineInteligence(PA MI), 99,3(8):84 847. [20] PakiraM K,BandyopadhyayS,MaulikU.Validityindeforcrispand fuzyclusters[j].paternrecognition,2004,37:487 50. [2] 朱文婕, 吴楠, 胡学钢. 一个改进的模糊聚类有效性指标 [J]. 计算机工程与应用,20,47(5):206 206. [22] 杜奕, 卢德唐, 李道伦, 等. 一种快速的时间序列线性拟合算法 [J]. 中国科学技术大学学报,2007,37(3):30 34. [23] 杨梅. 网络舆情热点发现的研究 [D]. 北京 : 北京交通大学,2008. [24] 邓竹君, 张宁, 李季明. 截止时间对人类动力学模型的影响 [M]// 郭进利, 周涛, 张宁, 等. 人类行为动力学模型. 香港 : 上海系统科学出版社,2008:29 34. [25] 戴双星, 陈冠雄, 周涛, 等. 兴趣驱动的人类动力学模型研究 [M]// 郭进利, 周涛, 张宁, 等. 人类行为动力学模型. 香港 : 上海系统科学出版社,2008: 4 58. ( 上接第 47 页 ) 种不同并行模式实现的算法进行了相应的比较, 通过分析结果可以发现在数据量较大时基于 MapReduce 模式的并行算法处理效果更为理想尽管通过本文中的一系列对比试验中可以发现, 本文提出的算法在分类准确性上相比于其它算法有所提高, 但仍有进一步提高的空间, 另外在对比实验中发现并行化的方法分类效果有所降低, 并且对于不同数据量规模的数据, 种并行模式的完成时间略有差异, 如何充分发挥两种并行框架的优势, 提高并行算法的性能是以后工作研究中的重中之重参考文献 []SebastianiF.TetCategorization[M].EncyclopediaofDatabaseTech nologiesandapplications,2005:683 678. [2] SuJinshu,ZhangBofeng,XuXin.AdvancesinMachineLearningBased TetCategorization[J].JournalofSoftware,2006,7(9):848 859. [3] YangY.Epertnetwork:Efectiveandeficientlearningfrom human decisionsintetcategorizationandretrieval[c]//sigir 94,994. [4] CortesC,VapnikV.Supportvectornetworks[J].MachineLearning, 995,20:273 297. [5]HanEH,KarypisG.Centroid baseddocumentclasificationalgorithms:a nalysis& eperimentalresults[r].technicalreporttr 00 07,Depart mentofcomputerscience,universityofminnesota,minneapolis,2000. [6]TanS.Animprovedcentroidclasifierfortetcategorization[J].Epert SystemswithApplications,2008,35( 2):279 285. [7] TanSongbo,ChengXueqi.AnEfectiveApproachtoEnhanceCentroid ClasifierforTetCategorization[C]//thEuropeanConferenceon PrinciplesandPracticeofKnowledgeDiscoveryinDatabases,Proceed ings:58 588. [8] ShankarS,KarypisG.WeightAdjustmentSchemesforaCentroidBased Clasifier[R].ArmyHighPerformanceComputingResearchCenter,2000. [9] TomWhite.Hadoop:TheDefinitiveGuide[M].O ReilyMedia,2009. [0] DeanJ,GhemawatS.MapReduce:simplifieddataprocesingonlarge clusters[c]//osdi 04:SithSymposiumonOperatingSystemDesign andimplementation,sanfrancisco,ca,december,2004:07 3. [] EdwardJYoon.ApacheHama(v0.2):UserGuide absp based distributedcomputingframework[eb].apache.