社交网络中转发行为预测与可视分析 权义宁 2016.7.29
社交网络大数据处理平台社交网络大数据信息挖掘 egoflow 总结
社交网络大数据处理平台社交网络大数据信息挖掘 egoflow 总结
1 社交网络大数据处理平台 大数据生态圈 可视化子系统 Python D3.js 数据分析子系统 Spark Sql Graph X Spark processing 数据挖掘子系统 Mahout MLlib Hadoop Distributed File System(HDFS) 我们的技术架构 MongoDB Mesos 分布式集群 主计算平台 : 以主从方式 (1 Master+16 Slaves) 运行 在 linux(ubuntu 14.04) 集群之上, 其中 Master 配置为 4 cores,16gb 内存 ;Slave 配置为 4cores,32GB 内存 实验平台 :18 台计算机组成的集群,8 台为 Spark 集群,10 台做爬虫集群 4
社交网络数据可视化 - 系统架构 可视化模块 HTML JavaScript Servelt/JSP 数据挖掘与分析模块 Spark Streaming GraphX SparkSQL ML module MLlib Mllibextension Spark Fast memory-optimized execution engine (Python/Java/Scala APIs) Mahout Hadoop MR Redis MongoDB 数据预处理与存储模块 Tachyon Distributed Memory-Centric Storage System HDFS filesystem 数据抓取模块 Akka Netty
1 社交网络大数据处理平台我们的功能架构 数据获取 多数据源爬虫 定制爬虫 基于信息的网站 ( 微博 知乎 ) 基于社交的网站 ( 人人 ) 基于兴趣的网站 ( 豆瓣 flickr) 根据主题抓取 根据特定用户抓取 实时抓取 数据处理 数据分析 数据清洗 数据存储 Ego 网络的构建 传播级联抽取 信息特征化 文本分词 数据挖掘 基础算法模块 传播分析 圈子发现算法 Rank 排序 用户分类模型 观点提取 转发行为预测 影响力传播分析 观点与情感传播分析 可视化 网络结构可视化信息传播可视化文本聚合可视化
1 社交网络大数据处理平台数据获取 : 多数据源爬虫定制爬虫 针对存在各种格式不一的线上社针对平台的特定需求, 具体分为 : 交网站, 从社交的角度将对应的爬虫 根据主题抓取 : 依据某一个事件主的分为三个部分题对相应的数据进行抓取 ; 基于信息的网站 : 微博 Twitter; 特定用户抓取 : 对指定用户的相关基于熟人社交的网站 : 人人 信息进行抓取 ; Facebook; 实时抓取 : 根据前端需要的信息进基于兴趣的网站 : 豆瓣和 Flickr 等共行实时的更新抓取 享网站 数据获取 多数据源爬虫 定制爬虫 业务流程 基于信息的网站 ( 微博 知乎 ) 基于社交的网站 ( 人人 ) 基于兴趣的网站 ( 豆瓣 flickr) 根据主题抓取 根据特定用户抓取 实时抓取
数据处理 : 数据分析 Ego 网络的重构对离线数据以及在线数据中的数据清洗 ego 网络结构进行重复原 对获取到的不规整源数据进行过滤传播级联的提取, 对不完整的信息进行清除 传播级联是指信息在用户中一跳接一跳的传播构成的级联关系 在对清洗后的数据中找到相应的传播关系 数据存储 信息特征化将所有的对应信息分为个人信息 结对清洗后相应的数据进行离线存储备份 构信息 微博信息三大块, 将其中的全部信息特征向量 文本分词数据分析数据处理模块的核心针对源数据中微博内容进行分词操作, 提供数据格式的, 必要步骤 通过将完整的单条微博进行停用词去除等文本操作, 将整条划分为单个词向量 业务流程 数据处理 数据分析 数据清洗 数据存储 Ego 网络的构建 传播级联抽取 信息特征化 文本分词
1 社交网络大数据处理平台数据挖掘 : 基础算法模块 圈子发现算法对 ego 网络中的网络结构进行圈子划分整理 传播算法模块 Rank 排序针对数据中网络关注的结构关系主要包括微博转发的行为预测 影, 对节点重要性进行排序响力传播的模型 观点与情感传播分, 其中主要的基本算法是析等相关算法 PageRank 算法 观点提取对实时与离线数据中的微博所表达的观点进行提取, 主要利用文本挖掘算法, 围绕热点事件的微博进行观点与情感的提取 业务流程 数据挖掘 基础算法模块 传播分析 圈子发现算法 Rank 排序 用户分类模型 观点提取 转发行为预测 影响力传播分析 观点与情感传播分析
1 社交网络大数据处理平台可视化 : 业务流程 文本聚合可视化网络结构可视化信息传播可视化 对数据挖掘中得到的网络结构与圈子对单个用户 某个事件的相关文本信息进行可视化,, 结合传播过程对单条微博在主要包括词频统计信息 圈子中的转发情况进行可视化对单条微博 某个事件的相关微博在情感文本变化信息和兴趣变化信息 ; 整体网络中的传播进行可视化 同时, 对传播的路径中每个用户给出对应的影响力值 情感状态 rank 位置等与传播算法相关的结果 可视化 网络结构可视化 信息传播可视化 文本聚合可视化
社交网络大数据分析平台 http://weibo.cvnis.net/ 11
微博信息流可视化系统
微博信息流可视化系统 微博统计数据可视化 级联转发分析可视化 文本分析可视化
微博统计数据可视化 用户信息比例可视化 消息来源可视化 发布时间可视化 热门用户 热门话题可视化
微博统计数据可视化 - 地图 作用 : 以地域属性进行数据的划分 形式 : 悬浮菜单
微博统计数据可视化 - 用户信息比例 性别比例 认证比例 转发比例
微博统计数据可视化 - 消息来源 发布时间
微博统计数据可视化 - 热门用户 热门话题
级联转发分析可视化 微博转发层级可视化 微博转发时间线 微博转发层级比例 转发用户区域比例
级联转发分析可视化 - 整体视图
级联转发分析可视化 微博转发层级图布局方式 : 圆形树形布局
文本分析可视化 关键词可视化情感分析可视化 正面微博列举 负面微博列举
文本分析可视化 标签云
微博统计数据可视化 - 系统评价 微博统计数据分析可视化 : 比较不同地区的微博用户以及微博发布情况的差异 级联转发分析可视化 : 用户可以分析感兴趣的微博事件的传播规律 文本分析可视化视图 : 用户可以分析热门话题的情感倾向以及话题关注点
1 社交网络大数据处理平台算法可视化 http://weibo.cvnis.net/ 25
1 社交网络大数据处理平台 爬虫可视化 http://weibo.cvnis.net/
1 社交网络大数据处理平台爬虫可视化 管理界面 http://weibo.cvnis.net/ 27
1 社交网络大数据处理平台 微博 数据量 :167GB 用户数 :269,554 微博条数 :382,923,497 电信 数据量 :325GB 用户数 :54,168,777 条数 :9,602,160,126 Twitter 广电网络 数据量 :35GB 数据量 :37GB 用户数 :45,716 用户数 :703,607 条数 :61,550,142 条数 :140,437,006 28
社交网络大数据处理平台社交网络大数据信息挖掘 egoflow 总结
2 社交网络大数据信息挖掘 (1) 社交圈子发现 Q: 什么是 ego 网络? Alters 针对个人的社交网络 Small-scale 包括单个中心节点 (ego) 和多个邻居节点 (alters) Ego
2 社交网络大数据信息挖掘 Q: 什么圈子? (1) 社交圈子发现 以 ego 的角度对邻居节点进行整理 是将邻居节点进行聚类的过程 有实际的应用 : Google+ 中的圈子 Facebook 中的列表 Twitter 中的分组 Tang Xing,Miao Qiguang etc.. Detecting Circles on Ego Network Based on Structure. CIS2014::213-217
2 社交网络大数据信息挖掘 (1) 社交圈子发现 要点 : 1. 度量圈子的属性 : 2. 节点与圈子的关系 : 3. 节点加入圈子的条件 : Tang Xing,Miao Qiguang etc.. Detecting Circles on Ego Network Based on Structure. CIS2014::213-217
2 社交网络大数据信息挖掘 (1) 社交圈子发现 实验结果 (Gephi): Tang Xing,Miao Qiguang etc.. Detecting Circles on Ego Network by Gephi Based on Structure. CIS2014::213-217
2 社交网络大数据信息挖掘 (2) 圈子与信息传播 背景 : 局部的 ego 圈子如何作用在网络中信息传播过程? 基于病毒传播的信息传播模型 : 苗启广, 唐兴. 计算机网络病毒的传播模式分析. 中国计算机学会通讯,2012,8(7):71-75.
2 社交网络大数据信息挖掘 (2) 圈子与信息传播 局部圈子与中心节点的相关性 : 圈子本身的属性 : 圈子与中心节点的相关性 : 中心节点对圈子的传播概率 : Qiguang Miao,Xing Tang,Yining Quan. A Novel Email Virus Propagation Model with Local.UIC 2014(CCF C).
实验结果 : (2) 圈子与信息传播 局部圈子对传播有阻碍作用 不考虑圈子的情况下, 初始态到传播态的转换是平凡的 对高信任度的圈子进行免疫 Qiguang Miao,Xing Tang,Yining Quan. A Novel Email Virus Propagation Model with Local.UIC 2014 (CCF C).
2 社交网络大数据信息挖掘 背景 : (3) 转发行为预测 目前微博转发行为模型主要是基于全局转发行为数据进行学习得到的模型, 针对这类模型存在同质性 无法对特定用户进行差异性预测的问题, 提 出了一种个性化微博转发行为预测算法 唐兴, 权义宁, 宋建锋, 邓凯, 朱海, 苗启广. 基于多任务学习的微博个性化转发行为预测. 西安电子科技大学学报.(201505)
Tang X, Miao Q, Quan Y, et al. Predicting individual retweet behavior by user similarity: A multi-task learning approach. Knowledge-Based Systems, 2015, 89: 681-688. 2 社交网络大数据信息挖掘 (3) 转发行为预测 受到稀疏数据的干扰
Tang X, Miao Q, Quan Y, et al. Predicting individual retweet behavior by user similarity: A multi-task learning approach. Knowledge-Based Systems, 2015, 89: 681-688. 2 社交网络大数据信息挖掘 (3) 转发行为预测 同质化模型
2 社交网络大数据信息挖掘 (3) 转发行为预测 Task1 Task3 Task2 采用多任务学习框架, 将每个用户转发行为预 测作为一个任务 N 如何组合? 统一的模型 : 1. 解决某些用户的数 据稀疏性问题 ; 2. 对每个用户单独建 立预测模型 ; 3. 包含用户之间的社 交关系对转发行为 的影响 唐兴, 权义宁, 宋建锋, 邓凯, 朱海, 苗启广. 基于多任务学习的微博个性化转发行为预测. 西安电子科技大学学报.(201505) M 2 2 min F min ( ( y, w w x ) w w ) M M ij g i ij 0 g 2 1 i w,{ } 2 g wi i 1 wg,{ wi } i 1 i j 1 i 1 T
2 社交网络大数据信息挖掘 (3) 转发行为预测 用户之间的关系 Tang X, Miao Q, Quan Y, et al. Predicting individual retweet behavior by user similarity: A multi-task learning approach. Knowledge-Based 41 Systems, 2015, 89: 681-688.
2 社交网络大数据信息挖掘 (3) 转发行为预测 Task 1 Sim(i, j) Task 2 Multi-task Learning with similarity IRBL RUS Tang X, Miao Q, Quan Y, et al. Predicting individual retweet behavior by user similarity A multi-task learning approach. Knowledge-Based Systems, 2015, 89: 681-688. 42 42
2 社交网络大数据信息挖掘 (3) 转发行为预测 实验结果 Tang X, Miao Q, Quan Y, et al. Predicting individual retweet behavior by user similarity A multi-task learning approach. Knowledge-Based Systems, 2015, 89: 681-688. 43 43
社交网络大数据处理平台社交网络大数据信息挖掘 egoflow 总结
egoflow ego-alter 视图 alter-alter 视图
系统 数据库 :Neo4j 图数据库 Text Mining, 使用 LDA(Latent Dirichlet Allocation) Structure Mining, 确定 ego 网的结构 Interaction Strength, 使用转发微博的数目 Infulence Detection, 使用一种 Pagerank
Structure Mining 定义 : G k 是一个社区 是
Infulence Detection 定义 通过迭代来计算 第一次和第二次采用随机游走
Analytical questions
Topics 使用 LDA 进行主题分类
egoflow:ego-alter 视图 弧代表邻居节点, 中间为 ego 点, 弧的宽度代表转发量 弧的颜色代表主题分布 ( 由 LDA 算法得出的主题分布 ) 最终的颜色是由权重平均值计算的 (c) 为总体的主题颜色, 总共有七种主题, 左边为 ego, 右边为 alter, 可以看出第一种和第三种主题占比比较大
egoflow:alter-alter 视图 圈子划分, 采用力导向布局算法, (a) 圆形面积代表圈子大小, 线代表转发量, 并且为双向的 (c) 每个圈子的详细视图, 线代表转发关系, 颜色由主题分布确定, 节点大小代表 rank 值 ( 节点重要性 )
一个例子 : 回答问题 Q1 的话题排序 Topic #1 和 Topic #3 所占的时间较多
egoflow word map: ego 和特定的 alter 随时间的转发关系
egoflow 系统评价 egoflow:visual Analysis of Information Flow in EgoCentric 提供了两个信息传播视图 : 1)ego-alter: 从 ego 和 alters 之间的信息传播角度进行分析 ; 2)alter-alter: alters 之间的信息传播的角度进行分析 ;
社交网络大数据处理平台社交网络大数据信息挖掘 egoflow 总结
总结 社交网络大数据处理平台 微博统计数据 级联转发数据 文本分析数据社交网络大数据信息挖掘 社交圈子发现 圈子与信息传播 转发行为预测 egoflow ego-alter 信息传播 alter-alter 信息传播