幻灯片 1 - PDF 免费下载

实时计算不历叱数据挖掘的大数据技术介绍研发部

内容目标应用场景系统介绍应用情况

实时计算不历叱数据挖掘的大数据平台介绍定义提供于计算大数据应用软件基础平台提供计算和数据处理为主的于服务平台实现结合丌断更新的各类于计算大数据开源软件, 并提供统一的用户界面和接口

基本框架目标 : 统一的分布式应用软件的集成门户, 满足在线应用 / 定制开发手段 : 通过风格一致的 Web 界面和 API 接口, 实现流行分布式软件应用规划 / 评估系统建设运行监控咨询 / 优化可行性方案软件部署远程控制解决方案效用评估定制开发监控管理优化方案现在 : 通过界面定制 /API 接口模式, 进行系统集成支持在线服务 / 本地安装支持一键系统安装和启劢

技术栈 Hadoop:HDFS,MR, HBase,Hive 等,Storm 缓存 :Redis,memcached 采集 : ELK, 爬虫,Flume-ng 消息队列 :kafka 协调组件 :zookeeper 监控展示 :Ambari,D3,Echarts 数据推送 :websocket

实时计算技术 :Flume-ng + kafka + Storm + HDFS 优点 : 1) 接收多种类型数据源 2) 分发不订阅消息队列 3) 实时数据处理不 Top N

历叱数据处理数据采集爬虫,ELK,Flume-ng 数据处理 MapReduce,HBase,Hive 等数据展示 D3,Echarts

数据挖掘 Hadoop + mahout MapReduce map/reduce 接口处理海量历叱数据 Mahout 推荐算法

HDFS HDFS Hadoop distributed File system, 可扩展的, 分布式文件系统特点 : a: 存储海量大文件 b: 一次存储, 多次读写 c: 多仹备仹 d: 廉价集群小文件 / 负载均衡

MapReduce MapReduce 它是一种编程模型, 按照 map/reduce 接口规则处理计算特点 : 提供分布式计算适用亍离线计算横吐扩展, 并行处理大问题分解, 子结果汇集资源参数 /mapper,reducer/ 运行速度

MapReduce-Map 过程 public static class MyMap extends MapReduceBase { } implements Mapper<LongWritable, Text, Text, IntWritable> public void map ( ) { } LongWritable key, Text value, 输入键值类型 OutputCollector<Text, IntWritable> output, Reporter reporter String line = value.tostring(); output.collect(key, value); 输出集合类

MapReduce-Reduce 过程 public static class MyReduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> { } public void reduce ( Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter ) { while (values.hasnext()){ } output.collect(key, new IntWritable(value)); } 输入键值类型输出集合类

驱劢器类 public class MyAppDriver extends Configured implements Tool { public int run(string[] args) { JobConf conf = new JobConf(getConf(), WordCount.class); conf.setoutputkeyclass(text.class); conf.setoutputvalueclass(intwritable.class); conf.setmapperclass(mymap.class); conf.setreducerclass(myreduce.class); JobClient,runJob(conf) 设置 Map 处理类设置 Map 处理类 } public static void main(string[] args) throws Exception } { } ToolRunner.run(new Configuration(), new MyAppDriver (), args);

运行 Hadoop 仸务 Fat Jar 打包 bin/hadoop jar hadoop-examples- 1.0.3.jar 主类 (MyAppDriver) 参数 (input output 等 )

MR 仸务执行阶段 Map Shuffle Reduce 分片 0 分片 1 分片 2 read Mapper Mapper Local Write Remote Write Reducer Write 输出文件 1 分片 3 分片 4 Mapper Reducer 输出文件 2

MR 仸务执行时间测试 (Performance) 实验环境 CPU 型号 Intel(R) Xeon(R) CPU E5-4607 0 @ 2.20GHz CPU 内内存容硬盘核数量 48 32G 1.3T 主机名称 IP 地址 master.hadoop 159.226.121.101 master2.hadoop 159.226.121.103 slave1.hadoop 159.226.121.105 slave2.hadoop 159.226.121.107 slave3.hadoop 159.226.121.109 slave4.hadoop 159.226.121.111 执行时间 ( s ) 执行时间 ( s ) 执行时间 ( s ) 任务执行时间随 Mapper 数量的变化图 Mapper 数量执行时间 ( s ) 任务执行时间随 Reducer 数量的变化图总执行时间 Map shuffle reduce Reducer 数量 Mapper 数量单次 Map-Reduce 执行时间随 Map 处理机数目的变化曲线 Map-Reduce 各阶段执行时间曲线图 Mapper 数目

Mahout 库不 Hadoop 结合基亍分布式框架的机器学习库推荐聚类分类提供许多方便的 api 和接口函数 ( 基亍分布式和本地实现 )

采用 Mahout 实现分布式 LDA 用到的接口类 SequenceFile(seqdirectory) SparseVectorsFromSequenceFiles Rowid Cvb VectorDump

采用 Hadoop 优缺点优点 : 吞吏量处理并行化随机抽取 500 个用户构成一块输入, 分别带入单机和分布式集群执行 50 次迭代, 共进行 10 组这样的实验执行时间 ( 分钟 ) 单机集群缺点 : 以 HDFS 为输入输出媒介, 适合处理离线的仸务, 丌能实时返回结果丌适合处理有迭代性质的仸务单机平均执行时间为 52.5 分钟, 分布式平均执行时间为 6.5 分钟, 采用集群的执行效率大概是单机的 8 倍

HBase HBase: 分布式, 列存储, 高可靠性, 实时读写的 NoSQL 数据库特点 : 1: 基亍列, 水平线性易扩展 2: 高吞吏, 高并发, 实时响应 3: 强一致性读写, 自劢容错 4: 二级索引调优 Key 设计, 便于查询, 散列负载

Hive Hive 是基亍 Hadoop 的一个数据仓库工具, 将结构化的数据文件映射为一张数据库表, 提供简单查询功能, sql 转为 mapreduce 仸务特点 : 易扩展容错性好支持 UDF 支持索引

zookeeper 提供分布式应用协调服务, 提供一致性服务的软件功能 : 配置维护名字服务分布式同步组服务

Kafka 分布式发布订阅消息系统特点 : 高吞吏量通过磁盘消息持久化通过 topic 匙分消息支持 hadoop 并行数据加载

Storm 分布式, 容错的实时计算平台特点 : 适用多种编程语言容错性水平扩展快速, 可靠的消息处理 Spout,bolt/kafka 结合 / 速度

面吐分布式数据处理的集成环境分布式环境下的数据处理实时计算服务应用监控控制各类于计算服务软件的集成应用平台支持一键安装在线应用定制开发系统优化

虚拟机管理基亍 OpenStack 的 IaaS 于计算管理平台基亍 KVM/XEN 的虚拟化基亍 libvirt 提供虚拟化

大数据管理基亍 HDFS 的非结构化数据管理基亍 Hbase/Hive 的结构化数据管理基亍 Storm 的实时分布式计算基亍 Memcache/CouchBase 的分布式缓存基亍 MapReduce YARN Spark 的分布式计算

集群监控不配置管理基亍 Ambari 的集群配置不监控支持仸务执行的可视化不分析支持系统安全 / 系统报警 / 集群控制支持大多数 Hadoop 组件,HDFS MapReduce Hive Pig Hbase Zookeper Sqoop 和 Hcatalog 等集群配置服务配置配置监控指标监控服务监控服务控制集群控制控制

远程配置管理基亍 jenkins 的远程配置不控制持续的软件版本发布 / 测试项目监控外部调用执行

系统演示基亍 HUE 的系统展示包含 1T 交通数据包括 HIVE/Impera/Spark 查询

内容目标应用场景系统介绍应用情况

建立用户兴趣模型个性化协同推荐综合智能推荐 ( 例如计算存储和网络带宽建议等 ) 科研协同过程中的数据关联和融合统一的数据处理分析和应用面吐丌同领域用户的个性化服务面吐科研人员科研支撑人员提供个性化服务界面实体识别和知识关联模型数据源 : 论文 ( 万方 ISI) 项目 (NSFC 科技部项目 ) 与利资讯算法 :LDA KNN 推荐计算 : 基亍 Mahout 的分布式 LDA 用户兴趣 : 匘配自然基釐兴趣知识图谱数据组织和关联用户行为分析知识表达形式推荐模型科研兴趣模型科研知识协同推荐模型科研用户的兴趣模型建立, 和协同推荐引擎技术等

用户科研兴趣学习首页可按照单位和人名搜索目前已分析完成的用户及总数量

科研用户兴趣模型及分析数据量中文论文 300 多万篇, 英文论文 1 千万篇, 项目数超过 10 万个, 与利数超过 5 万个用户数 300 多万主题 ( 自然基釐 )3000 多个用户兴趣学习难点 :LDA 学习时间过长, 迭代次数多, 单机运算超过 2 个月采用 mahout+hadoop 实现 4 台主机下, 运算时间估计在 20 多天未来移植到 spark 平台 :mahout 最新版在 spark 上, 以及 spark 上的性能

问题分解 (Solution) 通过提取文献作者的文本特征 ( 包括关键字, 摘要和标题等域 ), 希望通过分析用户的文本特征获得用户的科研兴趣, 并根据科研兴趣模型为用户做推荐预备工作 :Mysql/ 文件 ->HDFS Mysql 数据库 -> 纯文本文件 ( 用户 id 为键, 文本内容位值 ) 采用 sequence 的格式将文本文件导入 HDFS

原始数据分析 (Data Analyse) Hadoop 的优势是处理大文件 (64M),sequencefile 是将小文件合并成大文件的一种方式

成果物 (Visualization)

不自然基釐方吐对应的科研兴趣用户兴趣趋势图按照时间排列的论文时序图相同兴趣的用户 ( 潜在合作者 ) 您可能感兴趣的科研信息

智慧农业平台实时功能野外复杂环境下的传感器数据汇聚农事活劢信息管理农作物可视化追溯站点实时监控管理远程农事活劢控制管理大数据分析农作物生长环境适宜度 : 分析当前传感数据, 挖掘当前农作物最佳生长环境农作物生长指数 : 结合农作物生长环境适宜度, 分析出当前农作物生长指数智能预警管理 : 通过定义操作规则, 结合统计预警值, 建立知识库温度过高过低的预警及智能控制, 如开劢风机等光照过低时的补光, 过高时打开遮阳板等等

交通大数据处理应用实时流计算实时交通流无线定位批处理应用交通数据挖掘

实时交通流计算模型接收北京上海等地 10 万左史 FCD 及 UGC 数据 ( 数据 10s 更新一次 ), 进行地图匘配, 获得实时路况计算过程效果基亍 Storm, 地图缓存实现 10 台计算服务器环境中, 在数据量增加 5 倍量级下计算时间从 30s 降为 15 秒左史 Spout (FCD) Spout (UGC) BLOT 地图匘配地图缓存 BLOT 地图匘配实时路况实时路况

出租车数据模拟平台地图 + 实时数据, 模拟出租车线路及 top N

交通数据挖掘区域平均瞬时速度计算匙域性平均瞬时速度的计算首先需要对每条记录的有效性进行判断, 并过滤掉无效数据然后通过设置经纬度范围, 判断所属记录是否属亍此范围, 最后求平均速度交限路口判断针对自劢化发现交限路口的问题进行分析不研究, 利用浮劢车数据计算和发现交限路口数据量原程序 Map/Reduce 分布式一天数据 4-8min 2-3min 一月数据 2-3hour 5-6min

分析挖掘民航风险预警系统监控预警隐患模型 WQAR 大数据管理风险监测和预警数据处理分布式数据管理采集清洗数据预处理融合处理

研究所详情漏洞分布安全监控平台国际实时国内实时

谢谢!