第4期厚.indd

Size: px

Start display at page:

Download "第4期厚.indd"

笛卖悉
5 years ago
Views:

关于大数据数据科学家名言 A data scientist is someone who can obtain scrub explore model an d interpret data blending hacking statistics and machine learning.

1 关于大数据数据科学家名言 A data scientist is someone who can obtain scrub explore model an d interpret data blending hacking statistics and machine learning. Data scient ists not only are adept at working with data but appreciate data itself as a firstclass product Hillary Mason Founder at Fast Forward Labs 数据科学家是懂得获取清洗探索建模解释数据的人还要融合入侵技术统计学和机器学习数据科学家不仅要处理数据还要把数据本身作为一个五星产品 Hillary Mason Fast Forward Labs的创始人

2 目录贵州大数据产业发展大事记 ( ) (1) 2016 贵州高校大数据发展简介 (6) 贵州财经大学 (6) 贵州财经大学贵阳大数据金融学院揭牌 (6) 曹彤院长做客大数据金融大讲堂 (7) 贵州财经大学大数据金融知识和技能培训班 ( 第一期 ) 开班 (8) 贵州日报专版报道我校贵阳大数据金融学院 (8) 贵州财经大学举办大数据金融人才专场招聘会 (9) 贵阳大数据金融学院与南京大学互联网金融研究中心达成合作意向 (9) 贵阳云尚城市资产运营有限公司与贵阳大数据金融学院商讨合作事宜 (10) 贵阳大数据金融学院与世界著名大数据公司 Hortonworks 建立合作伙伴关系 (10) 第一届贵阳大数据金融实验班顺利开班 (11) 贵阳大数据金融学院 2016 年第 5 期云岩讲堂暨云岩区数据白领第一期培训班顺利开班 (11) 贵州财经大学贵阳大数据金融学院实践教学基地签约暨挂牌仪式在贵阳众筹金融交易所举行 (12) 贵州产业技术发展研究院与贵阳大数据金融学院 (12) 贵阳大数据金融学院与贵阳大数据交易所签订实践教学基地协议 (13) 伦敦大学亚非学院院长克里斯汀奥顿教授访问贵阳大数据金融学院 (13) 中央民族大学法学院邓建鹏教授为大数据金融实验班学生开设讲座 (14) 上海贝格数据宝和九州证券到贵阳大数据金融学院举行招聘宣讲会 (14) 贵阳大数据金融学院贵州翼云大数据服务有限公司实践教学基地挂牌成立 (15) 贵阳大数据金融学院承办的微金融 50 人论坛 2016 峰会云计算与大数据分论坛顺利举办 (15) 贵州大学 (16) 我校与北京邮电大学洽谈大数据合作事宜并签署本科生交流培养协议 (16) 贵州省公共大数据重点实验室研究人员参加英国大数据代表团与科技厅科技创新合作研讨会 (16) 国家 86(0) 课题项目总体组研讨会暨贵州省公共大数据重点实验室建设专家咨询交流会在我校召开 (17)

贵州省公共大数据重点实验室召开动员大会 (17) 贵州省何力副省长主持会议研究公共大数据重点实验室建设 (17) 贵大教授谢泉 : 贵阳应建设国家级公共大数据中心 (18) 副省长何力一行来校调研指导公共大数据重点实验室筹备工作 (18) 我校大数据重点实验室筹建工作提速 (18) 贵州省大数据发展应用条例 ( 草案 ) 起草座谈会在我校举行 (19) 花溪区政府与大数据学院开展合作交流

3 贵州省公共大数据重点实验室召开动员大会 (17) 贵州省何力副省长主持会议研究公共大数据重点实验室建设 (17) 贵大教授谢泉 : 贵阳应建设国家级公共大数据中心 (18) 副省长何力一行来校调研指导公共大数据重点实验室筹备工作 (18) 我校大数据重点实验室筹建工作提速 (18) 贵州省大数据发展应用条例 ( 草案 ) 起草座谈会在我校举行 (19) 花溪区政府与大数据学院开展合作交流 (19) 千人计划专家与大数据创新创业论坛贵州大学举行 (19) 花溪区来校商谈千人计划大数据研究院入驻贵大科技园工作 (20) 贵州大学实施专业综合改革助推大数据产业发展 (20) 我校召开贵州省大数据产业发展应用研究院理事会筹备会 (21) 我校获贵州省大数据领域科技创新第一个重大专项 (22) 贵州省大数据产业研究院贵州大学大数据与信息工程学院揭牌 (22) 我校进军大数据产业研究 (23) 我省将建大数据产业研究院 (23) 贵州师范大学 (24) 大数据专家苏建峰到我校开展大数据背景下的体育产业发展论坛 (24) 我校与贵阳大数据交易所签署战略合作协议 (24) 副校长谢晓尧为贵州省大数据产业发展与应用高级研修班授课 (25) 师大计划新增大数据专业 (25) 厦门大学林子雨教授来校讲解大数据技术 (26) 花溪大学城大数据和科技创新发展座谈会在我校召开 (26) 我校举办的贵州省大数据产业发展与应用高级研修班圆满结业 (27) 学校大数据与计算机科学学院成立 (27) 贵安新区与贵州师范大学将共同培养大数据人才 (29) 大数据与计算机科学学院带领学生前往贵州 NIIT 大数据与软件服务外包实训基地开展实训 (29) 湄潭县 2016 年新入职公务员赴我校接受大数据素养教育 (30) 我校赴威宁草海国家级自然保护区进行大数据调研 (30) 贵州师范大学牵手 IBM 等企业重视大数据人才实用性 (31) 大数据与计算机科学学院组织学生前往贵阳大数据创新产业发展中心参加微软技术培训营活动 (32) 我校思雅众创空间福农宝农业大数据产业项目受到人民网报道 (32)

贵安新区贵州师范大学 IBM 大数据学院成功举办课程置换宣讲会 (33) 数学与计算机科学学院组织学生前往贵阳国际大数据产业博览会观展 (34) 副校长刘肇军出席南明大数据电商产业聚集区开园仪式 (34) 清华大学教授陈国青莅临我校解析大数据时代 (35) 副校长谢晓尧到大数据与计算机科学学院调研指导工作 (35) 我校组织参加贵州省赴省校合作高校大数据等重点产业人才专场招聘活动 (36)

4 贵安新区贵州师范大学 IBM 大数据学院成功举办课程置换宣讲会 (33) 数学与计算机科学学院组织学生前往贵阳国际大数据产业博览会观展 (34) 副校长刘肇军出席南明大数据电商产业聚集区开园仪式 (34) 清华大学教授陈国青莅临我校解析大数据时代 (35) 副校长谢晓尧到大数据与计算机科学学院调研指导工作 (35) 我校组织参加贵州省赴省校合作高校大数据等重点产业人才专场招聘活动 (36) 我校组团赴浙江大学参加贵州省组织的大数据等重点产业高层次人才引聘工作 (36) 我校大学科技园思雅众创空间应邀参加云岩区大数据人才培养三个一批计划启动仪式 (37) 丁永强畅谈云计算与大数据 (37) 大数据与计算机科学学院举办实习招聘会 (37) 副校长乙引带队到大数据与计算机科学学院进行科研工作调研与指导 (38) 大数据与计算机科学学院开展零距离就职游戏公司专题讲座 (38) 大数据与计算机科学学院开展职业生涯规划系列讲座 (39) 大数据与计算机科学学院阮方鸣教授参加中美合作静电防护与标准化国际研讨会并作大报告 (39) 贵安新区社会事务管理局局长邓波莅临大数据与计算机科学学院调研 (40) 甲骨文公司高级技术专家张维亮莅临我校做学术讲座 (40) 副校长谢晓尧会见 NIIT 中国区教育业务总裁柯谋一行 (40) 省政协主席王富玉一行来校视察 (41) 校领导会见 IBM 大西区客户代表 (41) 大学科技园推进我校主题创客空间建设工作 (41) 省科技厅厅长廖飞一行莅临我校大学科技园思雅众创空间视察指导工作 (42) 我校和印度国家信息技术学院开展校企合作 (42) 印度国家信息学院 (NIIT) 全球 CEO 帕特瓦尔丹一行来校交流 (43) 我校受邀参加贵州省十二五科技创新成就展 (43) 大数据会议活动集锦 (44) 2016 中国大数据技术大会在北京盛大召开 (44) 2016 大数据博览会 : 大数据在金融领域的 10 大趋势 (49) 2016 贵阳大数据金融互联网金融千人会高峰会今举办 (52) 2016 年大数据金融信用体系建设和风险控制系列活动贵阳共识 (53) 48 家单位共同发起关于数据标准化和治理的倡议书 (54) 2016 年贵阳大数据金融信用系列活动论坛观点集锦 (56)

5 首届中欧大数据金融论坛开启大数据金融的思维碰撞 (61) 任正非回家领华为助推贵州大数据发展 (62) 大数据金融资讯 (64) 美国的数据交易产业是怎样发展的? (64) 从美国数据经纪产业窥探我国大数据交易的良性发展之路 (68) 金融大数据的机会 (80) 大数据是未来互联网金融的核心 (84) 大数据遇上金融科技, 开启金融风控新时代 (87) 实务大数据技术在金融检察工作中的运用 (89) 大数据在金融 : 数据的价值 (93) 王玉祥 : 大数据金融时代的众筹解放 (95) 2016 大数据金融企业谁是王者?( 分类排行 ) (99) 数据可视化 :2016 信息之美金奖作品全解析 (102) 大数据金融知识 (108) 一篇对大数据深度思考的文章, 让你认识并读懂大数据 (108) 找不到数据?21 个你应该知道的大数据资源 (120) 除 Hadoop 外你还需要知道的 9 个大数据技术 (122) 文献传递 (126) 中文期刊 (126) 大数据背景下互联网金融对中小企业融资影响研究 (126) 大数据互联网金融与信用资本 : 破解小微企业融资悖论 (126) 建立产学研合作高端服务平台推动大数据金融产业创新发展 (127) 基于互联网金融平台的大数据挖掘研究 (128) 大数据金融对理财产品的几点重要影响 (128) 大数据背景下金融消费者信息权益保护浅析 (129) 大数据金融时代中个人信用评估模型优化设计 (129) 从哲学和管理角度探问大数据金融 (129) 互联网金融模式研究以大数据金融为例 (130) 大数据时代我国平台金融的发展趋势研究 (130) 外文期刊 (131) Big Data Analytics and Revision of the Common Rule (131) Drug repositioning in SLE: crowd-sourcing, literature-mining and Big Data analysis (132)

How Does National Scientific Funding Support Emerging Interdisciplinary Research: A Comparison Study of Big Data Research in the US and China (133) Infrastructure planning and topology optimization

6 How Does National Scientific Funding Support Emerging Interdisciplinary Research: A Comparison Study of Big Data Research in the US and China (133) Infrastructure planning and topology optimization for reliable mobile big data transmission under cloud radio access networks (134) 新书推荐 (135) 附件 1: 外文文献全文 (136) Big Data Analytics and Revision of the Common Rule (136) Drug repositioning in SLE_ crowd-sourcing, literature-mining and Big Data analysis. (140) How Does National Scientific Funding Support Emerging Interdisciplinary Research: A Comparison Study of Big Data Research in the US and China (162) Infrastructure planning and topology optimization for reliable mobile big data transmission under cloud radio access networks (183) 附件 2: 大数据产业政策 (195) 贵阳市发布运用大数据管控考核违法建筑的专项行动计划 (195) 关于贵阳国家高新区大数据十百千万培育工程的实施意见 (200) 贵安云谷三年会战方案 (209) 贵州省新经济统计试点工作方案 (213) 贵州省应急平台体系数据管理暂行办法 (215) 贵州省政务数据资源管理暂行办法 (220) 贵安新区大数据港三年会战方案 (226) 关于贵阳市政府数据共享开放条例 ( 草案 ) 征求意见的公告 (229) 贵阳市政府数据共享开放条例 ( 草案 ) (230) 贵阳出台十三五互联网 + 行动计划 (235) 贵州发布贵安新区关于推进大众创业万众创新若干政策措施 ( 试行 ) (237) 6

7 贵州大数据产业发展大事记导读大数据已成为席卷全球的热点, 在中国贵州这样一个欠发达省份, 俨然成为了大数据的代言人贵阳市更是把大数据作为打造创新型中心城市的战略路径和主要抓手来推动, 在大数据发展特别是在大数据交易大数据金融等高大上领域取得了一定优势通过对近年来贵州发展大数据的大事记, 记录下贵州在发展大数据这条道路上迈进的步伐贵州大数据产业发展大事记 ( ) 贵阳市发布运用大数据管控考核违法建筑的专项行动计划根据贵阳市依法严厉打击违法违章建设行为专项整治行动方案和市委市政府相关工作部署, 为继续深入持久地开展好控拆违工作, 运用大数据监测分析对比方法实现对违法建筑管控考核的工作, 推进我市创新型中心城市建设, 确保全市控拆违工作目标任务的全面完成, 经研究, 特制订本专项行动计划贵州省新经济统计试点工作方案发布为认真贯彻落实省委省政府关于开展新经济统计试点工作的安排部署, 加快推进我省新经济统计试点工作, 经省人民政府同意, 省政府办公厅近日印发贵州省新经济统计试点工作方案 ( 以下简称方案 ), 要求各地各部门认真贯彻落实贵州省获国家统计局批准开展新经济统计试点和实施大数据产业统计报表制度根据省委省政府的部署和要求, 经前期扎实认真准备和后期积极请示沟通, 贵州省统计局先后向国家统计局报送了关于报请审批贵州省大数据统计监测办法 ( 试行 ) 的请示关于恳请国家统计局将贵州列为新经济统计试点省有关事宜的请示, 获得国家统计局批复 : 同意并支持贵州开展新经济统计试点工作, 批准实施大数据产业统计报表制度 11 月 2 日, 百家城市新闻网站中国数谷行之大数据安全互联网新闻出版和数字资产沙龙在贵阳举行来自全国的媒体人和专家学者, 对大数据安全为基础的知识产权等问题进行探讨全国百家城市新闻网站代表观摩贵阳经开区大数据项目让代表们深切感受到贵阳经开区产业发展的活力, 代表纷纷表示, 贵阳依靠大数据带动产业转型发展, 重要的经验是坚持创新驱动 11 月 3 日, 贵阳市政府大数据金融系列丛书区块链金融在贵阳首发区块链金融由瀚德创客金融投资有限公司下属的瀚德研究院撰 1

8 大数据金融信息剪辑写, 中信出版社出版, 是供金融科技从业者研读的一部专著, 从专业角度对区块链这一炙手可热的现象级概念做了全面解读, 描绘出区块链潜能无限的蓝图 10 月 31 日, 贵阳市委副书记贵阳市长刘文新会见普洛斯集团 CEO 梅志明一行双方就深化合作, 发展现代物流等进行了交流 11 月 3 日, 贵阳市人民政府和华夏银行总行在贵阳国际生态会议中心举行大数据金融第二银行战略合作签约仪式双方将各自发挥政府组织和金融服务优势, 建立长期稳定的战略合作关系, 共同推动在大数据金融领域以及第二银行建设方面的深度合作 11 月 4 日下午, 为期 4 天的 2016 年贵阳大数据金融信用体系建设和风险控制系列活动正式落下了帷幕经过推介, 共有包括乐活电商新华金控集团万惠集团等在内的 38 家企业牵手贵阳, 与贵阳市相关部门以及各区 ( 市县 ) 签署了涉及大数据金融等领域的各类合作项目, 为打造全国大数据金融新中心迈出重要一步在日前举行的百家城市新闻网站中国数谷行活动中, 来自全国的近 100 家网络媒体, 先后踏访贵阳经开区货车帮勤邦生物等企业, 以及大数据安全产业园, 与来自政企学界的代表, 围绕大数据安全互联网新闻版权和数字资产主题展开了深入讨论来自中国人民大学同济大学北京航空航天大学苏州大学南京解放军政治学院贵州省委党校贵州师范大学的专家学者及部分少数民族自治州纪委的相关负责同志齐聚都匀, 围绕贯彻落实十八届六中全会精神, 运用大数据技术推进党风廉政建设开展研讨, 探寻党内监督的新举措, 探索责任落实的新途径 11 月 5 日, 2016 贵阳上海大数据金融发展交流暨贵州金融城高铁新城招商推介会在上海中国金融信息中心隆重举行 11 月 8 日, 由英国剑桥基金董事长剑桥大学贾奇商学院终身教授以及常驻企业家艾伦巴若带队的英国访问团一行来到贵阳, 见证和签署了系列合作协议据悉, 协议包括在贵阳筹建贵阳众筹国际 ( 跨境 ) 交易中心设立大数据产业基金等内容 11 月 8 日, 贵州省委常委贵阳市委书记国家大数据 ( 贵州 ) 综合试验区建设领导小组副组长陈刚会见了来筑考察的思科公司全球高级副总裁兼大中华区董事长陈仕炜一行, 深入探讨了教育医疗大数据应用智慧城市等领域的合作事宜贵阳市国税局 11 月 8 日公布, 通过大数据综合分析, 该局获取一起境外间接股权转让贵阳市企业避税案件信息该局高度重视, 成立专项调查小组, 通过调查取证和谈判, 并经国家税务总局批准,2016 年 10 月 31 日,AAA 发展 ( 中国 ) 有限公司 ( 简称香港 AAA ) 在贵阳缴纳税款元该案件的成功办理, 实现了贵阳市反避税入库税额历史性的突破 11 月 8 日, 现代汽车与贵州省政府在贵阳市国际生态中心举行了大数据构建战略合作协议签约仪式贵州省省委书记陈敏尔现代汽车副会长郑义宣及双方相关人士出席了仪式现代汽车将在贵州省内的大数据产业国家级新区贵安新区建设大数据中心, 意味着此后将向中国顾客提供更加适用的车联网服务 11 月 9 日, 第一届医学成像大数据国际高峰论坛在贵阳举行, 记者从论坛上获悉, 贵州省大数据精准医学实验室正在筹建中, 未来通过数据看病, 或将在贵州成为现实 2

9 贵州大数据产业发展大事记 2016 年中国贵州内陆开放型经济试验区跨境投资贸易洽谈会将于 11 月 10 日在贵州贵安新区正式开幕据主办方介绍, 此次洽谈会邀请了来自美国澳大利亚等 24 个国家和地区的 100 多家境外企业, 以及 1000 多家国内企业参加, 预计签约总金额或超过 1400 亿元 11 月 11 日, 贵阳国家高新区正式印发了关于贵阳国家高新区大数据十百千万培育工程的实施意见根据意见, 未来几年里, 贵阳高新区将进一步整合全区资源要素, 大力扶持和培育一批带动能力强的大企业龙头企业和成长性高的中小企业, 力争到 2020 年底, 聚集的大数据企业超家, 实现大数据产业营业收入 1000 亿元 11 月 11 日, 贵阳市委金融工委组织贵阳互联网金融特区入驻企业党组织相关负责人学习党的十八届六中全会精神, 并向新成立的贵阳互联网金融特区入驻企业党组织授牌随着贵阳大数据产业的蓬勃发展, 贵阳互联网金融特区已集聚了大数据金融的非公有制金融企业和社会组织 30 余家, 从业人员达 600 余人目前,16 家有党员的企业和社会组织共组建了 7 个党支部, 其中 5 个单独建支部 2 个联合建支部, 实现了应建尽建 11 月 8 日, 英国剑桥基金董事长剑桥大学贾奇商学院终身教授以及常驻企业家艾伦巴若率领英国考察团来到贵阳考察团与贵阳有关企业签署了系列合作协议, 协议内容涉及筹建贵阳众筹国际 ( 跨境 ) 交易中心拟设立中英大数据产业基金等 11 月 12 日, 贵州省政府与华为技术有限公司在贵阳举行战略合作协议签字仪式贵州省委书记贵州省人大常委会主任陈敏尔, 贵州省委副书记贵州省长孙志刚, 华为技术有限公司总裁任正非, 华为技术有限公司副董事长轮值 CEO 徐直军, 贵州省领导秦如培陈刚慕德贵出席签字仪式 11 月 11 日, 贵阳国家高新区大数据发展大会在贵阳国际人才城召开, 贵阳国家高新区大数据发展局大数据发展办公室挂牌成立会议发布了关于贵阳国家高新区大数据十百千万培育工程的实施意见意见指出, 未来几年里, 贵阳高新区将进一步整合全区资源要素, 大力扶持和培育一批带动能力强的大企业龙头企业和成长性高的中小企业, 力争到 2020 年底, 聚集的大数据企业超家, 实现大数据产业营业收入 1000 亿元 11 月 8 日, 贵州省建设国家大数据战略综合实验区实践研究课题研究大纲讨论会在贵州省社科院举行本次会议特邀贵州省政协副主席贵州省大数据发展领导小组副组长谢晓尧教授莅会指导座谈会由吴大华院长主持, 贵州省社会科学院大数据政策法规创新研究中心和院级重点学科 ---- 大数据治理学团队的科研人员贵州财经大学的陈玉梅教授曹务坤教授参加了研讨会 11 月 15 贵州省政府办公厅印发贵州省政务数据资源管理暂行办法结合贵州省实际, 制定本办法 11 月 16 日举行的上线新闻发布会上获悉, 目前, 贵阳改革网已完成建设并通过公测, 具备上线运行条件网站将重点打造三大栏目 : 一是信息中心, 主要发布中央省市全面深化改革决策部署和政策措施 ; 二是改革专题, 围绕经济发展城市规划民主法治文化体制社会治理生态文明党的建设纪律检查八大改革领域的各个改革专题, 跟踪记录全市改革工作动态 ; 三是政策解读, 发布国内主流媒体及业 3

10 大数据金融信息剪辑界专家学者对相关改革形势任务的剖析解读评论在网站服务上, 一方面突出公开性, 将及时发布中央省市各类改革政策文件工作动态, 让市民群众获取信息更加方便快捷, 了解共享更多改革红利, 有改革获得感一方面突出互动性, 积极搭建政民互动咨询建议的交流平台, 设置改革信箱在线访谈在线评论等交互板块, 以互动式网络交流释疑解惑, 吸引更多市民群众监督关注支持体验改革 11 月 16 日,2016 中国修文创新创业发展论坛在贵阳创业小镇举行本次论坛以创新创业, 改变未来为主题, 由中共修文县委修文县人民政府主办, 中国电子商务产业园联盟等协会协办 200 余名大数据电子商务行业专家及企业家代表齐聚贵阳创业小镇, 探讨经济新常态下修文县大数据产业创新发展之路中国云计算应用联盟主席团主席汤兵勇中国电子商务协会常务副会长卢建新颐高集团董事长翁南道等发表演讲 11 月 16 日, 记者从贵州省大数据局获悉, 国家工信部批复同意设立贵阳贵安国家级互联网骨干直联点明年, 全国重要通信枢纽和网络信息高速公路将以风驰电掣的速度, 一直修到贵州大数据中心家门口国家级互联网骨干直联点主要用于汇聚疏通区域和全国网间通信流量, 是我国互联网网间互 11 月 16 日, 贵州省委副书记省长孙志刚主持召开省政府常务会议, 专题听取全省大扶贫大数据两大战略行动推进情况汇报, 研究部署下步重点工作他强调, 要深入学习贯彻习近平总书记系列重要讲话精神, 按照中央和省委决策部署, 全面落实五大新发展理念, 坚定不移强力推进大扶贫大数据两大战略行动, 坚决打赢脱贫攻坚战, 坚决做强大数据长板, 为贵州守底线走新路奔小康提供坚强保障近日, 贵州省黔南州党风廉政建设与大数据技术运用研讨会在都匀召开, 来自中国人民大学同济大学省纪委云南省德宏州纪委等专家学者共 200 余人参会当天, 与会人员参观了黔南州两个责任落实与干部正风监督网络平台 11 月 16 日, 遵义市大数据应用示范城市建设总体规划 ( ) 评审会在遵义宾馆召开贵州省大数据发展管理局副局长康克岩, 遵义市委常委副市长王兴男及相关专家组成员, 各县 ( 区市 ) 政府部分企事业单位负责人参加评审会 11 月 18 日, 全国首期大数据能力成熟度评价模型 (DCMM) 专题培训会在高新区举行, 助推大数据企业对内挖掘数据价值对外提升数据智能, 为企业数据管理能力插上腾飞的翅膀此次培训邀请了全国信息技术标准化技术委员会大数据标准工作组首席数据专家宾军志工程师李冰进行授课培训以能力提升开放共享价值创造为主题, 讲解了大数据标准化的现状痛点, 重点讲解了 DCMM 的评估过程及必要性 11 月 18 日, 贵阳市大数据民生工程上线试运行以筑民生平台为项目品牌载体, 平台已完成初期 42 项民生服务接入, 涉及教育卫计公积金中心民政等部门, 大数据民生工程是贵阳市运用大数据改善民生服务的积极实践该工程致力于通过开展民生领域的大数据应用示范, 深入发掘和释放贵阳市民生服务数据资源的潜在价值, 推进贵阳大数据民生领域在关键技术安全保障服务模式政策体系等方面的探索和创新, 助力打造创新型中心城市 11 月 18 日, 国家大数据 ( 贵州 ) 综合试验区及中国国际大数据产业博览会亮相第三届世 4

11 贵州大数据产业发展大事记界互联网大会, 成功举办了推介活动为充分利用第三届世界互联网大会平台宣传展示国家大数据 ( 贵州 ) 综合试验区及中国国际大数据产业博览会,11 月 15 日起, 数博会组委会在互联网之光博览会搭建了 30 平米的国家大数据 ( 贵州 ) 综合试验区及中国国际大数据产业博览会主题展位, 利用等离子大屏幕循环播放山水贵客国家大数据 ( 贵州 ) 综合试验区宣传视频 ( 北美推介视频中文版 ) 数博会开幕式视频等宣传内容, 并向过往观众发放国家大数据 ( 贵州 ) 综合试验区宣传资料 2017 数博会招展手册 11 月 23 日, 贵州省政府办公厅印发贵州省应急平台体系数据管理暂行办法, 并从即日起执行 11 月 23 日, 贵州省政府办公厅印发贵州省应急平台体系数据管理暂行办法, 并从即日起执行 12 月 05 日, 贵州贵安新区出台了贵安新区大数据港三年会战方案 ( 以下简称方案 ), 预计今年底将引进和培育大数据企业 50 家以上, 大数据产业规模达到 10 亿元以上, 从业人员 2000 人以上根据方案发展目标规划, 到 2017 年底, 新区将引进和培育大数据企业 300 家以上, 大数据产业规模达到 50 亿元以上, 从业人员超过 5000 人以上到 2018 年底, 新区将引进和培育大数据企业 500 家以上, 大数据产业规模达到 300 亿元以上, 从业人员超过人以上 12 月 5 日, 为加快大数据及关联产业集聚发展, 近日, 贵州贵安新区结合实际出台了贵安云谷三年会战方案 12 月初, 贵阳市第十三届人大常委会第四十五次会议对贵阳市政府数据共享开放条例 ( 草案 ) 进行了初次审议, 现将草案文本在贵阳日报贵阳晚报贵阳人大网 ( gov.cn) 中国. 贵阳政府门户网站 (www. gygov.gov.cn) 公布, 公开征求社会公众的意见和建议恳请提出宝贵意见和建议, 于 2017 年 1 月 8 日前通过来电来信传真电子邮件或者登录贵阳人大网中国贵阳政府门户网站提交 12 月初, 贵阳市十三五互联网 + 行动计划出台未来五年, 贵阳将重点围绕 13 个专项行动, 实施创新驱动战略, 推动互联网新技术新模式新理念与经济社会各领域全面融合, 打造创新型中心城市 12 月 23 日, 贵州发布贵安新区关于推进大众创业万众创新若干政策措施 ( 试行 ) 来源 : 数据观资源编辑整理 5

12 大数据金融信息剪辑导读人才培养科学研究服务社会是高校的三大职能作用在大数据引领贵州飞速发展的 2016 年, 贵州知名高校是如何发挥其重要职能作用的, 为贵州的大数据发展做了什么贡献 2016 贵州高校大数据发展简介贵州财经大学数据来源 : 贵州财经大学大数据金融学院新闻网贵州财经大学贵阳大数据金融学院揭牌为全面深化贵阳大数据金融发展战略, 服务于地方经济,4 月 20 日下午, 我校与贵阳市政府合作的贵州财经大学贵阳大数据金融学院揭牌仪式在鹿冲关校区举行省委常委贵阳市委书记陈刚, 省政府办公厅副秘书长省统计局局长任湘生, 省政府金融办主任李瑶, 省教育厅副厅长代其平, 贵阳市委秘书长聂雪松, 贵阳市政府副市长王玉祥钟汰勇, 贵阳市各区 ( 市县 ) 市直相关部门负责人, 我校全体校领导和部分职能部门负责人出席了本次揭牌仪式校党委书记褚光荣主持褚光荣指出, 我校与贵阳市本着优势互补共谋发展务实高效互惠双赢的原则签订战略合作协议, 将进一步推动学校政产学研校地合作新模式的探索, 进一步推动学校办学的内涵转型发展, 进一步提升学校办学核心竞争力和服务区域经济社会发展的能力和水平开放式创新型的贵州财经大学贵阳大数据金融学院的成立, 标志着我校按照教育供给侧改革的思路, 迎来了加快内涵转型创新发展的进一步深入 6

13 2016 贵州高校大数据发展简介陈刚书记任湘生局长代其平副厅长为贵州财经大学贵阳大数据金融学院揭牌蔡绍洪校长为曹彤教授和王作功教授颁发院长聘书陈刚发表重要讲话, 他指出, 贵阳市和贵州财经大学在很短的时间内达成共识, 并以极高的效率推动市校合作落地, 拉开了市校合作携手推动发展大数据, 特别是大数据金融发展的大幕, 使贵阳乃至贵州在大数据金融领域又迈出了坚实的一步必须清楚的认识到在大数据发展特别是大数据交易大数据金融等领域, 既要先发声, 更要快赶路他强调, 大数据发展的关键突破口第一是人才支撑, 要注重外部引进更要注重内部培养, 要加快打造人才高地 ; 其次是协同创新, 要搭建平台, 加快汇聚资源要素他希望贵阳市与贵州财大的合作能够成为全省乃至全国市校合作的典范, 希望大数据金融学院将来能够成长为一所具有影响力的开放型创新型学院, 为全省大数据金融发展和大数据创新创业提供源源不断的清泉活水, 为贵州弯道取直, 后发赶超持续不断地做出应有的贡献代其平讲话, 他指出贵州财经大学与贵阳市人民政府签署战略合作协定, 这是贵州财经大学主动发展, 加速发展的举措, 也是贵州财经大学扩大发展空间, 对外交流合作的重大举措, 更是贵州财经大学服务贵州经济社会发展的重要举措和积极体现党中央国务院省委省政府贵阳市委市政府以及学校高度重视大数据的发展, 这是最大的机遇 ; 大数据产业已经从后台走到了前台, 从以前的呼之欲出到现在的呼之已出, 是第二个机遇 ; 双方有激情有热情的合作, 是第三个机遇代其平要求, 要紧紧抓住这个机遇, 乘胜而上, 发挥双方的优势, 加强协同创新互补整合, 共同发展要抓好落实, 使合作出思路, 出思想, 出成果, 出人才曹彤院长做客大数据金融大讲堂 4 月 20 日下午, 贵阳大数据金融学院新聘院长曹彤在鹿冲关校区大数据金融大讲堂作题为大数据金融的演绎趋向及自金融的内在逻辑的讲座省政府金融办贵阳市相关领导和相关部门负责人, 我校全体校领导处级干部及部分师生聆听了讲座曹彤院长结合自身的实践经验, 围绕互联网金融大数据金融自金融三个方面谈了它们之间的内在逻辑以及对现实生活的影响和意义曹彤院长指出, 作为全球第一家大数据金融学院, 必须抓住机遇, 立足相关优势, 吸引社会各界力量, 加强与大数据金融相关产业的合作, 以包容的心态和开阔的视野将其推向全球, 办出国际化水平的大数据金融学院 7

14 大数据金融信息剪辑贵州财经大学大数据金融知识和技能培训班 ( 第一期 ) 开班 5 月 23 日, 由贵州财经大学和贵阳市人民政府金融工作办公室联合主办, 贵阳大数据金融学院承办, 贵州财经大学招生就业处协办的大数据金融知识和技能培训班 ( 第一期 ) 在鹿冲关校区贵阳大数据金融讲堂正式开班贵阳市人民政府金融工作办公室主任罗佳玲主任, 贵阳大数据金融学院党支部书记张宁贵阳大数据金融学院院长王作功教授学校招就处处长王志亮等出席了开班典礼开班典礼上, 王作功院长代表学校向贵阳市金融办的大力支持表示中心感谢, 对参加培训的学生提出了要求和期望罗佳玲主任就贵阳市大数据金融发展的情况做了介绍, 激发了受训学生对大数据金融行业发展的兴趣她鼓励受训学生努力学习, 密切关注贵阳市领先全国的大数据金融发展的趋势, 积极投身到大数据金融发展的潮流之中, 将自身价值实现与地方经济发展结合起来本期培训约有 330 人参加主要包括已经在大数据金融行业签约的毕业生学校与大数据金融相关的金融保险投资电子商务计算机等专业的毕业生学校与大数据金融相关的专业讲师也出席了今天开班典礼贵州日报专版报道我校贵阳大数据金融学院 5 月 23 日, 贵州财经大学贵阳大数据金融学院大数据金融知识与技能培训班第一期培训, 在我校鹿冲关校区正式开班从 4 月 20 日贵阳大数据金融学院揭牌, 到 5 月 23 日的培训班开班, 短短时间内, 引起了省内各大媒体的关注 5 月 25 日, 贵州日报以构建大数据金融人才培养基地贵州财经大学联手贵阳市共建大数据金融学院观察为题, 从率先起步为先机为什么是财经大学和为大数据注入清泉活水三方面专版介绍了我校大数据金融学院的建成和发展并采访了我校党委书记褚光荣和校长蔡绍洪采访中, 褚光荣书记指出, 我校积极思考经济新常态下, 高等教育改革如何从需求侧管理为主过渡到聚焦供给侧改革, 由此理清并形成了高等教育供给侧改革的基本思路 : 适应当前经济转型的需要, 适应地方经济社会发展的需要, 培养与生产力发展水平相一致并适当超前的人才, 培养与经济结构相适应的高质量人才, 培养与市场需求紧密结合的专业人才蔡绍洪校长谈到, 贵阳大数据金融学院是双方融入贵州大数据产业发展和对接贵阳大数据金融发展的有效途径和具体行为我校将把该院建成国际知名国内领先的大数据金融人才培养基地, 创新开放包容共享的大数据金融发展的政产学研协同创新中心贵州日报在报道中指出, 短短一个月, 贵阳大数据金融学院就从纸上落到了地上, 贵州财经大学以高效务实的行动, 迅速驶向大数据金融这片新蓝海 8

15 2016 贵州高校大数据发展简介贵州财经大学举办大数据金融人才专场招聘会 5 月 27 日, 由贵州财经大学与贵阳市人力资源与社会保障局主办, 学校招生就业处与贵阳市人才市场共同承办的大数据金融人才专场招聘会在鹿冲关校区贵阳大数据金融学院举行本次招聘会有学校大数据金融相关专业毕业生和贵阳大数据金融学院首届大数据知识与技能培训班学员共计 1500 人参加贵州慧积地大数据平台服务有限公司贵阳讯鸟云计算科技有限公司招商银行中国民生银行贵州富盛电子商务有限公司等近 40 家大数据企业金融企业和电商企业到场招聘, 提供了人力资源行政管理财务管理市场营销呼叫等各类岗位 1200 多个, 达成初步就业意向 412 人此外, 贵阳市人才市场还在现场为求职者提供了大数据金融以及电商企业等相关政策咨询和宣传服务贵阳市人才市场招生就业处领导以及嘉宾等到招聘会现场与用人单位进行广泛交流并推荐指导学生积极应聘贵阳大数据金融学院与南京大学互联网金融研究中心达成合作意向 5 月 27 日上午, 贵州财经大学贵阳大数据金融学院与南京大学互联网金融研究中心代表团在鹿冲关校区学术交流中心举行以我国大数据发展现状及其发展趋势为主题的座谈会葛建军副校长出席会议, 会议由王作功院长主持葛建军副校长致欢迎辞王作功院长代表我校就大数据金融学院的建设发展规划前景及与贵阳市政府合作项目等方面作了简要介绍南京大学互联网金融研究中心主任裴平教授介绍了该校大数据金融研究的情况, 并表示希望能加强两校在大数据金融方面的合作此次南京大学代表团一行由 4 个团队组成, 分别在师资科研市场校企合作 ( 以苏宁集团为主 ) 及大数据产业发展 ( 以江苏盐城为主 ) 等几个方面与贵州财经大学贵阳大数据金融学院进行了深入细致的探讨, 双方初步达成两校关于大数据金融合作 MBA 学生交流互访师资培养科研课题互助等方面合作意向最后, 葛建军副校长强调, 希望两校加强合作, 共享资源, 在大数据金融建设发展的过程中, 互相学习, 加强交流 9

16 大数据金融信息剪辑贵阳云尚城市资产运营有限公司与贵阳大数据金融学院商讨合作事宜 2016 年 6 月 21 日下午, 贵阳云尚城市资产运营有限公司副总经理赵振霄街觅 ( 北京 ) 科技有限公司董事长戴世杰及其团队到访贵阳大数据金融学院, 我院党委书记张宁院长王作功游宗君博士谭建博士及王丰阁博士与客人举行了愉快的会谈王作功院长首先表示热烈欢迎赵总戴总及其团队到访大数据金融学院, 并向与会者介绍了大数据金融学院的成立背景成立过程发展定位, 并着重介绍了学院的人才结构, 并表达了建立紧密合作关系的愿望云尚城市有限公司副总经理赵振霄表示希望与贵阳大数据学院共同探讨智慧城市的建设方案, 并且希望在公司发展战略公司融资规划智慧城市建设, 特别是在公司大数据业务板块方面的专题研究得到贵阳大数据学院在专业上的理论支持游宗君谭健王凤阁等三位博士就政府数据与商业数据的联通整合问题与客人们进行了深入的学术交流张宁书记就双方合作的关键问题提出了建议, 并对实施细节提出了明确要求双方就具体合作事宜达成了合作意向贵阳大数据金融学院与世界著名大数据公司 Hortonworks 建立合作伙伴关系 2016 年 7 月 11 日上午, 贵阳大数据金融学院王作功院长游宗君博士王丰阁博士贵州省经济仿真重点实验室张文专副主任与来访的 Hortonworks 公司亚太区技术支持总监 Cindy Liu 举行了友好座谈王作功介绍了贵州财经大学的概况和办学特色贵州省特别是贵阳市大数据和大数据金融的发展成就贵阳大数据金融学院的成立背景和办学目标,Cindy Liu 介绍了 Hortonworks 公司的基本情况与高校合作的模式双方在课程模块设计教学内容共享教育技术主持合作交流机制等方面进行了友好交流, 达成了广泛共识, 并同意建立全面合作伙伴关系 Hortonworks 公司是世界著名的大数据公司, 总部设在美国硅谷, 专注于 Apache Hadoop 的开发和支持, 由雅虎公司为主导于 2011 年发起设立, 于 2014 年在纳斯达克交易所公开发行股票并上市贵阳大数据金融经过前期沟通谈判, 于 2016 年 6 月 24 日注册成为 Hortonworks 公司在中国大陆的第一家高校合作伙伴, 可以免费使用其以培养程序管理员程序分析师和数据科学家为目标的课程体系目前, 中国大陆成为其合作伙伴的高校还有华东师范大学, 据悉, 中山大学清华大学与 Hortonworks 公司的合作沟通正在顺利进行之中与 Hortonworks 公司建立全面合作伙伴关系将对贵阳大数据金融学院提升国际化办学水平跟踪世界大数据产业发展前沿培养高素质实用性专业人才发挥积极作用 10

17 2016 贵州高校大数据发展简介第一届贵阳大数据金融实验班顺利开班根据学校对大数据金融人才培养的总体部署, 在各有关部门和各学院的支持下, 本校 2013 级本科生与 2015 级研究生经过自愿报名选拔考试择优录取, 共有 123 名本科生和 14 名研究生进入大数据金融学院实验班学习实验班于 2016 年 8 月 26 日下午在鹿冲关校区大数据金融大讲堂举行开班典礼, 学校党委委员副校长缪坤和出席, 贵阳大数据金融学院全体教职员工及实验班学生参加开班典礼由大数据金融学院执行院长赵子铱主持缪坤和副校长代表学校在开班典礼上讲话, 他鼓励学生要抓住大数据时代赋予的机遇, 不辱历史使命, 刻苦学习, 积极主动培养创新思维与创新能力大数据金融学院院长王作功对学生在贵阳大数据金融学院的系统学习充满期待, 鼓励他们勇于担当, 迎接挑战, 学院也将全力以赴组织好学生的学习与生活, 让他们在实验班的学习学有所获贵阳大数据金融学院直属党支部书记张宁对同学们提出殷切希望 : 高举大数据金融的旗帜, 作出表率 ; 谦虚谨慎, 砥砺前行 ; 志存高远, 树立远大理想 ; 拓展视野, 培养创新精神 ; 遵纪守法, 做合格大学生侯浪同学作为实验班学生代表表达了对学校与学院的感谢和通过选拔考试的欣喜, 他代表全体同学表示会珍惜实验班学习的机会, 决心攻艰克难学有所成开办贵阳大数据金融学院实验班, 为我校融入贵州省大数据发展战略, 积极探索适应区域经济社会发展的大数据金融相关专业人才的培养, 不断满足区域经济社会对人才的迫切需求贵阳大数据金融学院将创造条件, 以就业为导向, 为贵阳乃至全省培养具有大数据以及大数据金融类相关基础的专业型实操人才而努力贵阳大数据金融学院 2016 年第 5 期云岩讲堂暨云岩区数据白领第一期培训班顺利开班由云岩区人才办和贵阳大数据金融学院主办的 2016 年第 5 期云岩讲堂暨云岩区数据白领第一期培训班于 2016 年 9 月 6 日上午在鹿冲关校区贵阳大数据学院大讲堂顺利开讲本次培训主要是以大数据大数据金融等领域的相关政策知识和发展前沿等作为培训内容主体, 师资力量雄厚, 包括国内外大数据金融领域的顶尖企业家和专家学者等培训的目标是提高云岩区党政相关部门工作人员关于大数据及大数据金融的认知水平理论素养和决策能力, 服务地方经济发展, 为全面贯彻落实贵阳大数据金融发展战略添砖加瓦同时参加培训的还有 2017 届贵阳大数据金融学院硕士和本科三个实验班的全体同学 11

18 大数据金融信息剪辑贵州财经大学贵阳大数据金融学院实践教学基地签约暨挂牌仪式在贵阳众筹金融交易所举行 2016 年 10 月 10 日上午, 贵州财经大学贵阳大数据金融学院实践教学基地签约暨挂牌仪式在贵阳众筹金融交易所举行, 贵阳大数据金融学院直属党支部书记张宁贵阳大数据金融学院院长王作功执行院长赵子铱等贵阳众筹金融交易所董事长刘文献及公司其他领导员工参加刘文献董事长在致辞中介绍了大数据金融对贵阳及至当今世界众筹金融体系的理论创新和贡献, 提出贵阳众筹金融交易所得到了贵州财经大学大数据金融理论体系人才交流国际合作方面的支撑, 更好的促进了众筹金融在贵阳的蓬勃发展张宁书记在致辞中介绍了贵阳大数据金融学院的办学理念和人才培养目标, 对贵阳众筹金融交易所对学院发展的支持表示感谢, 希望能为大数据金融人才培养提供更好的实践平台随后王作功院长与刘文献董事长签署实践教学基地协议并挂牌, 刘文献董事长向学院捐赠大数据金融有关图书贵阳众筹金融交易所贵州财经大学贵阳大数据金融学院实践教学基地的建立, 标志着贵阳大数据金融学院的学子又多了一个实践实习的阵地, 多了一个自我教育自我规范自我展示的平台贵州产业技术发展研究院与贵阳大数据金融学院 10 月 17 日上午, 贵州产业技术发展研究院产业项目研究部负责人刘渠带队到贵阳大数据金融学院洽谈合作事宜贵阳大数据金融学院院长王作功同志介绍了贵阳大数据金融学院的成立背景以及在学生培养科学研究社会服务等方面工作开展的情况 ; 刘渠同志介绍了贵州产业技术发展研究院的基本情况以及在科学研究社会培训等方面取得的成绩双方同意在大数据金融产业发展等领域开展课题研究专题培训等方面的合作, 并就合作机制合作模式等进行了深入交流随后, 刘渠一行还参观了贵阳大数据金融学院多功能报告厅等教学区域 12

19 2016 贵州高校大数据发展简介贵阳大数据金融学院与贵阳大数据交易所签订实践教学基地协议 2016 年 10 月 20 日下午, 贵州财经大学贵阳大数据金融学院第二家实践教学基地签约暨挂牌仪式在贵阳大数据交易所举行, 贵阳大数据金融学院直属党支部书记张宁贵阳大数据金融学院院长王作功执行院长赵子铱等贵阳大数据交易所执行副总裁陆广龙及公司其他领导员工参加仪式前, 贵阳大数据金融学院领导与陆广龙进行了深度会谈, 双方在校企合作课题研究专业实习培训交流等方面达成了共识, 并就合作机制合作模式等进行了深入交流随后王作功与陆广龙签署实践教学基地协议并挂牌伦敦大学亚非学院院长克里斯汀奥顿教授访问贵阳大数据金融学院 11 月 3 日下午, 英国伦敦大学亚非学院 (SOAS) 院长克里斯汀奥顿 (Christine Oughton) 教授到我院参观并进行了交流座谈大数据金融学院直属党支部书记张宁院长王作功执行院长赵子铱副院长夏换等相关人员参加了此次座谈会克里斯汀奥顿教授参观了大数据金融实验室图书馆, 观摩了大数据金融实验班的数据挖掘与分析实验课, 她对实验课及学生的学习态度与成效表示高度肯定参观结束后, 在我院会议室举行了交流座谈会会上, 张宁书记首先代表贵阳大数据金融学院对克里斯汀奥顿女士的到来表示了热烈的欢迎随后, 双方就硕士研究生和博士研究生合作办学的相关问题进行了探讨和交流并初步达成意向双方还就目前各自的研究方向和研究重点进行了学术交流, 在普惠金融绿色金融大数据金融等研究领域找到了契合点并就这些领域的研究进行了更进一步的探讨和交流最后, 奥顿女士表示非常期待能与贵阳大数据金融在办学及学术交流方面进行合作贵阳市外办胡舒迪和贵阳市卓越科技金融有限公司唐鹤子陪同参观与交流 13

20 大数据金融信息剪辑中央民族大学法学院邓建鹏教授为大数据金融实验班学生开设讲座 11 月 4 日下午, 中央民族大学法学院博士生导师邓建鹏教授为大数据金融实验班的学生做了题为互联网金融 : 监管与新趋势的讲座贵阳大数据金融学院院长王作功任课教师游宗君及本科实验班近 100 名学生参加邓建鹏首先详细介绍了当下互联网金融发展的诸多业态, 指出互联网金融特别是大数据金融将是未来金融行业发展的新趋势, 也是传统金融业力求改革创新的方向, 同学们一定要抓住机遇迎接挑战, 努力学习相关专业知识, 茁壮成长为大数据金融领域的第一批弄潮儿接着, 对互联网金融的安全和监管做了深入讲解, 从近几年来我国破获的几项重大非法集资案件入手, 进而指出该行业目前存在的诸多隐患及监管上存在的尚未解决的问题, 深入分析了几家大型的 P2P 网络借贷平台, 并跟同学们分享了众多的切身调查感受和经验最后, 亲切的和同学们进行交流互动, 整个会场呈现出欢乐和谐的氛围上海贝格数据宝和九州证券到贵阳大数据金融学院举行招聘宣讲会 11 月 9 日上午, 在鹿冲关校区第二教学楼, 数据宝副总裁高培德渠道经理左承鑫与人事部滑雪上海贝格技术总监助理河源与人事部朗璇刘智慧和九州证券的姚金研到我院举行招聘宣讲会大数据金融学院学生科负责人王丰阁班主任项美玉与杨博雯和大数据金融实验班的全体同学参加了此次宣讲会三家公司分别对各自的成立与发展企业文化人才培养与激励体系人才需求岗位作了详尽的介绍随后, 双方展开热烈互动, 从双方的交流中可以看出, 相对薪酬福利, 学生更注重自身的成长, 关注企业业务与产品是否与自己的专业相匹配企业的人才培训内容与方式是否可以有效地提升自身的能力通过举行此次招聘宣讲会, 让学院坚定大数据金融的专业人才培养方向通过与企业的交流, 学院了解到企业的人才需求, 有助于探索完善交叉学科人才培养的方案实验班的同学们则在参加宣讲会后, 坚定自己的选择, 明确努力的方向 14

21 2016 贵州高校大数据发展简介贵阳大数据金融学院贵州翼云大数据服务有限公司实践教学基地挂牌成立 2016 年 11 月 29 日下午, 贵州财经大学贵阳大数据金融学院实践教学基地签约暨挂牌仪式在贵州翼云大数据服务有限公司举行, 贵阳大数据金融学院院长王作功贵州翼云大数据服务有限公司总经理刘大平贵州翼云大数据培训有限公司总经理许懿及公司其他领导员工参加仪式前, 王作功院长在许懿的陪同下参观了翼云大数据展示中心, 并与刘大平许懿进行了深度会谈, 双方在校企合作人才培养专业实习实战课程培训交流等方面达成了共识, 并就合作机制合作模式等进行了深入交流随后王作功与刘大平许懿签署实践教学基地协议并挂牌贵阳大数据金融学院承办的微金融 50 人论坛 2016 峰会云计算与大数据分论坛顺利举办 2016 年 12 月日, 微金融 50 论坛新华网中国信息通信研究院主办的 2016 峰会在北京国际会议中心成功举办, 本次峰会的主题是微金融新经济大未来, 中国人民大学副校长吴晓求教授, 阿里巴巴集团副总裁阿里研究院副院长高红冰先生, 贵阳市金融办副主任罗尧重先生等 50 多位专家与会并发表演讲贵阳大数据金融学院承办了云计算与大数据分论坛, 我院院长王作功主持分论坛王作功院长介绍了贵州贵阳大数据产业发展取得的成就, 向企业家专家发出来到贵阳发展大数据和大数据金融的邀请, 也表达了贵阳大数据金融学院与各位企业家专家开展合作的愿望中关村大数据产业联盟秘书长赵国栋, 阿里云数据架构部总架构师周卫天, 云天大数据公司 CEO 雷涛, 数联铭品科技有限公司首席风险官我院学术委员会主任袁先智等分别发表了关于大数据产业生态云计算与大数据智能深度学习在信用卡审批反欺诈的应用大数据金融风险管理的主题演讲随后, 王作功袁先智周卫天雷涛以及软通动力高级副总裁史研泛海保险在线技术总监李璞安永合伙人吴大维等举行了圆桌论坛, 就云计算与大数据应用的前景存在的问题等进行了认真的讨论论坛吸引了 100 多位业内听众分享论坛在中午 12 点结束后, 与会听众还与专家进行了热烈讨论, 大家相约明年峰会再见! 15

22 大数据金融信息剪辑贵州大学来源 : 贵州大学新闻网我校与北京邮电大学洽谈大数据合作事宜并签署本科生交流培养协议贵大新闻网讯 ( 对外合作处 ) 为落实今年 6 月 16 日北京邮电大学党委书记王亚杰来我校考察时与郑强校长达成的合作意向,6 月 22 日, 副校长李军旗率队前往北京邮电大学, 洽谈大数据国家重点实验室建设合作事宜, 并签署本科生交流培养协议北京邮电大学任晓敏副校长介绍了北邮的发展及科研情况, 并表示将积极支持我校大数据国家重点实验室的建设李军旗介绍了我校近年来的发展变化, 重点介绍大数据方面的科研进展取得的成绩和遇到的困难, 尤其是在申报国家重点实验室方面希望得到北邮的帮助和支持 6 月 22 日下午, 李军旗副校长一行前往北京大学, 拜访了北京大数据研究院院长北京大学元培学院院长中国科学院院士鄂维南教授李军旗介绍了我校在申报大数据国家重点实验室所面临的困难问题, 希望鄂维南院士在人才团队建设申报材料等方面给予我校大力支持和帮助鄂维南院士简要介绍了北京大数据研究院情况, 对我校大数据建设进行了分析, 并表示支持我校大数据国家重点实验室建设, 同意我校派年轻教师到研究所做访问学者, 在科研团队建设等方面提供帮助和支持北京大数据研究院吴中海副院长参加会见贵州省公共大数据重点实验室研究人员参加英国大数据代表团与科技厅科技创新合作研讨会贵大新闻网讯 5 月 26 日, 由贵州省科技厅组织召开的英国大数据代表团与科技厅科技创新合作研讨会于贵阳新世界酒店举行此次会议旨在促进英国科技创新处与贵州省科技厅就中英大数据合作平台, 尤其在能力建设和科技创新方面的交流与合作达成初步想法, 以及使英国代表和贵州大数据专家就开放数据大数据进行深入讨论, 推动交流合作机制的形成贵州大学田有亮教授和黄瑞章副教授参加了此次会议, 并就贵州省公共大数据重点实验室在大数据领域的发展需求和合作与英方代表进行交流 16

23 2016 贵州高校大数据发展简介国家 863 课题项目总体组研讨会暨贵州省公共大数据重点实验室建设专家咨询交流会在我校召开贵大新闻网讯 ( 童奇扬姚瑶罗庆亚摄影方志仁 )5 月 23 日, 由贵州大学 ( 贵州省公共大数据重点实验室 ) 和长城网络系统应用有限公司承办的国家 863 课题项目总体组研讨会暨贵州省公共大数据重点实验室建设专家咨询交流会在我校西校区崇理楼 607 会议室召开中国工程院院士方滨兴国防科技大学教授贾焰教育部长江学者特聘教授马建峰中国科学院信息工程研究所研究员李凤华及中科院北京大学武汉大学等十个课题组长及课题主要成员专家 30 余人参加了本次会议报告会期间, 校党委书记陈坚会见了方滨兴院士一行, 陈坚书记李军旗副校长与方滨兴院士一行进行了深入交流贵州省公共大数据重点实验室召开动员大会贵大新闻网讯 ( 贵州省公共大数据重点实验室 )5 月 17 日下午, 贵州省公共大数据重点实验室全面启动动员大会在贵州大学西校区崇理楼 607 报告厅举行, 标志着贵州省公共大数据重点实验室已全面启动本次大会的任务是调动全省大数据相关科研和技术人员积极投入重点实验室建设和科学研究我校副校长李军旗科研院及相关学院负责人贵州省大数据产业发展应用研究院及其实验室负责人出席会议, 校内研究人员和校外兼职研究人员参加会议贵州省何力副省长主持会议研究公共大数据重点实验室建设 2016 年 5 月 11 日上午, 贵州省何力副省长主持召开会议, 研究大数据重点实验室建设有关问题, 省政府副秘书长潘小林省科技厅副厅长林浩贵州大学副校长李军旗, 省科技厅计划处省公共大数据重点实验室有关负责人参加会议会上, 李军旗副校长汇报了自上次何力副省长在贵州大学调研以来, 贵州大学按照何力副省长要求和指示在推进实验室建设方面的相关工作情况和面临的困难问题, 随后, 实验室相关负责同志进行了补充汇报在听取汇报后, 林浩副厅长表示, 希望贵州大学要丰富实验室建设内涵, 把实验室的建设和贵阳大数据产业技术创新试验区的建设结合起来, 加快推进国家重点实验室的申建工作最后, 何力副省长在讲话中指出, 接下来公共大数据重点实验室要持续推进几方面的工作 : 一是实验室现有团队要积极组织起来, 学校要为实验室团队提供保障二是要充分认识自身不足, 围绕实验室研究方向强化人才队伍建设三是与省内相关单位加强联动, 对现有大数据应用领域进行深入挖掘, 提炼科学问题, 以尽快形成重点实验室自有研究成果 17

24 大数据金融信息剪辑贵大教授谢泉 : 贵阳应建设国家级公共大数据中心摘要 : 今年的全国两会上, 政府工作报告专门提出促进大数据云计算物联网广泛应用对于贵阳打造大数据综合创新试验区这一目标, 谢泉提出合理布局数据交易立法数据安全建设国家级数据中心四点建议谢泉认为, 贵阳应借助贵州建设大数据综合试验区的机遇, 合理布局合理规划, 推进大数据产业领先领跑, 围绕核心业态关联业态衍生业态, 构建大数据全产业链, 各区市县之间不要重叠发展全国人大代表谢泉 : 就业率 100% 贵州大数据专业毕业生被一抢而空首届大数据专业研究生去向如何? 又是一年全国两会, 谢泉带来了鼓舞人心的答案 : 就业率 100%, 被一抢而空! 他说, 贵州通过创新培养和人才引进的方式, 大数据产业人才问题已经不再是难题副省长何力一行来校调研指导公共大数据重点实验室筹备工作贵大新闻网讯 ( 文 / 周贤军图 / 陈恒 )12 月 4 日, 副省长何力, 省政府副秘书长潘小林省科技厅省经信委贵阳市政府等相关单位负责人到我校调研指导公共大数据重点实验室 ( 以下简称实验室 ) 筹备工作我校领导陈坚郑强赵德刚李军旗陪同调研何力一行首先来到西校区大数据学院新楼, 现场考察实验室的选址, 听取大数据学院副院长王旭博士对实验室功能划分与分布情况的介绍, 了解实验室装修块数据实验室公共大数据运用等筹备工作推进情况我校大数据重点实验室筹建工作提速贵大新闻网讯 ( 记者丁龙摄影陈恒 )11 月 10 日下午, 省委常委贵阳市委书记陈刚副省长何力到我校调研贵州大学筹建大数据重点实验室工作开展情况校领导陈坚郑强赵德刚李军旗陪同调研, 省科技厅贵阳市贵州大学有关部门负责人参加调研在贵州大学科技园千人计划大数据研究院, 陈刚何力听取了我校专家在大数据应用上的科研成果汇报, 并详细了解我校在大数据技术研发技术转化人才培养等方面取得的成绩 18

25 2016 贵州高校大数据发展简介贵州省大数据发展应用条例 ( 草案 ) 起草座谈会在我校举行贵大新闻网讯 ( 记者丁龙摄影陈恒 )10 月 28 日上午, 贵州省大数据发展应用条例 ( 草案 ) 起草座谈会在一号会议室举行省人大法制委员会主任委员张卫华, 校领导陈坚王红蕾以及省人大法工委省经信委我校相关部门负责人参加座谈会副校长王红蕾主持座谈会花溪区政府与大数据学院开展合作交流贵大新闻网讯 ( 大数据与信息工程学院摄影报道 )9 月 8 日, 花溪区政府与大数据与信息工程学院合作交流会在我校北校区博学楼 901 举行本次交流会旨在增强花溪区政府与大数据学院的相互了解, 为今后的合作发展奠定基础花溪区园区常务副主任区政府党组成员管路及花溪区政府办人才办发改局农业局工信局科技局商务局人社局供销联社孟关乡等部门代表参加会议大数据学院院长谢泉副院长丁召及学院相关科室代表参加座谈会议由大数据学院党委副书记王高军主持千人计划专家与大数据创新创业论坛贵州大学举行摘要 :5 月 25 日,2015 全球大数据时代贵阳峰会之千人计划专家与大数据创新创业论坛在贵州大学举行 5 月 25 日,2015 全球大数据时代贵阳峰会之千人计划专家与大数据创新创业论坛在贵州大学举行论坛上, 贵州大学校长郑强作题为大学生创业视野和定位的主旨演讲, 千人计划专家代表薛杨作题为新常态下创新创业新模式的主旨演讲, 投资代表汪潮涌作题为创新产业的主旨演讲千人计划专家团队和投资人团队分别以大数据时代创新带动创业发展的机遇与挑战利用创新产业增强国际投资吸引力为主题展开现场对话, 并与现场观众互动 19

26 大数据金融信息剪辑花溪区来校商谈千人计划大数据研究院入驻贵大科技园工作贵大新闻网讯 ( 记者致远 )5 月 19 日, 花溪区区委书记康克岩区长向子琨率相关部门负责人来校商谈千人计划大数据研究院入驻贵大科技园等相关工作校党委书记姚小泉, 校长郑强副校长吴次南出席座谈会学校相关部门负责人参加座谈会上, 学校花溪区相关部门负责人汇报了工作准备情况姚小泉指出, 今年是贵州大学发展的关键时期, 千人计划大数据研究院入驻贵州大学科技园, 将为学校综合实力提升增添新动力他表示, 贵州大学的发展离不开省委省政府市委市政府和花溪区的关心和支持, 学校将全力配合做好相关工作, 确保活动成功举办郑强表示, 贵州大学高度重视高层次人才引进工作, 并积极创造条件为高层次人才开展科技创新, 服务贵州经济社会发展搭建平台郑强要求学校相关部门完善工作方案, 加快工作进度, 积极做好与花溪区的工作对接康克岩向子琨分别讲话双方就千人计划大数据研究院入驻贵州大学相关工作以及花溪区与贵州大学进一步加强联系, 完善交流机制, 推动双方共同发展等内容进行了交流据了解,5 月 25 日上午, 2015 贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会千人专家创业创新分会将在贵州大学举行作为分会的重要内容, 届时, 贵州大学千人计划大数据研究院将揭牌成立贵州大学实施专业综合改革助推大数据产业发展 4 月 20 日上午, 贵州大学大数据与信息工程学院信息与通信工程系主任张达敏和往常一样来到办公室, 继续通信工程专业综合改革试点项目具体实施方案的制定这个项目主要是实施专业综合改革, 为贵州大数据产业发展培养实用人才张达敏说为响应我省实施的大数据产业发展战略, 作为省内唯一的 211 高校, 贵州大学于 2014 年 5 月成立大数据与信息工程学院, 设立大数据科学与工程系, 目前有信息管理与信息系统 ( 电商大数据 ) 和物联网工程 ( 大数据采集与分析 ) 两个本科专业, 成为首个以大数据作为学院设置方式的高校当时, 张达敏参与了这两个本科专业培养方案的制定张达敏说, 制定大数据人才培养方案, 面临的首要困难就是可参考资料少, 因为全国范围内目前还没有专门培养大数据人才的高校, 教育部的本 20

27 2016 贵州高校大数据发展简介科专业和研究生专业目录中尚没有明确的大数据专业, 学科建设和人才培养得不到充分有效的参考和借鉴为此, 张达敏和相关学科的负责老师一起进行多番研究考察分析, 最后整合信息管理与信息系统以及物联网工程两个本科专业, 在信息管理与信息系统专业开设电商大数据技术方向, 物联网工程专业开设物联网大数据采集与分析方向至此, 贵州大学大数据人才培养的基础建立有了本科生培养计划, 张达敏又开始为培养更高层次的大数据人才而忙碌, 参与学院大数据研究生创新班培养方案的制定去年, 学院大数据研究生创新班开班, 从统计信息工程等大数据相关专业中选拔第一批 30 人的研二学生作为首批创新班研究生, 重点培养为高层次大数据人才在如此短的时间内完成贵州大数据人才培养的基础工作, 基本形成本科硕士博士博士后的一体化人才培养格局, 不能不说是一个值得骄傲的成绩张达敏说, 在今年的研究生招生调剂工作中, 学院的大数据特色吸引许多优秀考生前来学院接受复试选拔, 说明大数据专业的发展前景被看好我校召开贵州省大数据产业发展应用研究院理事会筹备会贵大新闻网讯 ( 记者尹梓熹 )4 月 24 日下午 3 点, 贵州省大数据产业发展应用研究院理事会筹备会在我校行政楼第一会议室召开贵阳市副市长徐昊, 贵安新区开发投资有限公司副总经理陈永军, 我校校长郑强及副校长吴次南李军旗, 贵州民族大学副校长贵州省大数据产业发展应用研究院常务副院长韦维, 贵州大学科学技术研究院基建处计算机科学与技术学院先进技术研究院大数据与信息工程学院等相关单位负责人参加会议吴次南主持会议贵州省大数据产业发展应用研究院由贵阳市贵安新区贵州大学联合建设, 该院紧紧围绕贵州省大数据产业发展应用规划纲要 ( 年 ), 致力构建以研发为主的集科学研究人才培养技术创新为一体的大数据协同创新生态中心贵州省大数据产业发展应用研究院相关负责人汇报研究院工作开展情况韦维从平台建设人才培养开发项目获奖情况和存在问题等方面进行汇报基建处负责人汇报了研究院大楼建设情况并展示研究院大楼规划 21

28 大数据金融信息剪辑我校获贵州省大数据领域科技创新第一个重大专项贵大新闻网讯 ( 现代制造重点实验室 ) 日前, 我校大数据研究领域李少波教授牵头的数据聚合机制及分析与交易机理研究获贵州省应用基础研究计划重大项目支持, 成为贵州省大数据领域科技创新的第一个重大专项数据规模的快速增长以及数据模式高度复杂化已成为许多行业共同面对的严峻考验和宝贵机遇, 为此, 国家基础研究发展十二五专项规划省政府关于加快大数据产业发展应用若干政策的意见等相关文件都将大数据确定为重点研究领域根据省委省政府的部署, 省科技厅结合贵州大数据资源特点, 组织实施了数据聚合机制及分析与交易机理研究贵州省应用基础研究计划重大项目该项目由我校李少波教授牵头, 组织中国科学院国家天文台贵州师范大学贵州电信贵州联通贵阳农业大数据交易中心贵阳铝镁研究院贵州科学院等单位, 面向贵州大数据产业发展, 以工业农业天文运营商大数据为依托, 提出我省大数据产业发展的重大科技基础研究战略问题据悉, 该项目建设目标主要是提出我省大数据产业发展的重大科技基础研究战略问题, 形成一支在全国领先的大数据研究团队 ; 探索凝练大数据信息获取存取应用安全等方面的关键科学问题, 建立基础科学研究构架 ; 突破重大应用基础技术, 研究交易机理与交易标准, 构建交易平台, 为我省大数据交易及服务性企业培育发展提供支撑, 为我省大数据产业的发展提供支撑贵州省大数据产业研究院贵州大学大数据与信息工程学院揭牌贵大新闻网讯 ( 记者唐娟 )5 月 28 日下午, 贵州省大数据产业发展应用研究院贵州大学大数据与信息工程学院在贵州大学揭牌省人大党组书记副主任龙超云, 副省长何力, 省政协副主席陈海峰, 上海交通大学副校长中国科学院院士梅宏, 贵阳市委副书记市长刘文新, 贵安新区管委会主任马长青等出席揭牌仪式校党委书记姚小泉主持仪式校长郑强介绍了贵州省大数据产业发展应用研究院贵州大学大数据与信息工程学院的筹建情况贵阳市贵安新区贵州大学签署了共建贵州省大数据产业发展应用研究院合作协议陈海峰马长青为贵州大学大数据与信息工程学院揭牌, 何力刘文新为贵州省大数据产业发展应用研究院揭牌 22

29 2016 贵州高校大数据发展简介我校进军大数据产业研究贵大新闻网讯 ( 实习记者慎志懿 ) 为进一步推动大数据产业研究院的成立, 促进全省乃至全国大数据产业的发展,4 月 23 日上午, 贵州大学大数据产业发展应用研究院专家研讨会在我校北校区行政楼第一会议室举行浙江大学中国计算机学会大数据专家委员会华为公司贵安新区省经信委省发改委省教育厅和贵州省移动通讯公司的相关专家应邀出席校领导郑强封孝伦宋宝安赵德刚, 助理巡视员谢田凯以及相关部门和学院负责人参加研讨常务副校长封孝伦主持会议我省将建大数据产业研究院记者从昨日举行的贵州大学大数据产业发展应用研究院研讨会上获悉, 研究院由贵安新区管委会泰豪集团有限公司贵州大学等联合建设, 建设总经费万元, 由研发大楼综合办公楼产业孵化楼和公寓等组成, 实行理事会领导下的院长负责制研究院的建设, 以贵州省大数据产业发展应用规划纲要 ( 年 ) 为指导, 以贵州大学为核心, 联合浙江大学省内各职能部门科研院所高校等, 建设内容包括基础设施人才队伍研发机构培育基地数据中心管理机构公司等研究院的发展分为三个阶段 2014 年至 2015 年为第一阶段, 将完成大数据研究院建设工作, 建立大数据基础研究所大数据应用研究所智慧城市研究所大数据重点实验室两个产业培育基地 ( 智慧城市基地大数据产业基地 ) 一个中心( 大数据中心 ) 和两个公司 ( 风投公司基金公司 ), 并设立学术委员会学位委员会和工业委员会同时, 围绕大数据产业开展相关研究, 引进和培养 200 名大数据高端人才, 培养 1000 名应用人才, 孵化 2 至 3 家 10 亿元以上企业和 3 至 5 家亿元以上企业 2016 年至 2017 年为第二阶段 2018 年至 2020 年为第三阶段, 将完成 100 项以上项目研究, 引进和培养 1000 名大数据高端人才, 培养 5000 名应用人才, 孵化 10 家以上 100 亿元企业, 孵化 20 家 10 亿元以上企业和超过 30 家亿元以上企业 ( 本报记者王远白 ) 23

30 大数据金融信息剪辑贵州师范大学大数据专家苏建峰到我校开展大数据背景下的体育产业发展论坛 5 月 30 日晚, 体育学院在宝山校区田家炳三楼多功能厅举行大数据背景下的体育产业发展论坛参加贵州省数博会的专家北京和健道信息科技有限公司 CEO 苏建峰贵州中康致远体育发展有限公司董事长陈国辉深圳好家庭实业有限贵州公司总经理高智应邀出席体育学院院长姚鑫副院长曾晓进朱江副教授等陪同体育学院部分师生参加论坛由姚鑫主持苏建峰为大家作大数据背景下的体育产业发展健身宝生态链平台的报告, 涉及体育人怎么看互联网和体育产业大数据背景下体育产业发展定位如何构建大健康产业我们未来的优势和赢利模式等, 并向大家介绍了论道健身健身宝商业计划我校与贵阳大数据交易所签署战略合作协议近日, 我校副校长乙引与贵阳大数据交易所执行副总裁陆广龙代表校企双方, 在贵阳大数据交易所签订战略合作协议双方围绕紧密合作, 优势互补, 资源整合, 打造大数据产业链等议题进行了深度探讨根据合作协议, 双方将在互有优势交叉性强的领域开展跨界合作, 整合产学研, 鼓励双方的交流从应用层级向行业方向延伸, 培育新的学科增长点并提供大数据培训数据分析及挖掘等支持 ; 共同探索大数据综合开发利用机制, 促进行业经济整体发展, 优化产业结构 ; 共同打造大生态大扶贫大健康等具有多彩贵州特色的行业大数据应用产品, 切实促进大数据的市场化有价化, 共同推进大数据产业的发展我校将发挥自身人才优势, 与贵阳大数据交易所联合开展大数据应用的分析研究, 积极推动大数据交易及相关信息的传播, 助推大数据产业的快速健康发展, 提升学校服务地方经济社会和产业发展的能力 24

31 2016 贵州高校大数据发展简介副校长谢晓尧为贵州省大数据产业发展与应用高级研修班授课 12 月 1 日下午, 贵州省政协副主席贵州省大数据领导小组副组长贵州省大数据专家组副组长我校副校长谢晓尧在宝山校区田家炳教育书院三楼多功能厅, 为贵州省大数据产业发展与应用高级研修班学员授课, 主题为拥抱大数据时代谢晓尧围绕大数据的定义贵州实施大数据战略行动历程及国家重大工程 500 米球面射电望远镜三个方面畅谈了贵州大数据产业发展与应用谢晓尧从大数据的定义展开, 谈到大数据的起源与断代, 他指出, 随着大数据应用领域扩展, 技术的不断演进, 为大数据广泛应用提供了条件他提到, 经过近两年的探索实践, 我省大数据发展风生水起, 我们还将深入挖掘大数据商用价值, 培育大数据核心业态关联业态和衍生业态, 促进三次产业加快发展谢晓尧教授还向大家详细介绍了 FAST 项目, 包括建设过程科学目标及未来发展应用等内容讲座结束后, 研修班的学员们纷纷表示, 听完谢晓尧教授的讲座后, 更深入地了解到了贵州省大数据产业发展与应用的情况和 FAST 工程, 学习到了大数据相关先进的理念, 在专业技术方面得到了很大提升, 为以后的工作打下了坚实的基础师大计划新增大数据专业 4 月 7 日, 贵州师范大学举行大数据与计算机科学学院成立暨揭牌仪式, 该学院计划新增大数据相关本科专业助力我省大数据产业发展据介绍, 大数据产业为我省经济发展带来了发展机遇, 但同时也急需大量的产业人才和应用人才贵州师范大学在大数据与计算机科学领域已开展了大量科研工作, 积累了成果 : 拥有平塘 500 米射电望远镜 FAST 早期科学数据中心教育大数据研究所喀斯特地区关键信息技术及应用国家地方联合工程实验室贵州省信息与计算科学重点实验室贵州省山地环境信息系统与生态环境保护重点实验室等科研平台, 在 500 米射电望远镜 FAST 早期科学数据茶产业大数据生物大数据物联网工程桥梁健康监测三维虚拟现实及仿真信息安全云计算等方面形成了众多科研成果据透露, 贵州师范大学将在一到两年内申报数据科学或数据工程本科专业, 为我省大数据产业提供人才支持目前, 贵州师范大学已与 IBM 华为浪潮等国内外企业达成了合作协议, 分别建立贵州师范大学 IBM 大数据学院贵州师范大学华为网络信息学院贵州师范大学浪潮大数据学院, 并将在 IBM 一计划的支持下, 建立贵州师范大学大数据及分析技术中心同时, 将 IBM 华为浪潮等核心课程植入本科生培养计划中, 科学设计课程体系大数据与计算机科学学院将整合学校优势特色学科, 与相关院系联合培养本科生及研究生, 在电子信息生物地理信息旅游电子商务工商管理等学科开设大数据应用方向, 采取 2+2 模式 (2 年基础教学 +2 年大数据应用教学 ), 培养学生的大数据应用能力 25

32 大数据金融信息剪辑厦门大学林子雨教授来校讲解大数据技术 6 月 20 日, 厦门大学林子雨教授在学院楼 6203 教室为大数据与计算机科学学院的学子们带来以大数据技术为主题的讲座院长苏明担任主持林子雨主要从云计算大数据物联网技术及其产业化应用案例四方面给同学们讲解由于存储数据传输数据处理数据的技术的提升和数据产生方式的变革促使大数据时代到来, 在这个大数据自然界里有着数据最大数据类型繁多处理速度快价值密度低的四大特点因此, 分布式存储分布式处理成为了大数据的关键技术其中 Hadoop 技术被频繁用于磁盘里处理, 然而有了技术还不够面对这些大数据还要合理选择计算模式, 大数据计算模式有 : 批处理计算流计算图计算查询分析计算模式花溪大学城大数据和科技创新发展座谈会在我校召开 8 月 13 日, 省委常委常务副省长贵安新区党工委第一书记秦如培来校调研并在花溪校区行政楼五楼 2 会议室召开花溪大学城大数据和科技创新发展座谈会校党委书记韩卉, 省政协副主席副校长谢晓尧, 副校长陈云坤, 花溪大学城各高校领导及贵安新区相关部门主要负责人出席会议秦如培深入我校大数据与计算机科学学院及相关实验室参观考察, 他高度评价了我校大数据与计算机科学学院的建设情况, 对我校在学院建设课程设置人才培养等方面的工作给予充分肯定他强调, 要深入贯彻学习陈敏尔书记在全省科技创新大会上的讲话精神, 解放思想, 创新思路, 抢抓机遇, 以大数据引领科技创新, 为贵州大数据产业的发展培养和输送更多优秀的人才 26

33 2016 贵州高校大数据发展简介我校举办的贵州省大数据产业发展与应用高级研修班圆满结业为加大高层次专业技术人才培养力度, 不断提高行业专业技术人员专业素质和创新能力,11 月 28 日 12 月 2 日, 由贵州省人力资源和社会保障厅主办, 贵州师范大学承办的贵州省大数据产业发展与应用高级研修班在我校举行省人社厅培训中心主任刘明忠, 我校人事处 ( 教师工作处 ) 副处长张葳出席开班典礼来自全省各地州市统计工信大数据产业等相关行业的专业技术人员共 70 余名参加研修班主要包括专题讲座小组讨论实践考察三个模块在专题讲座模块, 邀请了贵州省政协副主席贵州省大数据领导小组副组长我校副校长谢晓尧教授, 贵州理工学院副院长景亚萍教授, 贵阳朗玛信息技术股份有限公司行政总监李亚萍, 贵州师范大学苏明教授张仁津教授夏道勋副教授, 贵州大学何庆副教授等为学员授课内容涉及拥抱大数据时代大数据思维大数据的战略意义和现实意义大数据与工业 4.0 支持大数据技术的信息科学大数据技术及应用实践互联网医疗深耕者等等在小组讨论模块, 由授课教师组织学员进行分组讨论, 帮助学员解决在专业技术工作中遇到的实际问题等等在考察交流模块,12 月 2 日, 组织学员赴黔南州平塘县参观世界最大射电望远镜 500 米口径球面射电望远镜 (FAST) 项目, 并由 FAST 工程部郑云勇老师向学员们介绍了工程的建设过程各主体结构的系统组成以及运行维护管理模式随着实践学习的结束, 此次研修也划上了圆满的句号学员们纷纷表示通过与专家同行的深入交流, 扩大了知识面, 学习了大数据技术及其发展思路, 深入体会到应用大数据思维对实际工作的促进和帮助, 并要将学到的知识真正运用到实际工作中学校大数据与计算机科学学院成立 4 月 7 日, 学校在花溪校区办公楼六楼多功能厅举行大数据与计算机科学学院成立暨揭牌仪式, 标志着贵州师范大学大数据与计算机科学学院正式成立校党委书记韩卉贵安新区管委会副主任欧阳武省经信委民营经济发展局副局长王骥出席揭牌仪式并致辞省政协副主席我校副校长谢晓尧介绍大数据与计算机科学学 27

34 大数据金融信息剪辑院筹建情况校长李建军主持揭牌仪式省教育厅科研处处长熊星, 校领导刘肇军徐晓光赵守盈乙引银熙惠, 以及 IBM 北京软通动力有限公司华为公司浪潮贵州公司贵州汇通华城股份公司贵州兴富祥立健机械制造有限公司深圳丹弗科技有限公司等企业的嘉宾出席韩卉在致辞中指出, 大数据目前已成为国际上高度重视的新学科领域, 广泛应用于产业与生物物联网工程桥梁健康监测三维虚拟现实及仿真信息安全云计算等诸多领域对大数据领域的深入研究具有极其重大的战略意义和应用前景当前, 贵州大数据产业发展势头良好, 势不可挡而大数据产业要想快速持续健康发展, 专业人才的培养与储备必不可缺作为教育部与贵州省人民政府共建的高校, 贵州师范大学始终以服务地方经济社会发展为己任, 积极响应国家和省委省政府的号召, 顺势而为, 聚集校内相关学科的师资力量, 整合相关优势学科, 积极筹划组建了大数据与计算机科学学院她希望, 大数据与计算机科学学院要充分借鉴国内外的成功经验, 以贵州省大数据产业发展应用规划纲要为指导, 更加主动地对接当前该领域的科学发展和地方经济建设的需要, 不断创新机制体制和发展思路, 培养更多的急需人才, 大力推进协同创新与产学研结合, 力争在该领域有更大的作为发挥更大的作用仪式上, 副校长乙引代表学校分别与浪潮贵州公司贵州汇通华城股份公司贵州兴富祥立健机械制造有限公司深圳丹弗科技有限公司签署校企合作协议韩卉李建军谢晓尧欧阳武王骥熊星共同为贵州师范大学大数据与计算机科学学院贵州师范大学浪潮大数据学院贵安新区大数据人才培养基地揭牌据了解, 组建大数据与计算机科学学院是学校推动教育供给侧改革, 适应贵州大数据试验区建设对本土产业人才和应用人才的需求的重大举措我校在大数据与计算机科学领域已开展了大量科研工作, 积累了丰硕的成果, 拥有平塘 500 米射电望远镜 FAST 早期科学数据中心教育大数据研究所喀斯特地区关键信息技术及应用国家地方联合工程实验室贵州省信息与计算科学重点实验室贵州省山地环境信息系统与生态环境保护重点实验室等科研平台, 在 500 米射电望远镜 FAST 早期科学数据茶产业大数据生物大数据物联网工程桥梁健康监测三维虚拟现实及仿真信息安全云计算等方面形成了众多科研成果大数据与计算机科学学院成立后, 将强化校企校地合作, 促进学院自身建设与发展目前已与 IBM 华为浪潮等国内外企业达成了合作协议, 将 IBM 华为浪潮等核心课程植入本科生培养计划中, 科学设计课程体系, 不断改革教学方法, 强调培养人才的实用性, 培养适应我省大数据战略实施的应用型人才大数据与计算机科学学院将整合学校优势特色学科, 与生命科学学院地理与环境科学学院国际旅游文化学院经济与管理学院等紧密合作, 联合培养本科生及研究生, 在电子信息生物地理信息旅游电子商务工商管理等学科开设大数据应用方向, 采取 2+2 模式 (2 年基础教学 +2 年大数据应用教学 ), 培养学生的大数据应用能力, 也为贵州大数据战略提供人才支持 28

35 2016 贵州高校大数据发展简介贵安新区与贵州师范大学将共同培养大数据人才 10 月 18 日, 记者在贵州师范大学 IBM 大数据学院课程置换宣讲会上获悉, 贵安新区与贵州师范大学将拉开共同培养大数据人才的序幕据了解, 双方本次合作期限为三年, 将培养 2400 名大数据相关专业人才, 力争在第一年为贵安新区提供不低于 500 人的 IBM 专业数据应用技能培训, 第二第三年每年不低于 1000 人的规模参培对象是整个花溪大学城在校大学生以及贵州师范大学大数据相关专业高年级学生, 参培学生全程免费课程设置方面, 所有课程按课程置换形式开设, 分为跨校通识课程校级通识课程和专业选修课程三大类, 开设的课程有大数据技术在主要行业的应用商业智能及数据仓库设计数据可视化原理及操作等 8 门课程课程设置强调培养人才的实用性, 培养适应我省大数据战略实施的应用型人才在培养过程中, 会根据需要实时对课程设置做科学合理的调整据悉, 为了加快推进贵安新区贵州省大数据产业的发展, 更好地服务贵州省大数据战略, 充分发挥校地双方校企双方合作的优势贵安新区与贵州师范大学于 2016 年 7 月 28 日签订 " 贵安 - 贵州师范大学 IBM 大数据学院投资合作协议 ", 标志着贵安新区贵州师范大学 IBM 大数据学院正式成立学院的宗旨是为贵安新区贵州省培养一批高素质的具有大数据分析大数据管理大数据应用技能人才学院的成立是推动教育供给侧改革, 适应国家大数据 ( 贵州 ) 综合试验区建设对本土产业人才和应用人才的需求的重大举措学院成立以后, 将始终以大数据人才培养和服务地方经济社会发展为己任, 强化校地校企合作, 促进学院自身建设和发展更加主动地衔接地方经济建设, 不断创新机制体制和发展思路, 培养更多的大数据技能人才, 力争在该领域有更大的作为发挥更大的作用大数据与计算机科学学院带领学生前往贵州 NIIT 大数据与软件服务外包实训基地开展实训 5 月 9 日上午, 大数据与计算机科学学院党委副书记田茂超副院长张仁津带领本科三年级计算机科学与技术专业数字媒体与技术专业 50 余名学生, 前往贵安新区 NIIT 实训基地开展实训活动双方就学生实训期间的安全管理和教育教学进行了沟通了解, 并就有关事项达成一致学院领导还专门与前期参与实训的 12 级本科学生进行了座谈, 重点了解了学生实训期间的学习生活情况及实训学习效果学生表示, 实训期间收获很大, 对未来就业充满信心 29

36 大数据金融信息剪辑湄潭县 2016 年新入职公务员赴我校接受大数据素养教育 11 月 8 日至 9 日, 湄潭县 2016 年新入职公务员 ( 共 43 人 ) 在中共湄潭县委党校副校长吴大江的带领下, 到我校接受大数据素养教育大数据与计算机科学学院党委书记戴雪梅副院长苏明出席开班仪式, 仪式由学院校企合作部主任夏道勋主持仪式上, 苏明在致辞中代表学校对来校参加培训的学员表示欢迎, 介绍了学校基本情况以及大数据与计算机科学学院在教学科研和社会服务方面开展的主要工作接着, 夏道勋博士做了提升大数据素养, 服务大数据战略主题讲座, 讲座主要围绕 IT 时代到 DT 时代转换成因大数据发展现状大数据技术概况大数据技术案例和我们身边的大数据五个方面进行阐述会后, 全体学员赴贵安新区电子信息产业园大数据基地进行实地观摩考察据悉, 公务员入职培训是根据经济社会和行政管理的需要以及职位的要求, 对新入职的公务员有计划有组织地通过各种形式进行政治和业务等方面的教育培养和训练, 具有极其重要的意义, 是对国家公务员的继续教育我校赴威宁草海国家级自然保护区进行大数据调研 11 月 15 日, 省政协副主席副校长谢晓尧, 副校长乙引率领我校专家组一行赴贵州省威宁草海国家级自然保护区进行大数据调研威宁县委副书记草海管委会常务副主任冯兴忠, 草海管委会副主任赵毅李茂等陪同调研并参加座谈座谈会上, 冯兴忠介绍了草海自然保护区的历史和现状, 草海管委会成立的背景, 管委会的目标和工作, 同时谈到草海云的筹划工作以及目前草海拯救保护工作遇到的困难乙引介绍了贵州师范大学和草海历史渊源, 师大大数据的相关项目和能力, 探讨了双方可能合作的方向和方式在保护草海和大数据的结合方向上, 与会的专家团从水资源植物动物生态物联网和决策支持等各自研究领域献计献策, 充分展现了大数据技术在草海保护领域的广泛用途谢晓尧介绍了贵州省大数据发展和现状, 表明我省已经具备良好的大数据基础设施, 草海云的技术条件已经成熟, 强调草海云不能等, 同时为草海云高度规划了的三个应用平台 : 草海大数据综合治理平台草海生物多样性平台和草海文化旅游平台冯兴忠感谢专家团队对草海的建议, 同时表示要加强和师大交流合作, 请师大帮助规划草海云的工作方案, 以及今后的合作事宜等工作 30

37 2016 贵州高校大数据发展简介贵州师范大学牵手 IBM 等企业重视大数据人才实用性 4 月 7 日, 贵州师范大学举行了大数据与计算机科学学院成立暨揭牌仪式, 该学院重视校企校地合作, 培养实用型的大数据人才经贵州省编办批复, 贵州师范大学大数据与计算机科学学院正式成立 4 月 7 日, 贵州师范大学举行了大数据与计算机科学学院成立暨揭牌仪式, 该学院重视校企校地合作, 培养实用型的大数据人才经贵州省编办批复, 贵州师范大学大数据与计算机科学学院正式成立大数据与计算机科学学院将强化校企校地合作目前已与 IBM 华为浪潮等国内外企业达成了合作协议, 分别建立贵州师范大学 -IBM 大数据学院贵州师范大学 - 华为网络信息学院贵州师范大学 - 浪潮大数据学院, 并将在 IBM-U100 计划的支持下, 建立贵州师范大学大数据及分析技术中心同时, 将 IBM 华为浪潮等核心课程植入本科生培养计划中, 科学设计课程体系, 不断改革教学方法, 强调培养人才的实用性, 培养适应贵州省大数据战略实施的应用型人才贵州师范大学在大数据与计算机科学领域已开展了大量科研工作, 积累了丰硕的成果, 拥有平塘 500 米射电望远镜 FAST 早期科学数据中心教育大数据研究所喀斯特地区关键信息技术及应用国家地方联合工程实验室贵州省信息与计算科学重点实验室贵州省山地环境信息系统与生态环境保护重点实验室等科研平台, 在 500 米射电望远镜 FAST 早期科学数据茶产业大数据生物大数据物联网工程桥梁健康监测三维虚拟现实及仿真信息安全云计算等方面形成了众多科研成果大数据与计算机科学学院将整合学校优势特色学科, 与贵州师范大学生命科学学院地理与环境科学学院国际旅游文化学院经济与管理学院等紧密合作, 联合培养本科生及研究生, 在电子信息生物地理信息旅游电子商务工商管理等学科开设大数据应用方向, 采取 2+2 模式 (2 年基础教学 +2 年大数据应用教学 ), 培养学生的大数据应用能力, 也为贵州大数据战略提供人才支持此外, 学校与贵阳大数据交易所签署了战略合作协议, 将共同打造大生态大扶贫大健康等具有多彩贵州特色的行业大数据应用产品, 切实促进大数据的市场化有价化, 共同推进大数据产业的发展同时大数据与计算机科学学院还将与北京软通贵州汇通华城贵州兴富祥深圳丹佛科技等企业, 进一步深入探讨合作模式, 找准合作点, 在教育大数据旅游大数据生态大数据扶贫大数据产业大数据等方面开展大数据应用研究 31

38 大数据金融信息剪辑大数据与计算机科学学院组织学生前往贵阳大数据创新产业发展中心参加微软技术培训营活动 6 月 14 日, 大数据与计算机科学学院组织各年级学生 30 余人前往贵阳大数据创新产业发展中心, 参加基于 Windows Azure 的混合云及大数据平台培训讲座本次讲座包含丰富的微软技术课程, 邀请了董乃文张强两位微软 ( 中国 ) 有限公司开发体验及平台合作事业部的两位行业资深技术达人为同学们详细介绍了相关专业知识, 同学们通过电脑实际操作, 对混合云等前沿科技有了进一步的了解和掌握随后, 同学们还参观了贵阳大数据创新产业发展中心, 了解目前贵州大数据产业发展现状本次活动是通过整合优势资源, 实现教学相互补充, 开门办学的一次校外实践活动以后, 学院将继续依托贵州大数据产业发展优势, 深入挖掘整合办学优势资源, 着力培养大数据产业专业技术型人才我校思雅众创空间福农宝农业大数据产业项目受到人民网报道 8 月 2 日, 人民网 - 贵州频道标题为贵州农信携手瓮福集团开创三赢局面的报道中提到的福农宝电子商务平台是我校思雅众创空间入驻团队为瓮福集团研发的农业大数据产业项目福农宝电子商务平台具有化肥进销存管理农资销售客户管理农业信息服务等功能, 这个电商平台上线后瓮福集团的产品将可以直接下到最基层的农村进行销售福农宝农业大数据产业项目是我校大学科技园 ( 思雅众创空间 ) 主动融入贵州大扶贫大数据战略中的务实作为, 是积极推进供给侧改革解决贫困农户生产生活需求的创新举措, 是众创空间服务实体经济的生动实践 32

39 2016 贵州高校大数据发展简介贵安新区贵州师范大学 IBM 大数据学院成功举办课程置换宣讲会为了加快推进贵安新区贵州省大数据产业的发展, 更好地服务贵州省大数据战略, 充分发挥校地双方校企双方合作的优势在贵安新区政府的大力支持下, 贵州师范大学和 IBM 秉承优势互补互惠双赢共同发展服务社会的宗旨, 建立长期紧密的合作关系, 构建了贵安新区贵州师范大学 IBM 大数据学院, 学院的宗旨是为贵安新区贵州省培养一批高素质的具有大数据分析大数据管理大数据应用技能人才 10 月 18 日下午, 学院成功举办了大数据课程置换宣讲会贵安新区社会事务管理局局长邓波, 贵安新区经济发展局副局长潘军 ; 我校知行学院 ( 创新创业学院 ) 院长兼教务处副处长周勋, 大数据与计算机科学学院党委书记戴雪梅副院长苏明副书记田茂超, IBM 项目主要负责人宋天河团队以及全校三百多名师生参加了宣讲会宣讲会由大数据与计算机科学学院副院长张仁津主持邓波指出, 贵安新区贵州师范大学 IBM 大数据学院走到今天来之不易, 是多家单位共同努力的结果, 政策和经费方面得到了贵安新区的大力支持学院应以大数据人才培养为重心, 与 IBM 展开更为深入的合作, 办出活力办出特色第一年的培训工作非常关键, 要让首次参培的学生真正感受到经过培训后, 在大数据素养或者大数据专业技能方面得到较大的提升, 以此来吸引更多的同学参与进来, 形成良性循环周勋从课程置换的管理上做了详实的介绍, 并为置换课程的学生选课做了预案他讲到, 此次课程置换, 更有利于学生的创新创业思维的培养, 应该多和 IBM 合作, 争取贵安新区更多的政策支持主讲人宋天河从大数据关于世界大数据关于 IBM 大数据关于贵州和大数据关于我们四个层面来讲解重点讲述了大数据的由来大数据的定义大数据的应用领域 IBM 大数据与分析案例以及智慧城市等, 逐层剥开大数据的神秘面纱, 并详细分析了贵州大数据战略取得显著成果的成因对置换课程的课程设置授课安排授课教师都一一做了介绍在师生互动环节, 详细解答了参会同学所提出的问题整个宣讲会在轻松的氛围下进行通过本次宣讲会, 同学们不仅对大数据有了进一步的了解, 更对日后的学习增强了信心, 提高了学习兴趣, 为服务好贵州大数据战略明确了目标 33

40 大数据金融信息剪辑数学与计算机科学学院组织学生前往贵阳国际大数据产业博览会观展 2015 年贵阳国际大数据产业博览会开幕以来, 数学与计算机科学学院学生对此次盛会高度关注, 特别是计算机科学与技术信息与计算科学及数字媒体与技术等相关专业的学生对此次博览会纷纷表现出极高的热情和浓厚的兴趣 5 月 28 日, 在学院领导的精心组织下, 由学院计算机专业教师刘彬及辅导员陈凌燕带队, 组织 13 级数字媒体与技术专业的全体学生前往贵阳国际会议中心观展展会上, 同学们对什么是大数据大数据的应用有了全新理解, 对自身的专业发展如何与大数据发展相契合有了全新认识, 对今后的学习方向定下了新目标通过此次观展, 同学们对数字媒体与技术这一新兴专业的发展情景和贵州蓬勃发展的大数据产业充满信心副校长刘肇军出席南明大数据电商产业聚集区开园仪式 4 月 11 上午, 副校长刘肇军出席贵阳市南明大数据电商产业聚集区开园仪式教务处副处长周勋, 经济与管理学院党委书记陈椽院长吕萍等参加开园仪式上, 刘肇军代表学校向聚集区授予贵州师范大学实践教学基地刘肇军一行还参观了南明大数据电商产业聚集区大数据电商营运展示厅 O2O 体验中心创客空间以及已入住的省内著名品牌老干妈北极熊等传统企业转型电商中心跨境电商深圳车网联盟本土农产品电商秀色可餐等南明大数据电商产业聚集区是由南明区携手贵州佰仕佳集团 ( 经济与管理学院校企合作单位 ) 共同打造, 采取政府主导企业运作合作共赢的市场化运作模式的聚集区近年来, 学校将校企合作作为主动适应地方经济社会发展需求, 提升学生创新创业能力的主要举措贵州师范大学南明大数据电商产业聚居区教学实践基地的建立, 将对提升我校电子商务等专业的人才培养质量, 推动学科建设和科研创新能力等方面起到积极的促进作用 34

41 2016 贵州高校大数据发展简介清华大学教授陈国青莅临我校解析大数据时代 10 月 17 日, 清华大学经济管理学院 EMC 讲席教授教育部长江学者特聘教授陈国青莅临我校, 并在田家炳三楼多功能厅为我校师生作题为大数据时代管理理论与实践挑战的学术讲座讲座由经济与管理学院院长吕萍主持陈教授首先从大数据时代说起, 介绍了大数据时代的背景和十大战略技术, 指出大数据存在体量大多样性价值密度高和速度快的特点随后陈教授谈到管理理论与实践挑战, 并介绍管理的两个喻意, 第一个喻意即 IT 融合内外融合和价值融合, 第二个喻意是新模式新业态和新人群面对管理理论研究, 他指出我们应该明确学术问题和挑战最后并建议对大数据时代有兴趣的同学积极响应挑战, 把握机遇, 更好拥抱大数据时代, 创新大数据应用副校长谢晓尧到大数据与计算机科学学院调研指导工作 4 月 5 日下午, 贵州省政协副主席我校副校长谢晓尧教授到大数据与计算机学院调研指导工作, 检查计算机一级学科硕士点建设及学院揭牌仪式筹备工作学院党委书记戴雪梅, 副院长苏明张仁津及教师代表参加座谈会座谈会上, 谢晓尧详细了解了学院挂牌仪式相关工作筹备情况, 并对学院目前阶段工作开展情况给予了肯定, 并就计算机一级学科硕士点建设及发展情况与学院负责人进行了深入交流探讨同时, 他对计算机科学与技术和软件工程两个一级学科硕士点建设提出要求 : 要进一步创新思路, 深化改革, 充分发挥自主命题优势, 提升本科教学水平, 选送优秀本科毕业生继续深造 ; 学科建设要与我校信息与计算科学重点实验室生命科学学院等相关资源交叉融合, 与大数据学院建立资源共享平台, 助推大数据学院更好更快发展学院负责人就下一步研究生专业招生提出了可行性计划, 将从加强在各院校的宣传力度, 以及学院本科推免研究生工作力度两方面着手, 提升研究生培养质量 35

42 大数据金融信息剪辑我校组织参加贵州省赴省校合作高校大数据等重点产业人才专场招聘活动自 2013 年以来, 贵州省先后与北京大学清华大学南京大学复旦大学浙江大学上海交通大学中山大学等高水平大学签署战略合作协议, 双方在决策咨询科技创新人才交流重点产业等方面开展全方位多领域深层次的长期合作, 积极促进科研成果科学技术人才资源与贵州经济社会文化发展相融合, 助推贵州跨越发展赴省校合作高校进行人才专场招聘, 已成为宣传贵州为贵州引才纳智的重要平台为落实 2015 年省校合作协议知名高校相关人才引聘活动的工作要求, 根据 2016 云上贵州大数据招商引智再出发活动人才引进工作方案, 我校积极组建人才引聘团队参加本次招聘高层次人才活动为充分利用好此次贵州省赴省校合作高校大数据等重点产业人才专场招聘, 校党委高度重视, 专门召开人才引聘工作会议, 要求各单位各负责人要提高认识, 利用好此次引进高层次人才的好机会, 抓住省委省政府搭建的平台, 充分发挥好省校合作专场招聘宣传我校的窗口作用按照校党委及相关工作要求, 由人事处具体负责, 制定了此次人才引聘工作方案根据我校本次人才引聘工作方案,4 个招聘团队分别由校党委书记韩卉副校长蔡永生校党委副书记银熙惠带领, 在省委组织部省人社厅的组织安排下, 先后赴上海北京西安广州等 8 个招聘现场 ( 大学 ) 组织引聘具体工作通过此次省校合作高校大数据等重点产业人才专场招聘活动, 学校的人才引聘工作取得了良好效果在此次专场招聘中, 我校共接待应聘人员 500 余人, 其中博士 100 余人, 双方签订意向协议 24 人学校人才引聘工作不仅得到省领导及相关上级部门的肯定, 也充分利用这一平台宣传了学校我校组团赴浙江大学参加贵州省组织的大数据等重点产业高层次人才引聘工作 11 月 3 日, 由校党委书记韩卉带队的一行 5 人赴浙江大学参加了贵州省大数据等重点产业人才引聘活动本次贵州省大数据等重点产业人才引聘暨选调优秀毕业生活动是继复旦大学上海交通大学西安理工大学北京大学清华大学中国人民大学中山大学后的本年度最后一站为充分利用好此次贵州省赴省校合作高校大数据等重点产业人才专场招聘, 学校高度重视, 此次赴浙江大学招聘由韩卉亲自带队现场指导我校通过本次人才引聘活动取得了良好的效果, 在浙江大学专场招聘中, 我校一共接待来应聘的高层次人才 30 余人, 其中博士研究生 12 人, 双方达成意向协议的 6 人 36

43 2016 贵州高校大数据发展简介我校大学科技园思雅众创空间应邀参加云岩区大数据人才培养三个一批计划启动仪式 9 月 5 日, 贵阳市云岩区举行了云岩区大数据人才培养三个一批计划启动仪式云岩区区委书记王建忠贵阳市工信委常务副主任唐振江等领导出席仪式, 我校大学科技园主任陈辉林应邀参加启动仪式仪式由云岩区副区长周勤主持启动仪式上, 云岩区领导为我校思雅众创空间等六家众创空间进行了授牌丁永强畅谈云计算与大数据 5 月 29 日, 北京优帆科技技术咨询总监丁永强先生应我校经济与管理学院邀请, 在田家炳教育书院三楼多功能厅做了题为云计算与大数据的专题讲座贵州信息技术产业联盟各成员企业总经理及我校经管学院的部分师生约 80 余人到场聆听讲座丁永强从云的由来, 什么是云,Iaa 云计算的标准及何为大数据等几个方面向我们解析了云计算与大数据他指出, 云计算和大数据, 是当今时代发展的必然趋势, 是时代变革的动力正是由于现今某些业务对网络与应用系统的依赖对成本的控制及新 IT 资源消费观的变化, 促使了云的出现从传统 IT 到云模式, 云计算和大数据将普及我们的时代据悉, 此次讲座是由贵州信息技术产业联盟主办, 贵州师范大学经济与管理学院承办, 其目的是为了让大家深入了解云计算与大数据的相关知识和重要意义, 学习和掌握大数据实战方法大数据与计算机科学学院举办实习招聘会为了更好的开展实习就业工作, 提高同学们的就业竞争力,6 月 15 日, 大数据与计算机科学学院在学院楼前广场举办了包括千锋公司国信安公司和深圳远标培训公司等八个公司的实习招聘会招聘人主要从企业需要什么样的员工企业怎样选拔人才企业的面试标准和要学会什么才能通过面试等方面表述了职场面试的重要问题, 同学们在回答招聘考官给出的问题时, 紧密结合应聘的相关工作在招聘现场, 同学们与用人单位和企业招聘主管积极主动地交流沟通, 询问单位的工作性质和选人用人标准等问题只有在特定的天地里种下自己的奋斗目标, 并为之付诸行动, 最终才会品尝到成功的果实这次招聘会, 让同学们认识到了自己的优势与不足, 鼓励同学们积极追求自己的爱好理想, 用汗水去践行自己的社会主义核心价值观, 将自己所学投身于社会主义的现代化建设中去, 为美好的明天而不懈努力奋斗 37

44 大数据金融信息剪辑副校长乙引带队到大数据与计算机科学学院进行科研工作调研与指导 8 月 24 日, 副校长乙引带队到大数据与计算机科学学院开展了科研工作专项调研与指导科技处处长龙建学院党委书记戴雪梅副院长苏明副院长张仁津党委副书记田茂超学院教授委员会成员和部分科研骨干教师代表参加会上, 苏明介绍了学院科研工作的基本情况和下一步工作设想, 汇报了学院在数字图象处理大数据技术及应用工业 4.0 仿真设计与社会服务等三方面的科研优势和进展, 同时也分析了学院在科研团队组织实验室建设研究生培养上的一些困境与不足另外, 部分教师代表就学院提升国家基金项目获批率研究生导师资格与研究生招生科研平台建设科研管理工作等方面, 提出了建议或咨询乙引认真听取了相关意见, 对学院的科研工作思路给予了充分肯定, 对老师们在科研中的一些疑惑给予了一一解答特别是对科研工作中存在的问题和困境, 乙引提出了建设性意见, 包括一些解决办法同时要求科技处要尽其所能为各学院提供服务学院相信, 在学校领导的支持和关心下, 在相关部门的帮助下, 在全院老师的共同努力下, 大数据与计算机科学学院的科研水平和实力一定能跨上新的台阶大数据与计算机科学学院开展零距离就职游戏公司专题讲座 9 月 21 日晚, 大数据与计算机科学学院在花溪校区 GJ6401 教室举办主题为零距离就职游戏公司专题讲座讲座邀请大型游戏公司博思中国的副总裁韩摩苍先生主讲学院部分学生聆听了讲座在观赏了一段国内外知名游戏开发过程的视频后, 韩摩苍介绍了博思中国的三大子公司, 龙之谷, 博思游戏学校和大米游戏, 使大家对游戏公司有了初步认识随后, 他用数据为同学们分析了游戏行业的就业前景和趋势, 并与大家分享了游戏公司的类型, 技术岗位的细分等内容, 使同学们对自己的兴趣有了更好的定位同时, 也分享了游戏开发工作者的成长路线, 强调了实践和思维的重要性, 鼓励在校大学生进一步提升专业技术能力通过此次讲座, 增强了学院学生对游戏开发的团队工作和职位的认识, 并对就职游戏公司的途径有了更深层次的了解, 同学们都表示本次讲座使自己受益匪浅 38

45 2016 贵州高校大数据发展简介大数据与计算机科学学院开展职业生涯规划系列讲座为在行业眼界技术水平职业选择三个方面增强学院学生的就业竞争力, 大数据与计算机科学学院于 5 月 12 日上午和下午分别在学院楼 6202 教室开展了两场结合专业技术发展的职业生涯规划讲座上午讲座的主讲嘉宾是来自中国科学院研究员博士生导师苏璞睿教授, 讲座主题为 APT 攻击与防御技术进展浅析, 他首先以 APT 的危险性做了精彩的导入, 而后讲解了 APT 的概念类型特征, 最后重点讲述了 APT 的攻击过程和 APT 的攻击检测下午讲座的主讲人是来自湖州师范学院的薛德黔教授, 他以独有的幽默但不失严谨的讲授方式辅以贯穿整场的钉子屋 4D 人格等互动游戏, 让同学们以轻松娱乐简单易懂的方式得到了在职业生涯规划团队建设和个人性格养成等多方面的知识和提高此次系列讲座, 开阔了同学们的眼界提高了大家对专业学习的兴趣更是让即将走向实习的同学们得到了职业生涯规划方面的有效指导大数据与计算机科学学院阮方鸣教授参加中美合作静电防护与标准化国际研讨会并作大会报告由中国标准化研究院中国空间技术研究院电磁环境效应国家重点实验室美国贸易开发署 (USTDA) 美国国家标准协会 (ANSI) 美国静电放电协会 (ESDA) 联合主办的中美合作第 5 届静电防护与标准化国际研讨会, 于 11 月日在西安举行来自中美两国的十一位资深专家在研讨会上作报告我校大数据与计算机科学学院阮方鸣教授作为中方专家, 应邀在会上作了题为小间隙静电放电的电极移动速度效应研究和非接触静电放电标准初探的大会报告该报告介绍了贵州师范大学电磁兼容科研团队经过多年努力, 在静电放电研究领域攻克带电体向靶高速移动放电与避免仪器损坏的国际研究难题发明了国际上首台静电放电多因素效应测试系统的突破性和开创性成果, 受到中国工程院刘尚合院士和与会的其他中外专家学者的充分肯定和高度评价通过与参会专家学者和代表交流, 中国标准化研究院电磁环境效应国家重点实验室中国空间技术研究院 514 所上海航天电子有限公司与贵州师范大学初步达成协议, 将在非接触静电放电性质和测试国际标准的深入研究上展开进一步的合作 39

46 大数据金融信息剪辑贵安新区社会事务管理局局长邓波莅临大数据与计算机科学学院调研 4 月 16 日上午, 贵安新区社会事务管理局局长邓波一行二人到大数据与计算机科学学院调研学院党委书记戴雪梅副院长苏明及相关同志参加邓波认真听取了学院领导的工作介绍, 并就大数据人才培养学生就业培训校企合作等进行了现场研讨大家一致认为, 要从强化学生职业技能培训入手, 不断提升毕业学生的综合素质, 切实增强服务贵安新区大数据战略的工作能力以及人才储备能力甲骨文公司高级技术专家张维亮莅临我校做学术讲座应我校教务处邀请,3 月 23 日下午, 世界五百强企业, 全球最大企业软件提供商甲骨文中国大区 Oracle OAEC 项目技术教学高级顾问甲骨文 OAEC 教育事业部华东区总监张维亮先生在花溪校区 GJ6201 教室作了题为软件行业的发展现状及未来技术发展带来的就业机遇的讲座教务处大数据学院相关领导及学生 300 余人聆听了讲座张维亮从 Oracle Comes 开始, 介绍了移动互联网的发展现状大数据的未来发展前景大数据的商业应用进入大数据行业需要的具体技能云计算及大数据行业的就业市场需求大型公司的人才需求及福利待遇等方面内容并和同学们探讨了如何学习才能迎接大数据时代的挑战张维亮鼓励同学们要抓住大数据时代给就业带来的机遇同学们表示通过此次讲座对大数据有了个更深层次的了解, 对自己未来的职业生涯有了一个初步的认识, 受益匪浅副校长谢晓尧会见 NIIT 中国区教育业务总裁柯谋一行 5 月 4 日, 贵州省政协副主席我校副校长谢晓尧会见 NIIT 中国区教育业务总裁柯谋一行, 大数据与计算机科学学院副院长苏明 NIIT 中国政府事务和商务拓展总监徐海峰贵州海上丝路公司总经理张钊参加会见, 双方就联合培养大数据人才等方面开展深入合作达成共识谢晓尧就贵州师范大学与 NIIT 在联合培养大数据人才方面提出了实质性可操作性的建议 40

47 2016 贵州高校大数据发展简介省政协主席王富玉一行来校视察 10 月 25 日上午, 省政协主席王富玉率领省政协常委视察团来我校, 对落实大数据战略行动推动大数据应用服务情况进行视察省政协副主席孙国强蒙启良陈海峰左定超谢晓尧陈敏班程农李汉宇, 秘书长李月成及部分省政协常委参加视察校长李建军及学校相关单位负责人陪同省政协视察团先后来到国家天文台贵州师范大学 FAST 早期科学数据中心贵州茶云平台实地视察, 听取情况汇报, 参观应用展示, 深入了解贵州师大支持我省大数据应用服务的最新进展情况校领导会见 IBM 大西区客户代表 7 月 15 日,IBM 大西区资深客户代表及资深行业顾问庞涛, 黔云高科董事长王青青总经理丁宇董事长助理骆俊舟到我校交流校党委书记韩卉校长李建军副校长刘肇军在花溪校区行政楼五楼会客厅接见了来访客人学校办公室教务处研究生院数学与计算机科学学院网络与信息中心等相关部门负责人会见时在座会上, 韩卉代表学校党委行政对莅临我校的各位客人表示热烈欢迎她说, 在贵州大数据发展期间, 高等学校要争取对大数据发展多做贡献, 同时要趁此机遇发展自身我校在大数据方面关联学科多, 人才培养体系比较完整, 科研团队积累了较为强大的力量, 希望双方今后能多做沟通, 深度合作, 共同发展庞涛对我校的热情接待表示感谢他希望双方能够进一步加强交流, 优势互补, 深化合作大学科技园推进我校主题创客空间建设工作为进一步推进我校双创工作, 推动创新人培养平台建设, 探索创新人才培养的工作机制 4 月 22 日, 科技园主任陈辉林带领团队到大数据与计算机科学学院, 围绕三级创新创业服务体系, 主动与学院对接主题创客空间共建事宜在对接工作会上, 陈辉林听取了学院关于建设创客咖啡吧的介绍, 对创客咖啡吧的建设明确表示支持, 并从创客咖啡吧名称场地装修运营团队建设文化氛围营造创客活动开展等方面提出了具体意见和建议陈辉林表示, 通过双方合作建设创客咖啡吧, 有利于搭建创客沟通交流的平台, 建成学院开放的创新创业教育第二课堂双方还就围绕专业特色建设主题创客空间等事宜深入交换了意见大数据与计算机科学学院党委书记戴雪梅副院长苏明等对科技园的合作高度重视, 表示将全力支持主题创客空间的建设, 共同推动学院双创工作, 提高人才培养质量和服务社会的能力 41

48 大数据金融信息剪辑省科技厅厅长廖飞一行莅临我校大学科技园思雅众创空间视察指导工作 7 月 13 日上午, 省科技厅厅长廖飞一行莅临我校大学科技园思雅众创空间视察指导工作, 校党委书记韩卉校长李建军等陪同考察省科技厅厅长廖飞一行首先参观了众创空间入驻企业创新创业成果, 并听取了大学科技园主任陈辉林的成果汇报随后, 对众创空间以福农宝农业大数据平台母亲云农村留守妇女就业电商平台贵电商贵阳供销集团黔货出山电商平台以及科技创业企业的创业成果进行了考察, 观看了空间芊玖舒胶囊 3D 打印技术刷力控制功能牙刷等成果展示, 并与各团队负责人进行了深入交流廖飞厅长对思雅众创空间建设取得的成绩表示了充分肯定, 对空间围绕大数据大扶贫大健康服务实体经济的众创模式给予了高度评价, 表示省科技厅将进一步支持贵州师范大学, 推进成果转化, 服务产业发展我校和印度国家信息技术学院开展校企合作 9 月 21 日, 校长李建军在贵州海上丝路国际投资有限公司 (GIIC) 总部会见了印度国家信息技术学院 (NIIT) 中国区总裁柯谋先生一行 NIIT 中国政府事务总监徐海峰 GIIC 副总经理张晖贵阳国家高新区产业投资公司董事长钟蕾女士以及我校办公室主任人事处处长杨泉, 大数据与计算机科学学院副院长苏明参加会见各方就我校与 NIIT 合作共建计算机科学与技术 ( 软件外包方向 ) 专业的相关事宜举行了深入交流李建军对双方前期的合作给予了充分的肯定柯谋表示了对合作前景的期待, 希望双方在合作协议的基础上共同推进工作我校大数据与计算机科学学院将以 NIIT 项目合作为契机, 与贵阳国家高新区产业投资公司开展深入合作, 打通教育培训与产业发展的通道 42

49 2016 贵州高校大数据发展简介印度国家信息学院 (NIIT) 全球 CEO 帕特瓦尔丹一行来校交流 5 月 26 日,NIIT 全球 C E O 帕特瓦尔丹 ( R a h u l Patwardhan) 中国区总裁柯谋 (Kamal Dhuper) 一行来校交流校长李建军副校长赵守盈在花溪校区行政楼五楼会议室会见了帕特瓦尔丹 (Rahul Patwardhan) 一行, 各相关单位主要负责人参与会见会议由赵守盈主持李建军向客人介绍了我校的办学历史办学条件学科发展等情况, 他指出, 学校希望和 NIIT 建立更创新, 更全面的合作, 希望双方的合作会有更深更远的发展帕特瓦尔丹 (Rahul Patwardhan) 先生介绍了 NIIT 到访的目的,NIIT 中国区政府事务总监徐海峰详细地介绍了 NIIT 的发展历程教育理念国际合作等情况, 特别是与中国的教育合作贵州海上丝路国际投资有限公司董事长张林介绍了 GIIC 致力于构建中印友好桥梁, 实现走出去引进来的工作本着友好合作互利互惠的原则, 我校与 NIIT 就双方合作办学, 致力于贵州大数据 IT 人才培养进行了深层次的沟通和交流, 初步达成了合作意向, 双方商定, 下一步将加强双边交流, 探索人才培养模式, 为贵州大数据产业发展做出贡献我校受邀参加贵州省十二五科技创新成就展 8 月 11 日 13 日, 贵州省十二五科技创新成就展在贵阳市白云区贵州科学城举行我校国家大学科技园 ( 思雅众创空间 ) 受邀参展本次贵州省十二五科技创新成就展以合作创新加强转化重点突破引领跨越为主题, 展览通过十二五科技创新成就展区大众创业万众创新展区技术市场展区大型实物展区 4 个展区全面展示我省十二五期间科技创新取得的重大成就作为贵州省十二五期间双创平台发展成就典型代表, 我校国家大学科技园思雅众创空将参展作品 VR 数字内容制作球齿钎头修磨机福农宝农业大数据产业项目智能装备生物科技产品等成果进行了展示活动期间, 到我校展位来体验交流咨询的人群络绎不绝, 人头攒动我校大学科技园思雅众创空间展品的精彩亮相, 在向外界充分展示园区近年来科技创新成果与实力的同时, 也进一步为学校和园区树立了良好的社会形象 43

50 大数据金融信息剪辑导读 2016 中国大数据技术大会聚焦行业最佳实践, 应用与数据深度融合是大数据领域规模最大最具影响力的 IT 盛会促进大数据时代变革共赢新时代机遇和挑战为主题的 2016 中国 ( 北京 ) 国际大数据产业博览会暨高峰论坛, 展示了大数据在金融领域的 10 大趋势互联网金融千人会高峰会今举办, 贵阳领取 2016 互联网金融十大创新城市荣誉大数据金融征信和风控体系建设, 将向更加广泛的领域渗透 ; 在数据化的时代, 标准化的工作在各个行业都急需开展和落实, 目前社会上高度重视大数据标准化工作, 国家层面也采取了一系列的措施 2016 中国大数据技术大会在北京盛大召开摘要 :2016 年 12 月 8 日, 作为大数据领域规模最大最具影响力的 IT 盛会, 2016 中国大数据技术大会 (BDTC 2016) 在北京新云南皇冠假日酒店盛大开幕, 本届大会的主题是聚焦行业最佳实践, 应用与数据深度融合 2016 年 12 月 8 日, 作为大数据领域规模最大最具影响力的 IT 盛会,2016 中国大数据技术大会 (Big Data Technology Conference 2016, BDTC 2016) 在北京新云南皇冠假日酒店盛大开幕本次大会历时三天, 以更加国际化的视野, 邀请众多国内外大数据专家齐聚一堂, 从政策法规技术实践和产业应用等角度深入探讨大数据落地后的挑战, 与往届相比, 本届大会更关注行业应用最佳实践, 突出应用和数据的深度融合, 并首次将人工智能高性能计算等热点话题引入大会, 作为大数据产业界科技界与政府部门密切合作的重要平台, 本届大会吸引了数千名大数据技术从业者与技术专家到场参会 BDTC2016 由中国计算机学会 (CCF) 主办,CCF 大数据专家委员会承办, 中国科学院计算技术研究所中科天玑数据科技股份有限公司与 CSDN 共同协办为了更好地探讨大数据技术生态系统的现状和发展趋势, 交流大数据技术实践经验, 进一步推进大数据技术创新与应用, 展示国内外大数据领域的最新成果,BDTC 2016 除第一天的全体大会外, 主办方还精心策划了 16 场专题技术和行业论坛, 涵盖了大数据分析与生态系统大数据云服务 HPC 大数据推荐系统数据安全与隐私保护人工智能网络与通讯政策法规与标准化工业与制造业数据库金融精准医疗和生物医药大数据交通 44

51 大数据会议活动集锦旅游与出行等主题数据开放与政府治理高层沙龙超过 130 位技术专家, 将奉上 100 多场精心准备的技术演讲, 与参会者聚而论道回顾十年大数据历程, 聚焦最佳实践从 2005 年 Hadoop 项目诞生至今, 大数据已经走过 10 年历程, 在互联网运营商 IT 服务提供商以及众多传统企业中落地实践在全体大会演讲环节, 海内外顶级专家学者将深入探讨大数据数据技术这十年来的发展历程和思考, 并结合最新大数据技术发展方向探查潜在应用其中,8 日上午的主会环节, 启明星辰公司副总裁,CCF 大数据专家委员会副秘书长潘柱廷带来了大数据发展趋势报告主题分享, 详细解读各种大数据技术的最新发展和动态 ; 东京大学教授, 日本国家信息研究所所长喜连川优分享了探讨大数据从商业价值到社会价值的转变 ; 中国移动苏州研发中心大数据部总经理, 高级工程师钱岭则回顾和思考了十年大数据技术演进历程 ; 美国伊利诺伊大学香槟分校 (UIUC) 计算机系教授翟成祥则将侧重点聚焦在文本大数据分析与挖掘的机遇挑战及应用前景 ; 普元信息 CTO 焦烈焱针对数字化转型中的大数据治理架构做出解读, 星环科技董事长 &CTO 孙元浩全面剖析大数据技术的最新进展和潜在应用在备受关注的语音金融以及智能驾驶领域, 三位不同领域的专家也做了重点探讨科大讯飞大数据研究院副院长谭昶分享讯飞大数据的实践与思考, 百度金融研发负责人沈抖讲述大数据助推普惠金融发展与创新, 驭势科技联合创始人兼 CEO,CCF 大数据专家委员会委员吴甘沙则剖析智能驾驶中的人工智能, 都从不同维度解读大数据的发展趋势及不同领域的最佳实践此外, 来自 Facebook PayPal 华为百度中兴飞流滴滴出行云账户等 12 家机构的一线专家, 齐聚大数据生态论坛, 研讨当前大数据生态领域的热门技术和实践包括华为技术有限公司大数据设计部部长 Apache CarbonData PMC Committer 李昆, Apache Kylin project CTO 李扬,PayPal 数据科学家张彭善,Apache Apex PMC 华思远,Facebook 工程经理金昀, 中国移动苏州研发中心高级研发工程师陶捷,Apache HAWQ 创始人常雷, 跬智科技首席技术官李扬等, 都将从各自企业实践出发, 剖析大数据为行业带来的变革, 为与会者绘制了一幅大数据生态全景图大数据云服务, 输出是关键随着大数据的广泛应用, 各大互联网公司如何打造基于公有云的大数据输出能力成为抢占新一轮技术制高点的关键本届会议上, 主办方也为参会者准备了多场基于公有云的大数据实践, 华为中央软件院大数据系统架构师孙桂林, 小米云平台研发工程师崔建伟, 亚信数据 DataFoundry 平台负责人叶鹏, 中国联通信息化部数据中心项目负责人李大中, 去哪儿网实时数据平台负责人晓旭, 腾讯云高级工程师陈鹏都将从不同角度解读基于公有云的大数据实践垂直领域应用百花齐放, 数据和应用加速融合大数据技术已在交通医疗金融制造通讯推荐系统等行业中得到了广泛深度应用, 基于大数据的垂直领域应用前景广阔, 因此也成为众多业内人士关注的焦点同时, 大数据和行业应用的融合发展已成趋势大数据产业快速发展, 产业链加速形成, 正在对经济社会发展发挥着越来越重要的作用为此, 本届大会特开设多场大数据行业应用论坛, 深 45

52 大数据金融信息剪辑入探讨大数据在行业中的落地案例, 挖掘大数据的潜在应用前景大数据加速制造业转型迈入工业 4.0 时代, 制造业的主要特征转向智能和互联, 制造业整个价值链制造业产品的生命周期都涉及诸多的数据, 数据量的暴涨成了许多行业共同面对的严峻挑战和宝贵机遇大数据在工业制造领域的应用将会使得企业能够在低成本运营的同时, 有效实现按需生产, 实现绿色生产, 提高企业经营效率为此, 中航信息中心首席顾问宁振波, 昆仑数据 CEO 兼北京工业大数据创新中心主任陆薇, 兮易控股董事长陈广乾, 宝信软件大数据事业部副总经理李一名在工业与制造业大数据论坛共同探讨工业 4.0 时代大数据的价值大数据助力交通更加便捷高效庞大的用户市场催生的海量数据让各大交通和旅游的互联网公司, 能够利用这些真实数据打造更加便捷高效的出行服务, 在交通与旅游大数据坛, 滴滴出行资深总监智能交通云负责人杨毅, 易到技术 VP 尹佐宁, 携程大数据平台总监张翼等带来大数据在交通和旅游领域的应用分享大数据驱动金融精细化运营无论银行证券还是保险, 众多金融机构正利用大数据驱动业务的优化运营数字时代, 金融行业如何利用大数据顺应时代的发展? 上海证券交易所前总工程师 China Ledger 联盟技术委员会主任白硕, 平安大数据首席总监肖京, 百度金融研发负责人沈抖, 蚂蚁金服生物及智能安全部总监资深数据专家陈继东, 微众银行大数据中心负责人姚军, 宜信大数据创新中心技术总监郑赟为听众现场解疑大数据助推精准医疗快速发展大数据分析是精准医疗发展助推器, 是跨界合作的重要领域医疗大数据的收集处理, 对生命科学临床医学临床药理有着重要意义, 可以对基因突变做出正确解析标记有临床意义的注释在本届大会的精准医疗和生物医药大数据论坛上, 国内顶级科研院所的十几位专家学者详细剖析大数据给精准医疗和生物医药领域带来的变化包括来自上海交通大学生命学院, 微生物代谢国家重点实验室的魏冬青, 中国科学院上海生命科学研究院的陈洛南深圳华大基因研究院副院长和生物信息中心主管方林, 清华大学数据科学研究院医疗健康大数据研究中心副主任江瑞等就相关话题展开讨论另外, 针对大数据在通讯以及推荐系统领域的广泛应用, 本届大会也都从各个细分领域出发, 单独开设论坛进行重点分享紧跟大数据技术前沿, 突出产学研用高性能计算完美契合了大数据在运算能力高性能存储等方面需求, 而大数据则给高性能计算提供了新型商业市场, 有助于推动高性能计算拓展新的市场蓝海, 两者在产业生态链上的紧密衔接可以很好地推进信息资源组织模式的深入变革与发展高性能计算与大数据的结合将实现优势互补在备受瞩目的高性能计算与大数据融合论坛, 华中科技大学教授金海带来题为大数据时代的新型计算机系统结构演讲 ; 清华大学教授陈文光的演讲题目为 Gemini: 基于图计算的高性能大数据分析系统 ; 澎峰科技 PerfXLab 联合创始人 &CEO 张先轶讲解了 ARM 嵌入式系统的 DNN 性能优化 ; 上海市数据科学重点实验室教授副主任斯雪明则分享了 SKA 科学数据处理中方联盟研究进展 ; 商汤集团研发执行总监林倞带来题为深度学习的基础架构 : 从算法创新到生产力的助推器的演讲他们深度探讨了 46

大数据金融资讯高性能计算与大数据的融合现状对于大数据创业者和开发者都有很强的指导意大数据和计算能力的提升打开了人工智能义此外 12月8日举办的数据开放和政府治时代的大门

为等话题展开讨论此次论坛召开对于国内数据治此在BDTC 2016上主办方特别设置了人工理创新有着强大的推进作用智能论坛包括华为诺亚方舟实验室香港研无论企业或组织

据价值成为企业和组织必须解决的问题在安大伟今日头条首席算法架构师曹欢欢氪信全与隐私保护论坛来自360 明朝万达三 CreditX CEO&Founder朱明杰智课教育首席科味信安

治理大会期间组委会开设了各种方便互动和社交的交流环节和场所每一场精彩讲演之后都可以进行深入地提问和讨论作为大数据技术与应大数据技术的发展和应用离不开政府政策用深度结合的新起点

53 大数据金融资讯高性能计算与大数据的融合现状对于大数据创业者和开发者都有很强的指导意大数据和计算能力的提升打开了人工智能义此外 12月8日举办的数据开放和政府治时代的大门大数据对于人工智能领域有着怎样理高层沙龙与会者就政府数据如何开放政的推动作用人工智能如何借助大数据实现技术府如何利用大数据提升治理能力和经济社会发展的升级和应用的拓展成为大家关注的焦点为等话题展开讨论此次论坛召开对于国内数据治此在BDTC 2016上主办方特别设置了人工理创新有着强大的推进作用智能论坛包括华为诺亚方舟实验室香港研无论企业或组织数据安全都不容忽视如究员项目经理耿彦辉微软亚洲互联网工程院何在注重数据安全和用户隐私的前提下挖掘数资深总监曹文韬京东Director of Research殷据价值成为企业和组织必须解决的问题在安大伟今日头条首席算法架构师曹欢欢氪信全与隐私保护论坛来自360 明朝万达三 CreditX CEO&Founder朱明杰智课教育首席科味信安安天科技等安全领域的实力公司为参会学家李曙光分别带来主题分享围绕人工智能在者带来了大数据安全和隐私保护的分享搜索金融媒体等领域的深度实践展开讨论关注安全和隐私保护以数据开放创新政府治理大会期间组委会开设了各种方便互动和社交的交流环节和场所每一场精彩讲演之后都可以进行深入地提问和讨论作为大数据技术与应大数据技术的发展和应用离不开政府政策用深度结合的新起点 BDTC 2016已经成为产业保驾护航 BDTC 2016设置了政策法规与标准界科技界与政府部门密切合作的新平台为推化论坛来自政府部门和科研院校从事大数据动我国大数据的产学研用做出了重大贡献法律研究的5位专家详细解读大数据相关法律部分会议议程 47

54 大数据金融信息剪辑 48

55 大数据会议活动集锦 2016 大数据博览会 : 大数据在金融领域的 10 大趋势由中国高科技产业化研究会主办, 中国高科技产业化研究会信息化工作委员会协办, 北京百科汇国际展览服务有限公司承办 2016 中国 ( 北京 ) 国际大数据产业博览会暨高峰论坛将于 2016 年 9 月 12 日 -9 月 14 日, 在北京中国国际展览中心举办本届展览会将以促进大数据时代变革共赢新时代机遇和挑战为主题, 诚邀各单位企业负责人及专业观众一起探讨大数据产业的未来和发展, 共同展示大数据产业领域的最新成果新技术, 探讨行业动向进行面对面的商业交流等且此次会展将吸引世界各国的媒体前来报导现在, 放眼 2016 年将要面对的, 我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言, 他们面前的路依旧漫长银行家们也正在起草大数据战略, 制定入门和随后的用例 2015 年对于银行和金融业公司来说是一个开局之年, 在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进现在, 放眼 2016 年将要面对的, 我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言, 他们面前的路依旧漫长银行家们也正在起草大数据战略, 制定入门和随后的用例对于银行来说, 大数据主要还是围绕提高客户情商, 减少风险, 符合监管在可见的未来处于第一梯队的大型金融集团都会继续围绕大数据展开各种动作在低端市场, 一些中小型的公司 ( 经纪资产管理区域银行顾问等 ) 能够更快速的适应大数据平台 ( 云平台和本地部署 ), 这些都帮助他们构建能够支撑复杂业务的大型系统, 同时这些系统也都是比他们大的竞争对手所必须面对的这块市场因此能够快速成长 ( 对比那些大银行所关注的长期而规范的和成本为主的项目 ) 能够马上看到更加直接收入贡献和战略 ( 概念 / 实验 ) 项目对于大数据软件提供商和服务提供商来说, 市场已经到了一个银行业必须要接受的爆发点上大家都要在高可用大规模内部管控和面向客户活动方面有一些措施同时, 这些内容和我们看到的云技术的发展路线有所不同下面给大家展示几个大数据技术发展方向的预测, 和这些发展带来的变化如何影响金融服务业 : 1 机器学习将会加速发展, 同时大批量的应用在反欺诈和风控领域数据科学家人才本身的供需关系将会朝着更加平衡的方向发展在反欺诈和风控领域将会使用更加成熟的技术来改善风控模型本身, 并且加速发展实时分析监控和预警这些快速的发展和变化会来自于业界领导者的传授和在现实世界的实践与应用 49

56 大数据金融信息剪辑 2 业界领导和进步缓慢者之间的差距将会越来越大每一年我们都能看到银行为了适应新技术而加大油门快速前进, 同时在组织架构方面非常保守业务和用户在 2016 年都将要激增而且会非常多变, 结果就是在广阔的市场导致更强的可观察到的和可衡量的业务大量回归 ( 不只是成本的下降 ) 3 数据治理, 血统和其他的合规性方面问题将会更加深入的集成到大数据平台中去为了找到一个能够在合规性方面提供更强大功能的数据解决方案, 许多银行都购买或者开发了单点解决方案, 再不行就是用已经运行很多年的传统解决方案平台, 但是这些解决方案都无法应对现今大规模爆发的数据幸亏现在有越来越多的 Hadoop 改进方案来进行数据治理, 改善血统和提供数据质量更重要的是, 这些新数据平台能够超越 Hadoop 平台达到传统数据存储的效果, 并且做的更加大容量, 更快, 且在细节上达到合规性要求此外在 2016 年我们将继续看到为融合监管和风险控制 (RDARR) 中心服务的叫做数据湖方面的更多进展 4 金融服务业正在利用物理网数据方面做出努力这一波浪潮正是抓住大数据吸引力炒作 / 发力的好时机, 同时金融服务应用的为题也很多物联网数据在许多行业应用中已经实践 ( 电信, 零售, 制造业 ) 这些行业驱动了物联网的数据的需求并且处于垄断地位那么对于银行来说物联网数据是否能够用在 ATM 或者移动银行业务中? 这些都是在明年的多渠道实时数据流中值得探索的例如, 实时, 多渠道的商业行为可以使用物联网数据对银行零售客户在正确的时间点提供适时的报价或许我们反过来想想, 金融公司可以将自己的服务内嵌植入到用户的某种东西或者设备或者其他和客户接触的点上, 不在那些交易设施上, 而是在家 5 与贸易, 投资组合管理和咨询申请集成成为软件供应商的一个显著特点鼓吹与从大数据获得更多利益相关的新闻头条越奏越响最终, 这些观点都将被金融终端用户可见的利益 ( 或者不可见无法衡量的利益 ) 还有易用性等因素决定大数据平台的建设核心将要提供的就是一个桥梁就是大数据, 并且将其锐化突出我们已经看到了市场数据供应商最喜欢的动作, 但是并没有其他商业用户的应用, 那么朝这个方向努力 (CRM,OMS/EMS 等 ) 6 风险控制和监管数据管理将继续成为顶级大数据平台的重要任务增长和用户中心相关的商业行为将稳坐战略合作列表第一的位置, 会有很多的公司会把未来的战略与大数据关联起来不论你的银行是不是发达的数据驱动的公司不断变化发展的规律还是面对大量的挑战, 朝着预测发展的分析都是一条漫长的道路, 同时也是一个必要的需求和被公司首席高官确认有意义的事除非老天开恩或者监管机构放松要求, 否则风险控制和监管仍然是 2016 年所有金融机构的首要挑战 7 金融服务业采用 Hadoop 作为关系型数据库进行存取将会大大增加大家在不同的时间使用了相同的技术之间并没有任何差别长尾效应还很遥远, 但是中小型银行将会从 Hadoop 的以下几方面获益 : 供应商将整合整套集成解决方案, 服务, 平台用户社区持续成长, 并能提供一个基础参考作为突破口数据降载成为当今 Hadoop 一个经典应用 ( 相对来讲 ), 同时许多大数据专家继续再更大的数据集合上前进, 未来将会有更多的普通人加 50

57 大数据会议活动集锦入到大数据应用的行列 8. 金融服务大数据终结 app 理论在市场得到了越来越多的认可 FinTech 已经孵化了 2-3 年, 形成了大数据平台和用户间从前端到终端的连接希望看到更多的银行作为证明概念来运行这些应用, 这些实践将检验软件所提供的完整解决方案的基础前端到终端和后端都应进行整合, 而不是分割大家可以看到市场迅速的从服务集成扩展到后端, 这将迎来银行业的关于如何定位大数据软件和传统软件的激烈讨论 9. 变化来了, 获得前进动力的最后一次机会随着越来越多的高可靠大数据平台的出现, 安全专家, 深层次的丰富元数据, 集成 LEI 和其他标准成为一个严峻的现实传统的数据的方法是有效的, 只是需要一些思想来充分利用新的解决方案 - 例如处理架构和数据建模更深一层, 随着大数据工作在前台, 市场营销和风险控制方面形成的工作模式, 我们能够看出这里面在办公的中后期业务上有明显和巨大的数据重叠部分, 这些重叠能够很容易的应用在现有的数据湖中我们预计, 在中等的商业风险评估与性能相关的大数据的商业行为将迅速增加更进一步, 我们将看到关于如何切实带来后台功能的更深层次的交流 ( 合作等 ) 10. 银行的机构方将开始采用并从零售业务的方式来获取线索增进对于市场目标客户的了解有一些纯 B2B 的公司利用大数据来改善客户商情, 但是大部分时候他们处于 B2C 业务的不利地位, 信用卡业务, 银行零售业, 财富管理或者借贷业务一个简单的跨界就是基金的配置 ( 大型共同基金经理 ) 从财富顾问网络和经纪人相互作用来改善数据收集的过程, 同时也提高产品利用率一旦被从客户群中移除, 这对于共同基金通常是非常重要的, 所以加强对于机构客户的理解显得尤为重要信任仍然是许多大型银行的使用新供应商大数据的主要因素换句话说, 当你展望 2016 年, 将会有很大的来自管理层的推动力, 来把大数据项目移出 IT 然后放到商业用户手中为了达成目的, 我们需要考虑架构, 功能, 速度, 可用性, 安全性等问题与往常一样, 采用传统的严谨性以全新的架构布局并没有改变, 传统架构将的成本和缓慢的进展将开始在新的 Hadoop 表现和融合的大数据的架构过程中逐步展现更进一步, 将来一定会有更加强大的工具来处理现有的工作, 例如数据治理, 数据质量, 参考数据管理, 标准这将要求各方持续的教育, 即那些 IT 意外的继续教育用以了解市场的快速发展最后, 针对平衡开源和供应商解决方案将展开长期讨论不是所有的开源项目设计之初就符合机构客户, 开源项目传递了一种敏捷性需求开发每个银行的需求都在不停的变化, 为大数据找到合适的点才是更加重要的总而言之,2016 年的市场将会不断前行, 混乱随之减少, 同时会使大数据的海洋变得风平浪静 51

58 大数据金融信息剪辑 2016 贵阳大数据金融互联网金融千人会高峰会今举办深圳上海之后排名第五, 很了不起! 贵阳在金融生态建设中的积极作为和示范效应, 对西南地区普惠金融的发展和绿色发展意义重大, 也是 2016 互联网金融千人会高峰会互联网金融千人会移动金融大会将落地贵阳举办的重要原因据悉, 贵阳在进入新常态的大背景下, 以大数据产业生态发展为重要抓手, 紧盯技术前沿, 11 月 3 日,2016 互联网金融千人会高峰会在互联网金融十大创新城市之一贵阳召开, 贵阳市人民政府王玉祥副市长作开幕致辞国家互联网金融安全技术专家委员会秘书长吴震, 互联网金融千人会创始会长中央财经大学金融法研究所所长黄震教授分别作互联网 + 金融更需要互联网 + 安全技术保驾护航互联网金融风险整治的逻辑与监管的趋势的主题演讲贵阳市金融办罗尧重副主任出席互联网金融十大创新城市颁奖典礼, 代表贵阳领取 2016 互联网金融十大创新城市荣誉在 IFC1000 最新发布的 2016 互联网金融十大创新城市榜单中, 贵阳市位列全国第五贵阳凭借天然的地理气候环境近年来大数据科技及互联网金融的迅猛发展优势, 成为西南区域唯一上榜的城市同时上榜的还有杭州北京深圳上海等城市在十大互联网金融城市评选中, 贵阳是公众网络投票得票最多的城市, 说明老百姓对贵阳市互联网金融产业创新发展的认可度很高据大会主办方之一 IFC1000 互联网金融千人会创始会长黄震教授介绍在全国互联网金融创新发展的格局中, 贵阳能够继杭州北京在互联网金融技术带来巨大变革时, 贵阳紧抓历史机遇, 相继成立了全球第一家大数据交易所第一家众筹金融交易所第一家大数据金融学院, 也是移动金融五个试点城市之一, 并运用区块链技术推动贵阳市大数据的应用发展目前贵阳大数据产业规模已达 916 亿元一座中国数谷正在崛起本次论坛期间, 来自德勤中国甜橙金融恒生云融益盟股份上上签中天城投等知名企业代表聚焦移动普惠绿色的会议主题, 就移动支付征信金融产品创新与规范发展大数据风控区块链普惠金融等热点话题进行了精彩主题发言与讨论黄震教授与来自贵阳移动金融发展有限公司中伦文德律师事务所贵州省小贷协会北京基石兆业控股掌众金融等嘉宾作了移动互联助力普惠金融的主题对话科技创新是金融发展的第一动力, 服务实体经济普惠社会是金融发展的最大红利在举国上下对移动互联助力普惠金融寄予极大希望的时候, 在贵阳全力繁荣金融生态的时候, 我们有的理由相信, 移动金融春天的正在到来 n shtml 52

59 大数据会议活动集锦 2016 年大数据金融信用体系建设和风险控制系列活动贵阳共识 2016 贵阳大数据金融信用体系建设和风险控制系列活动, 在与会的有关监管机构政府部门企业家金融机构和专家学者的共同参与下, 进行了为期四天热烈而深入的研讨, 于 2016 年 11 月 4 日圆满结束本次活动以大数据金融信用体系建设和风险控制为主题, 重点探讨如何利用大数据区块链等新兴科技, 开展传统金融和新金融征信体系建设和风险控制, 达成了如下共识 : 一贵阳作为国家大数据 ( 贵州 ) 综合实验区的核心区域, 在大数据产业发展方面形成了先发先行优势通过着力构建大数据内容中心服务中心和金融中心, 促进大数据共享开放和创新应用, 加快了大数据与三次产业的深度融合, 推动了产业的转型升级, 培育了比较完整的产业链条和产业生态二贵阳的大数据战略把大数据金融当成重要的战略重点之一大数据金融是大数据产业的核心要素和顶层结构, 大数据金融源于互联网金融, 高于互联网金融, 包括互联网金融和传统金融大数据金融是新一轮科技革命驱动下的金融创新的最新成果, 具有强大的生命力和广泛的应用前景三贵阳大数据金融通过整合更多的数据维度, 推动整个信用体系建设, 为信用体系建设提供了有力的支撑特别是在传统金融征信基础之上, 有效地进行了行业条数据与地区部门块数据有效的结合, 叠加了更多维度的数据, 从中筛选出有效数据, 为对企业个人更加精准的画像和造影为新型征信和信用评价提供了更加精准更加高效的依据四贵阳大数据金融, 有助于防范包括传统金融和新金融在内的金融风险通过运用大数据云计算区块链人工智能等技术, 对传统金融和新金融的风险管理有显著提高利用大数据建立风控模型, 逐渐实现传统倚重人工判定财务数据向依靠大数据分析违约概率转变, 依靠大数据实现业务的全流程实时动态的监控五贵阳大数据金融信用体系和风险控制的探索与试点, 得到了社会各界及相关领导的高度重视和认可, 在全国开启了运用大数据, 支持大数据金融产业发展和风险控制的先河! 伴随着金融科技革命的不断涌现, 创新成果和监管规则的不断完善, 大数据金融征信和风控体系建设, 将向更加广泛的领域渗透我们期待, 通过大家的共同努力, 让大数据金融从贵阳起步, 辐射带动全国大数据金融产业的发展, 让大数据金融真正为发展普惠金融, 解决小微企业融资难融资贵问题和发展实体经济服务, 推动形成全球大数据金融蓬勃发展的崭新局面! 来源 : 数据观 - 贵阳日报 53

大数据金融信息剪辑 48家单位共同发起关于数据标准化和治理的倡议书数据观获悉 11月6日首届中国数据标社会各界力量搭建一个共同交流沟通和标准准化及治理大会在清华大学圆满召开在会验证的平台着力宣传和普及标准化及治理的前上组委会特意向贵州省大数据局全国海关沿理念方法与实践并且将这些工作常规化信息中心等40余家单位及大多数与会嘉宾发起了周期性持续地开展

60 大数据金融信息剪辑 48家单位共同发起关于数据标准化和治理的倡议书数据观获悉 11月6日首届中国数据标社会各界力量搭建一个共同交流沟通和标准准化及治理大会在清华大学圆满召开在会验证的平台着力宣传和普及标准化及治理的前上组委会特意向贵州省大数据局全国海关沿理念方法与实践并且将这些工作常规化信息中心等40余家单位及大多数与会嘉宾发起了周期性持续地开展关于数据标准化和治理的倡议国际数据管理协会中国分会主席胡本立先生倡议的目的是促进各界大数据生产者使也表达了同样的观点和愿望并表示将不遗余力用者和从业者对于数据标准化数据质量及数据地促进中国数据标准化及治理相关产业的发展治理理念达成共识呼吁大家关注和重视数据治非常期望能与社会各界携手共建权威开放及广理数据质量等基础数据能力建设发动社会各泛参与的交流平台界能联起手来共同创建数据和谐生态清华大学数据科学研究院院长助理王霞女中国电子技术标准化研究院副院长高林先生士现场宣读了关于数据标准化和治理的倡议在致辞中指出在数据化的时代标准化的工作书号召广大从业者在以下五个方面达成共在各个行业都急需开展和落实目前社会上高度识重视大数据标准化工作国家层面也采取了一系列的措施希望与会专家包括清华大数据产业联合会 DAMA China等这类组织共同呼吁并聚集一从现在开始关注和重视基础数据能力建设二高层领导搭班子定战略做积极倡导者三业务人员发挥数据主人翁意识做深度参与者四信息技术人员技术与管理并重做综合型数据管家五为基础数据工作创造开放宽松的发展环境 54

产业发展更稳健更扎实以下为48家共同发起倡议单位名单透到各行各业的实践中并长期坚持下去

61 大数据会议活动集锦相信通过努力开展以上五个方面工作从基层员工到高层管理从文化建设到人才培养数据标准化数据质量及数据治理的工作必定会渗实现整个社会的数据更可靠更可用使大数据产业发展更稳健更扎实以下为48家共同发起倡议单位名单透到各行各业的实践中并长期坚持下去逐步来源 55

62 大数据金融信息剪辑 2016 年贵阳大数据金融信用系列活动论坛观点集锦一轮一轮的观点交锋, 一次一次的智慧碰撞, 成就一场思想的盛宴 11 月 3 日,2016 年贵阳大数据金融信用体系建设和风险控制系列活动中的大数据金融与现代信用城市建设论坛互联网金融千人会高峰会大数据金融的众筹金融信用体系建设及发展论坛保险业大数据风险防范及征信探索论坛相继召开工信部信息化和软件服务业司处长傅永宝北京移动金融产业联盟秘书长班延伦银联智慧信息服务 ( 上海 ) 有限公司董事长徐燕军近百名来自政企产学研的专家学者汇聚贵阳国际生态会议中心, 基于大数据视角, 对金融模式的创新和发展又有了一次新的探索和实践在大数据金融与现代信用城市建设论坛上, 参会嘉宾提出在现代信用城市建设的过程中, 利用好大数据金融是关键一环 11 月 3 日, 大数据金融与现代信用城市建设论坛举行, 来自国内政企产学研等领域的 10 个专家学者齐聚一堂, 共话大数据金融与现代信用城市建设与会嘉宾认为, 以大数据为支撑加快信用体系建设, 能广泛适用于金融服务社会治理行政监督民生服务等诸多领域, 其中, 基于金融业存量数据规模大的特点, 大数据金融是现代信用城市建设的关键一环工信部信息化和软件服务业司处长傅永宝在论坛中就提到, 随着信息技术与经济社会的深入融合, 数据正在呈现爆炸式增长的态势, 以前叫工业革命, 现在叫信息革命, 数据已经成为国家的战略资源, 对于我国来说, 如何把握发展机遇, 充分利用好大数据, 是一个重要的课题在现代信用城市建设的过程中, 如何利用好大数据? 傅永宝认为, 基于金融业存量数据规模大的特点, 大数据金融是现代信用城市建设的关键一环他说, 金融行业是国内外信息化程度较高的行业之一, 出于稳定经营控制风险的需要以及国家相关金融法规的要求, 金融机构都保留了大量的业务数据, 而这些持续经营产生的存量数据就成为了金融行业利用大数据的基础, 这也是现代城市信用体系建设的数据源头听了傅永宝的观点后, 中国互联网金融协会外部专家戴志辉也表示认同他说, 大数据金融本身会产生海量的大数据, 有信贷数据, 有被拒绝的数据, 这些数据能够使金融行为带来的财富效应有利于信用城市的建设, 在信 56

63 大数据会议活动集锦用城市建设里面, 最终的目的就是要让守信者受益, 大数据金融本身就是一种根源式的体现在大数据时代下, 信用本身就是一种财富戴志辉举例, 银行的贷款和 P2P, 不同的信用等级可以获得不同的利率折扣 ; 同样在保险的领域, 车险的差距费率也体现了这一点此外, 大数据金融还呈现出一种网络化特征, 失信者受戒, 除了不能乘坐飞机高铁之外, 基于信息的互联互通, 在其它领域也会处处受阻既然认识到了大数据金融的重要性, 那么在现代信用城市建设的过程中, 该如何利用好大数据金融? 戴志辉认为大数据金融现在还处于早期阶段, 基础设施的发展还急需完善首先, 大数据金融公司要关联多个数据源, 有的甚至十几个, 包括工商法院公积金等, 有的企业还可能需要来自电商的交易数据社交媒体的社交数据等这么多的数据, 现在没有一个统一的大数据基础设施, 所以不少大数据金融公司不得不同时连接多达十个以上的数据源, 这占到整体的风控成本的一半以上, 因此, 做好基础设施建设是迫在眉睫的事情公安部第三研究所网络身份技术事业部执行主任严则明也提出建议, 在大数据金融的运用中, 要加强隐私保护的建设工作有数据统计, 随着大数据时代到来, 全球网络犯罪的案值超过 3 万亿美金, 你看, 我们买房了买车了, 马上推销的电话来了, 这都是个人隐私信息泄露在保险业大数据风险防范及征信探索论坛上, 参会嘉宾认为大数据将会引导保险行业进入高速发展的快车道 11 月 3 日, 保险业大数据风险防范及征信探索论坛举行, 来自中国保险学会中国平安保险等机构和企业的 8 位知名专家企业家围绕保险业大数据风险防范及征信探索这一主题进行了探讨他们认为, 随着大数据时代的到来, 作为金融业三驾马车之一的保险业也迎来前所未有的发展机遇只需充分利用好大数据技术和理念, 中国的保险行业必将进入高速发展的快车道有数据统计, 截至 2015 年底, 中国的人寿保险市场保费收入为亿元, 同比增长 25%; 财产险保费收入 7995 亿元, 同比增长 11% 然而尽管发展迅速, 但我国保险市场的保险深度却只有世界平均水平 6.3 的一半很大的一个原因就在于保险行业的不可计量性以及信息不对策的制约中国人民财产保险股份有限公司执行董事副总裁王和说, 由于缺乏信息, 在相当长的一段时间内, 行业对风险的认知和管理不得不依赖于主观的判断, 或者言之, 以往人们知道风险的存在知道风险有某一些特征, 但是人们没有办法了解感知和管理风险但是随着大数据时代的到来, 我们将迎来一个客观管理时代, 数据的数量纬度和实时性的极大丰富, 能够让我们客观地去认识风险评估风险和管理风险王和认为, 这主要是基于大数据的数据分析能力和云计算能力, 一方面是让人们有可能获得更多更丰富的数据, 从而进入了一个数字化的社会, 让人们有了对比的可能性 ; 另一方面是云计算技术的应用, 保险业迎来一个风险计算的时代, 比如文本挖掘图像识别云识别等等进行数据的分析和预测, 是否有风险一算即可对于大数据将会引导保险行业进入高 57

64 大数据金融信息剪辑速发展的快车道的观点, 中国平安保险 ( 集团 ) 股份有限公司保险系列首席技术官钟捷作了补充钟捷说, 根据平安这几年的实践, 大数据可以为保险公司带来如下几个方面的益处 : 一是风险定价, 保险公司分析定价因子来做 UBI 险种的常识 ; 二是欺诈的识别, 比如通过关系网络来进行风险评分, 来避免欺诈 ; 三是运营的优化, 比如每年理赔的时候有上亿图片上传, 在处理这些图片的时候经过人工来看清晰度, 确定理赔金额, 如果可以通过图片识别技术把人工环节减去, 即可大大地降低效率和增强用户的体验 ; 四是精准营销, 通过大数据手段对客户进行评分, 哪一类客户更容易销售, 来进行更准确地推荐当然, 利用大数据推动保险行业的发展并不是一蹴而就的事情中国保险信息技术管理有限责任公司副总裁陈克文就提出, 信息共享是首要解决的问题, 因为只有信息共享, 才能让每个行业能够快速查询被保人的相关信息, 被投保人也能够获得快速的查询服务 ; 同时也可以形成跨地区的协同合作, 以防止保险欺诈, 例如某一个人在一个公司投某一个保险, 这个保险公司就可以查看这个人以前投的全部险种, 以及这个人的出险记录, 这样就可以判断这个人是否存在保险欺诈的行为互联网金融千人会会长黄震也提议, 在利用大数据之前, 如何保护大数据所涉及的个人隐私个人信息是前提他说, 如果没有对于个人隐私信息的保护, 必然会带来更多的风险, 比如现在的商家, 拼命的捞数据挖数据购买数据, 但这些数据是否经过合法途径, 谁也不知道今天上午有一位企业讲到他们坚决不用那些可能有瑕疵的数据, 我就要为他点赞黄震如是说在互联网金融千人会高峰会上, 与会嘉宾认为互联网 + 金融更需要互联网 + 安全技术 11 月 3 日下午,2016 年贵阳大数据金融信用体系建设和风险控制系列活动互联网金融千人会高峰会在筑举行与会嘉宾围绕互联网 + 金融更需要互联网 + 安全技术保驾护航互联网金融风险整治的逻辑与监管的趋势区块链风口之中的新兴技术等主题, 通过主题演讲与主题对话等方式对互联网金融进行了多角度的探讨随着国务院提出大众创业万众创新的发展战略和互联网 + 行动计划以来, 我国的互联网金融产业高速发展, 但是也为金融市场产生了许多全新的课题国家互联网金融专家委员会秘书长吴震表示, 首先从互联网金融的定义看, 它基于互联网技术移动通讯技术实现资金融通, 符合信息中介的信息金融模式, 是互联网模式与金融的有利结合从形式来看, 既有传统业务的互联网化, 也有互联网催生的新兴的业务, 互联网金融就是互联网 + 金融, 更准确地说它不是层次上的叠加, 而是新兴的融合的产业同时, 互联网金融具有多新快杂虚的特征, 而正因为这些特征, 互联网安全事件频发, 如巨额资金去向不明, 所以只有解决安全问题, 才能促进互联网金融的繁荣和发展对此, 中央财经大学金融法研究所所长教授黄震表示赞同, 并就互联网金融风险整治的逻辑与监管趋势进行深入解说有了大数据云计算区块链人工智能等一代又 58

65 大数据会议活动集锦一代的技术催生各种产业的革命, 加上金融是产业的顶端, 经济的血液, 因此必然裹胁着改变黄震表示, 互联网金融的发展, 说明传统产业生态出了严重的大问题, 一方面互联网金融与传统的实体越来越背离和阻隔, 二是不同的产业进行不同的监管, 导致同样的监管体系中的部门之间无法实现融通, 而这种金融体系是背离金融本质的因此, 在互联网金融整治的逻辑上, 黄震认为, 首先是要促进互联网金融的健康发展, 其次看到异军突起要进行监管, 第三是要规范发展同时, 互联网金融的逻辑又分三个层级一是创新逻辑, 主要是技术创新驱动 ; 第二是监管的逻辑, 它与金融市场主体的权利利益的碰撞有关 ; 第三是分析问题的整治监管让互联网金融平衡, 不能平衡的时候只有整治, 而整治的目的是促进其健康发展黄震说道那大家该如何应对今后的整治以及监管呢? 黄震表示, 在后监管时代, 合规很关键当各种细则办法在不断出台中时, 企业要抓住动态性的规范, 做到动态合规如今互联网金融的特点是跨界协同, 要跨十几个部门才可能对它进行监管, 因此想要合规就要考虑每一个有关部门的规定对你有什么影响, 而不仅仅是原来的主管机构就行了黄震建议, 企业应先把内规梳理出来, 争取把内规升级变成外规, 以达到动态合规在大数据金融的众筹金融信用体系建设及发展论坛上, 参会专家学者提出构建众筹金融生态体系将贵阳打造成大数据区域金融中心 11 月 3 日,2016 年贵阳大数据金融信用体系和风险控制系列活动分论坛大数据金融的众筹金融信用体系建设及发展论坛举行参会专家学者提出, 在智能化的移动互联网时代, 要让金融与互联网大数据结合起来加强金融基础设施建设, 保障金融市场安全高效运行和整体稳定, 将贵阳打造成大数据区域金融中心谈到大数据金融如何和地方金融改革结合起来贵阳如何成为区域的金融中心? 中国区块链研究联盟主任中国社科院金融所所长助理杨涛在做主题演讲时认为, 大数据金融时代, 在发达经济体, 影响了金融基础设施, 在新兴经济体, 影响了金融机构与产品与日益增长的经济金融创新与发展需求相比, 我国的金融基础设施有效供给仍然严重不足要加强金融基础设施建设, 保障金融市场安全高效运行和整体稳定杨涛指出, 大数据时代的金融基础设施建设, 应该以信用等级为抓手, 促进提升基础设施的比较优势与外溢性第一阶段可能会是迷茫与磨合阶段, 在该阶段大数据金融效应外溢与数据流动会失衡到第二阶段, 就到了短期受益阶段, 在该阶段, 大数据金融集聚直接带来政府税收收益, 更易服务于地方产业部门, 最终服务于公众福利改进第三阶段, 长期提升阶段, 大数据金融辐射服务于区域经济跨界, 辐射带动区域内外众多公众受益到第四阶段为开放平台阶段, 大数据金融科技的创新引领与输出, 金融要素在区内外快速的流动, 以技术标准规划与文化为主导那贵阳如何成为大数据区域金融中心, 标准是什么? 杨涛认为, 一方面, 通常取决于是否具备基础性条件, 比如经济环境贸易环境城市发展水平人力资源法律监管历史与文化积淀另一方面, 其金融机构体系的 59

66 大数据金融信息剪辑健全程度金融机构筹资和投资的能力金融产品创新支付清算等金融设施金融人才的聚集等, 是否达到了领先程度如果从全球范围来衡量, 则还要考虑资本开放程度货币体系稳定性与金融的安全性杨涛举例说, 以新加坡为例, 就是通过构建七大支柱来支撑自己的金融中心梦想, 包括国际性资产管理中心债券中心证券及衍生品交易中心外汇交易中心保险业中心和离岸金融中心其针对亚洲三大经济体, 包括中国印度和日本, 构建了全球最大的亚洲股指期货离岸市场同时, 当地也成为离岸人民币的中心之一在谈到如何建设众筹金融信用体系时, 财政部财政科学研究所所长博士研究生导师贾康认为, 众筹金融信用体系的建设, 是要在供给侧改革下进行的, 可以进行多元化改革, 形成多元化的供给侧改革体系, 有效支撑金融体系建设要结合金融交易的特性, 让绿色金融, 小微金融, 普惠金融都融入进来并给予支持同时, 要进行金融互联网的创新, 这一定要在互联网的支撑下进行, 甚至要超越互联网互联网与移动互联网时代的到来, 产生了移动金融, 这是一次产业的革命贾康认为, 在贵阳, 金融已经插上了互联网的翅膀, 取得超常规发展贵阳可借助生态文明和科技创新, 发掘更多资源潜力, 让金融与互联网大数据结合起来, 共享经济, 形成盈利模式要让互联网下的金融产生更多的产品, 让产品市场化, 商业化, 真正带来一个移动互联网状态下消费, 提升用户的体验感来自京东集团的李贺明在谈到互联网金融大数据风探体系建设时提出, 应该通过体系的监管与服务促进地方金融产业的发展体系建设要建立金融行政监管与服务行政规范及行业的标准, 金融企业经营财务数据信息实现实时获取并精准在众筹交易平台征信体系区块链技术方面搭建风控模型, 建立企业行业信用标准风险预警, 建立可复制可推广的金融监管政策法律法规标准体系来源 : 大数据观察 article/mdawmdu3n8zq4.html 60

67 大数据会议活动集锦首届中欧大数据金融论坛开启大数据金融的思维碰撞随着大数据技术受到越来越多的重视, 这项技术的应用场景也越来越丰富目前, 政府教育医疗交通环保金融互联网金融地产零售媒体航空旅游酒店耐用消费品等领域都出现了大数据技术的身影尤其是在互联网金融领域, 大数据技术的应用及发展非常活跃互联网金融从最初的模式创新走到了今天的科技创新, 中间起到关键作用的因素, 除了金融科技的逐步完善之外, 更有大数据技术的强大助力正是看到大数据与金融科技的碰撞, 催生了大数据金融的星火燎原大势, 作为国内金融产业异常活跃的前沿城市深圳非常重视大数据与金融产业的结合在国家外国专家局中国国际人才交流基金会及深圳政府的支持与指导下, 深圳龙华新区经济服务局深圳软件园中心英国南安普顿大学协同深圳市华傲数据技术有限公司, 计划在 2016 年 12 月 7 日 -8 日举办第一届中欧大数据金融论坛此次论坛的参与嘉宾规格非常高, 包括了牛津大学副校长 Anne Elizabeth Trefethen 教授德国柏林洪堡大学 Wolfgang Hardle 教授德国柏林洪堡大学陈怡璇副教授英国剑桥大学 David Stillwel 博士英国南安普顿大学马铁军博士深圳市前海金融控股有限公司阮华伟博士北京大学汇丰商学院代表卢俊博士深圳市华傲数据技术有限公司于文渊博士胡吉友先生等同时, 此次论坛将以洞见未来为主题, 政府学术企业等多方代表共同探寻大数据技术与金融科技之间的结合之道, 并围绕金融风控领域的大数据技术应用开展专业学术与市场实践的专业性探讨得益于在智慧城市金融互联网等领域的大数据出色成绩, 深圳市华傲数据技术有限公司 ( 以下简称 : 华傲数据 ) 作为承办单位承办了如此高规格的论坛 2011 年, 英国爱丁堡大学贾西贝博士就带领着他的大数据团队从英国回到中国, 扎根深圳, 创建了华傲数据贾西贝博士以其超前的眼光, 早早在政府金融互联网这三大领域进行大数据产业布局, 为这三大领域的客户带来了世界顶级的数据管理与清洗分析技术, 并充分发挥了以数据清洗为核心的技术优势, 为客户提供大数据采集大数据智慧城市大数据风控等产品及服务在短短五年发展时间内, 华傲数据就曾被哈佛商业评论评为全球引领大数据发展的领军企业, 当时与其一同入围的中国企业仅有腾讯与百度 ; 而且其国内发明专利申请达到 91 项, 并已完成 40 件 PCT 专利申请如今, 华傲数据领跑中国大数据领域, 样板客户囊括了一二三四线的大数据风口城市, 大数据产品及服务已经走出深圳, 在天津贵阳沈阳三亚盐城等大数据风口城市多点开花未来几年, 大数据与金融科技的结合脚步一点不会停止, 类似第一届中欧大数据金融论坛这种在政府企业机构等多方推进的思维探索产业讨论活动会举办得越来越多大数据技术在产业结合的过程中将继续充当关键角色, 并且发挥越来越重要的作用来源 : info html 61

大数据金融信息剪辑任正非回家领华为助推贵州大数据发展 11 月 12 日, 贵州省人民政府与华为技术有限公司战略合作协议签字仪式在贵阳举行根据协议, 双方将本着优势互补自愿平等开放公平互利共赢的原则, 充分发挥华为公司在云计算大数据等领域的先进技术优势和丰富运营经验, 结合贵州实施大数据战略行动, 推动双方在云计算大数据应用发展物联网和智能制造建设

68 大数据金融信息剪辑任正非回家领华为助推贵州大数据发展 11 月 12 日, 贵州省人民政府与华为技术有限公司战略合作协议签字仪式在贵阳举行根据协议, 双方将本着优势互补自愿平等开放公平互利共赢的原则, 充分发挥华为公司在云计算大数据等领域的先进技术优势和丰富运营经验, 结合贵州实施大数据战略行动, 推动双方在云计算大数据应用发展物联网和智能制造建设智慧城市和平安城市建设等方面深化合作共同发展贵州省委书记省人大常委会主任陈敏尔, 省委副书记省长孙志刚, 华为技术有限公司总裁任正非, 华为技术有限公司副董事长轮值 CEO 徐直军, 省领导秦如培陈刚慕德贵出席签字仪式在签字仪式前, 陈敏尔孙志刚与任正非举行了会谈双方一致认为, 贵州资源丰富, 生态良好, 空气清爽, 气候凉爽, 发展大数据具有得天独厚的优势双方表示, 将以本次签约为契机, 在已有良好合作基础上, 进一步完善沟通交流工作推进机制, 确保协议确定的合作项目早日落地生根开花结果任正非, 中国家喻户晓的名字, 世界知名电子科技巨头华为技术的掌舵人主要创始人总裁 1944 年 10 月 25 日, 任正非出生于贵州省镇宁县此次华为与贵州省政府达成合作, 被誉为任正非回乡兴业之旅, 这使得华为科技与贵州大数据战略高度融合, 助推贵州大数据再上台阶这也是贵州省继成功引进阿里巴巴百度腾讯等 IT 巨头以来, 再次引来了世界 500 强企业华为技术, 将贵州大数据发展战略再次推向高潮 1963 年, 任正非在重庆建筑工程学院 ( 现已并入重庆大学 ) 毕业后, 就业于建筑工程单位 1974 年为建设从法国引进的辽阳化纤总厂, 应征入伍加入承担这项工程建设任务的基建工程兵, 历任技术员工程师副所长 ( 技术副团级 ), 无军衔任正非也因工程建设中的贡献出席了 62

69 大数据会议活动集锦 1978 年的全国科学大会和 1982 年的中共第十二次全国代表大会 1987 年, 任正非集资元人民币创立华为公司,1988 年任华为公司总裁 2003 年, 任正非荣膺网民评选的 "2003 年中国 IT 十大上升人物 ";2005 年入选美国时代杂志全球一百位最具影响力人物 ;2011 年, 任正非以 11 亿美元首次进入福布斯富豪榜, 排名全球第 1153 名, 中国第 92 名 2015 福布斯华人富豪榜排名 350, 全球富豪榜排名胡润 IT 富豪榜, 任正非以 105 亿元排名第 35 贵州是任正非的故土, 环境优美, 生态俱佳而使华为与贵州携手合作, 共同推进大数据发展的原因, 自然有任正非的家乡情结但更重要的当属贵州省近年来实施的大数据战略贵州实施大数据战略行动, 是牢记总书记嘱托, 守住发展和生态两条底线的具体举措, 也是贵州有机结合结构调整与转型升级, 因地制宜发展好产业, 弯道取直的新路可以说 : 实施大数据战略行动, 是贵州实现弯道取直后发赶超的战略选择贵州是我国南方最适合建设大型数据中心的省份, 发展大数据具有生态环境好能源价格低地质稳定等得天独厚的先天优势 2015 年, 国务院关于印发促进大数据发展行动纲要的通知明确提出 : 支持贵州等综合试验区建设, 贵州大数据发展正式上升为国家战略 2015 年 2 月 14 日, 李克强总理考察贵阳大数据应用展示中心时, 希望贵州在大数据领域探索出一片新天地, 为服务国家战略作贡献 ;2015 年 5 月 26 日, 马凯副总理在出席贵阳数博会并考察贵州信息产业发展情况时, 充分肯定贵州发展大数据是创造性落实中央精神的重大举措, 给了贵州加速发展的信心和底气 2016 年 5 月 24 日, 李克强总理出席在贵阳出席中国大数据产业峰会暨中国电子商务创新发展峰会对话会时指出 : 中国经济既要培育新经济新动能, 也要改造提升传统动能而传统产业的改造升级, 很大程度还需要依靠新经济新动能, 包括大数据云计算等新技术现在由于大数据云计算互联网 + 等新技术的产生, 虚拟世界和真实世界正在日益融合我们进入了一个新的时代贵州发展大数据, 正是得益于党中央国务院的关心支持近年来, 贵州将发展大数据与大生态大扶贫大健康大旅游作为五位一体的重大工程来抓, 在系统平台建设大数据立法大数据交易大数据创业创新等方面率先起步, 积累了一些先行优势, 得到国家层面和业界的广泛认可我想这也是华为入驻贵州最主要的选择因素吧总之, 任正非回家了, 我们家里人十分的欢迎期待华为在贵州更加辉煌 ( 杨松 ) 来源 : p/5a7woor.html 63

70 大数据金融信息剪辑美国的数据交易产业是怎样发展的? 近年来, 各国加紧推进大数据的资产化有价化, 探索对大数据进行计价赋值交易参照美国数据经纪产业发展模式, 以数据开放共享推动大数据交易资源建设, 以交易和产品双足运行推动大数据交易时新发展, 可能是我国未来大数据交易产业健康良性发展的可选之路一美国数据交易的典型模式美国数据资产交易主要有三种模式第一种是数据平台 C2B 分销模式用户将自己的个人数据贡献给数据平台, 数据平台向用户给付一定数额的商品货币服务等价物或者优惠打折积分等对价利益第二种是数据平台 B2B 集中销售模式数据平台以中间代理人身份为数据提供方和数据购买方提供数据交易撮合服务, 数据提供方数据购买方都是经交易平台审核认证自愿从事数据买卖的实体公司 ; 数据提供方往往选择一种交易平台支持的交易方式对数据自行定价出售, 并按特定交易方式设定数据售卖期限及使用和转让条件美国微软 Azure Datamarket Factual Infochimps 等数据中间平台代理数据提供方数据购买方进行的数据买卖活动, 大多属于此类模式第三种是数据平台 B2B2C 分销集销混合模式数据平台以数据经纪商 (data broker) 身份, 收集用户个人数据并将其转让共享与他人, 主要以安客诚 (Acxiom) Corelogic Datalogix ebureau ID Analytics Intelius PeekYou Rapleaf Recorded Future 等数据经纪商为代表美国数据经纪商产业发展现状在美国数据交易的三种主要模式中, 第三种数据平台 B2B2C 分销集销混合模式发展迅速, 目前已经形成相当市场规模, 塑造了在美国数据产业中占据重要地位的数据经纪产业二美国九大数据经纪商 Acxiom 为市场营销和欺诈侦探提供用户数据和分析服务, 数据库中包括了全球范围内 7 亿用户的个人数据, 其中包括涉及几乎每个美国用户的 3000 条数据段 Corelogic 向商业和政府机构提供包括财产信息消费信息和金融信息在内的用户数据及其分析服务, 其数据库中包含 7.95 亿条资产交易历史数据 9300 万条抵押贷款申请信息以及涵盖 99% 以上美国住宅物业的 1.47 亿条特定资产 64

71 大数据金融资讯信息 Datalogix 向商业机构提供涵盖几乎每个美国家庭涉及金额超过 1 万亿美元以上的用户交易信息 2012 年 9 月,Facebook 宣布与 Datalogix 建立合作伙伴关系, 以便评测其 10 亿用户在社交网站上浏览某一产品广告的频次与其在某一实体零售店完成购买交易之间的关联关系 e B u r e a u 向营销商金融公司在线零售商以及其他商业主体提供预测评级和数据分析服务, 最早只是分析某人是否可能成为潜在的优质客户或者某笔交易是否存在商业欺诈后来发展为向其客户提供数以亿计的用户消费记录, 而且每月还以 300 万条新增消费记录的速度在急速增长 ID Analytics 主要提供以身份认证交易欺诈检测和认证为目的的数据分析服务, 其认证网络中包括了数以百亿计的数据集成点 (aggregated data points) 11 亿条独特的身份数据元素, 涵盖了 14 亿条用户交易信息 I n t e l i u s 向商业机构和客户提供背景调查和公开记录信息, 其数据库中包含了 200 亿条以上的公开记录信息 (public record information) PeekYou 拥有能够分析 60 家社交媒体网站新闻来源网站主页博客平台内容的专利技术, 向客户提供详细的用户配置文件 (consumer profiles) Rapleaf 是一家数据集成商, 拥有一个以上能够连接超过 80% 以上美国用户电子邮件地址的数据点以及 30 个其他类型的数据点, 并且不断在其电子邮件地址列表中增补电子邮件用户年龄性别婚姻状况等信息 Recorded Future 通过互联网捕捉用户和企业的各类历史数据, 利用该类历史数据分析用户和企业的未来行为轨迹, 截至 2014 年 5 月, 已经实现对 502,591 家不同开放互联网站点各类信息的接入和抓取功能三美国数据经纪商从哪采集数据美国数据经纪商不是直接从用户处收集数据, 而是主要通过政府来源商业来源和其他公开可用来源等三个途径收集数据由于一个数据经纪商只能提供一个用户行为轨迹所需的很少数据元素, 因此数据经纪商必须将其所掌握的数据汇集起来, 描绘出用户生活更加复杂的多维图景联邦政府数据源上述 9 家数据经纪商中的 6 家直接从联邦政府渠道获得其所需要的数据地方政府数据源有些数据经纪商并非直接从地方政府获取其所需要的数据, 而是通过其他数据经纪商获取其所需要的地方政府数据后者往往通过雇佣人员对地方政府官员展开公关, 以便获取对地方政府数据进行编纂和整理的机会 ; 或者与地方政府具有业务往来关系, 地方政府同意其在业务往来中自动收集获取地方政府数据公共数据源 ( 包括社交博客互联网等 ) 一半以上数据经纪商表示他们收集通信录电话本新闻报道等其他可用公共数据商业数据源除 1 家数据经纪商外, 其余 9 家数据经纪商都通过广泛的商业渠道来购买其所需要的用户个人数据例如, 数据经纪商从零售商产品目录公司等渠道购买详细的商品交易信息, 部分数据经纪商还从期刊发行商那里购买详细的用户订阅类型 65

72 大数据金融信息剪辑互为数据源数据经纪商的绝大多数商业数据源实际上来自上述 9 家数据经纪商之外的其他数据经纪商部分数据经纪商共享同一数据源, 每一家数据经纪商都能从不同数据源收集到相同或相近的数据四美国数据经纪商的产品类型数据经纪商通常提供市场营销产品风险控制产品和人员搜索产品等三类数据应用产品 2012 年 9 家主要数据经纪商的三类主要数据产品全年总收入大约为 4.26 亿美元市场营销产品有 5 家数据经纪商面向其客户销售自己的市场营销产品,2012 年全年营业总收入大约为 1.96 亿美元美国联邦贸易委员会 (FTC) 将数据经纪商的数据营销产品分为下列几类 : 第一类是直销产品包括邮件电话营销电子邮件营销等三类 ; 第二类是在线营销产品包括通过互联网向用户进行营销 ( 互联网营销 ) 通过移动设备向用户营销 ( 移动营销 ) 以及通过有线电视和卫星电视向用户营销 ( 有线电视卫星电视营销 ) 等三类 ; 第三类是营销分析所有这三类产品都能使数据经纪商的客户面向其客户量身定制各类市场营销信息风险控制产品接受调查的 10 家数据经纪商中有 4 家面向市场销售其自己开发的风险控制产品,2012 年的年收入总额为 1.77 亿美元美国联邦贸易委员会 (FTC) 将风险控制产品分为身份认证产品和欺诈侦测产品两类人员搜寻产品上述 9 家数据经纪商中有 3 家面向市场销售其自己开发的人员搜寻产品,2012 年的年收入总额为 0.52 亿美元人员搜寻产品主要提供用户个人数据, 这类产品能使用户基于最少的数据元素便能发现最多的用户相关信息数据经纪商通常会提醒用户不要将上述个人数据用于公平信用报告法案(FCRA) 规定以外的其他目的, 包括就业资格认定信用评级保险费评定房屋买卖以及其他类似或相同目的五美国数据经纪的产业特征美国数据经纪商有如下产业特征 : 1 数据经纪商通过多种信源广泛收集用户个人信息, 绝大多数情况下用户对此并不知情 2 数据经纪产业由多层互为提供数据的数据经纪商所组成数据经纪商不仅为终端用户提供数据, 同时也互相互为提供数据 3 数据经纪商收集存储着海量数据元素, 几乎覆盖了每个美国用户 4 数据经纪商联结并分析用户数据, 以便做出包括潜在敏感推理在内的用户推理数据经纪商从用户数据中推理用户兴趣, 根据用户兴趣结合其他信息对用户进行分类 5 数据经纪商将线上线下数据与市场用户的在线数据相结合数据经纪商依托网站注册功能和浏览器 cookies 抓取跟踪功能来发现用户在线行为轨迹, 推理用户离线行为特征并向其推送在线互联网广告六美国数据经纪产业的利弊分析用户能从数据经纪商收集使用数据的众多目的中真正获益数据经纪产品能够预防欺诈增加产品销量向用户推送量身定制的广告许多数据的收集和使用行为对用户造成一定程度的风险如果用户因数据经纪商的错误而不能完成一项风险控制产品的交易, 用户往往因不知情而使自己受损数据经纪商一定程度上会向用户提供其个人数据的选择权, 但是这些选择权绝大多数情况下是不完整不可兑 66

73 大数据金融资讯现的用户通常情况下不知在哪里去行使其选择权或者不知如何行使选择权储存用户数据永远都具有不可预知的安全风险虽然存储数据对于实现未来商业目的是有益的, 但是数据存储的安全风险可能要远远大于其商业利益七对我国大数据交易的借鉴意义参照美国数据经纪产业发展模式, 以数据开放共享推动大数据交易资源建设, 以交易和产品双足运行推动大数据交易时新发展, 可能是我国未来大数据交易产业健康良性发展的可选之路一是大力推进公共数据开放共享坚持政府数据以开放为原则不开放为例外, 坚持政府数据开放先行公共数据开放跟进, 推进落实公共数据开放共享, 为数据交易产业提供不竭资源源泉, 活跃繁荣数据交易产业, 做大作强数据交易产业量体二是夯实大数据交易基本功能鼓励数据交易机构积极探索实践, 推动大数据供需有效对接, 搭建大数据讨价议价撮合机制, 探索大数据交易交割模式, 增强大数据流通变现能力, 引导大数据资源以多种价值形态参与社会生产生活活动三是构建适用于大数据交易的云端集散中心鼓励数据交易机构积极申办云存储中心对象存储空间可寻址存储空间云数据多点共享协同中心集聚式自助管理系统中央存储平台等云交易系统, 通过云平台实现数据集中, 形成自主可控且能增值利用的大数据集散中心逐步面向社会公众开放数据接口, 引导第三方数据开发者和社会力量对数据进行社会化开发汇聚和整合, 推动大数据按照等价支付有序流动的原则在云架构中进行自由流动, 带动整个数据价值链的规模化发展四是与数据源保持同步更新数据数据交易机构应当与数据源签署明确的数据更新协议, 按照数据源数据升级时间表的频度, 与数据源按日按周按月按半年或按年同步升级数据由于用户本人往往是最原始最可靠的数据源, 为了激发基于用户身份信息 (PII) 的用户端应用和服务的创新浪潮, 用户应当被赋予明确的权利以便其能够以可行机器可读的方式接入用户个人数据, 使得用户能够表达其政策诉求使用偏好和缔约要求, 推动用户和数据源签约公司共同参与大数据的治理和精用五是推动大数据交易和大数据应用连体融通发展数据交易机构应当瞄准重要行业的重大应用需求, 利用前沿性的大数据分析挖掘技术, 实施大数据资源价值的深度分析和关联开发, 探索富具市场特色满足市场特需的数据创新应用模式, 形成适用于重点行业大数据挖掘技术分析流程领域模型等关键应用和产品六是打造全国性的大数据交易产业链数据交易机构应当以推动数据资源开放流通应用为宗旨, 广泛聚集大数据提供方数据开发者大数据交互平台大数据使用方及数据投资者推广应用个性化医疗数字金融智能交通精准营销等基于大数据的新型商业模式, 在基础设施数据资源数据应用等关键环节形成产业合力, 打造全国性的大数据流通开发应用产业链来源 : 搜狐财经 business.sohu.com/ / n shtml 67

74 大数据金融信息剪辑从美国数据经纪产业窥探我国大数据交易的良性发展之路马志刚博士 ( 中国信息通信研究院政策与经济研究所副总工 ) 当前, 随着大数据技术和应用的不断发展, 大数据对社会生产生活的价值不断凸现, 社会各界各领域产生了大数据交换交易的客观需求和现实实践近年来, 各国加紧推进大数据的有价化, 探索对大数据进行计价赋值交易的可能性参照美国数据经纪产业发展模式, 以数据开放共享推动大数据交易资源建设, 以交易和产品双足运行推动大数据交易时新发展, 可能是我国未来大数据交易产业健康良性发展的可选之路一美国数据交易的典型模式美国数据资产交易主要有三种模式第一种是数据平台 C2B 分销模式用户将自己的个人数据贡献给数据平台, 数据平台向用户给付一定数额的商品货币服务等价物或者优惠打折积分等对价利益例如 2011 年, 美国 Car and Driver 网站通过其网站面向用户提供一款服务, 用户只要提供汽车注册车主的汽车型号车辆年限等信息, 即可获得网站提供的各种现金优惠 ; 2013 年, 美国发布一款消费者数据库的新产品, 用户通过这款产品可以向其他公司分享自己的部分隐私数据来换取相应的折扣或者是其他好处, 比如让航空公司看到你的收入情况可以获得一定数量的会员积分或者下一次航班升舱的补偿 ; 美国 personal.com 公司是一个初创公司, 旨在打造一个将应用软件和结构化用户数据连接起来的交易平台, 它允许用户拥有控制获取其个人数据并从其个人数据中获益, 即向用户提供一个在线数据宫 (data vault), 被划分为称作精品 (gems) 的许多小隔间, 本人可以将其个人数据存储在其中并与他人实现共享, 用户可以将其精品 (gems) 与亲朋好友进行共享, 并将精品 (gems) 的接入权卖给商业机构, 从而实现个人数据的货币化, personal.com 公司从交易额中抽取 10% 作为自己的收益第二种是数据平台 B2B 集中销售模式数据平台以中间代理人身份为数据提供方和数据购买方提供数据交易撮合服务, 数据提供方数据购买方都是经交易平台审核认证自愿从事数据买卖的实体公司 ; 数据提供方往往选择一种交易平台支持的交易方式对数据自行定价出售, 并按特定交易方式设 68

75 大数据金融资讯定数据售卖期限及使用和转让条件美国微软 Azure Datamarket Factual Infochimps 等数据中间平台代理数据提供方数据购买方进行的数据买卖活动, 大多属于此类模式我国数据堂中关村大数据交易产业联盟贵阳大数据交易所中国互联网优质受众营销联盟 (UMA) 大数据平台 (DMP) 等数据中间交易体, 大多基本也属于此类模式, 例如 DMP 只面向 UMA 联盟成员开放, 倡导空平台模式下的数据握手交易, 各个平台间免费互换数据, DMP 只提供标签和数据处理模型, 由企业自主决定哪些数据可以标记和共享第三种是数据平台 B2B2C 分销集销混合模式数据平台以数据经纪商 (data broker) 身份, 收集用户个人数据并将其转让共享与他人, 主要以安客诚 (Acxiom) Corelogic Datalogix ebureau ID Analytics Intelius PeekYou Rapleaf Recorded Future 等数据经纪商为代表二美国数据经纪商产业发展现状在美国数据交易的三种主要模式中, 第三种数据平台 B2B2C 分销集销混合模式发展迅速, 目前已经形成相当市场规模, 塑造了在美国数据产业中占据重要地位的数据经纪产业 ( 一 ) 美国九大数据经纪商 Acxiom 为市场营销和欺诈侦探提供用户数据和分析服务, 数据库中包括了全球范围内 7 亿用户的个人数据, 其中包括涉及几乎每个美国用户的 3000 条数据段 Corelogic 向商业和政府机构提供包括财产信息消费信息和金融信息在内的用户数据及其分析服务, 其数据库中包含 7.95 亿条资产交易历史数据 9300 万条抵押贷款申请信息以及涵盖 99% 以上美国住宅物业的 1.47 亿条特定资产信息 Datalogix 向商业机构提供涵盖几乎每个美国家庭涉及金额超过 1 万亿美元以上的用户交易信息 2012 年 9 月,Facebook 宣布与 Datalogix 建立合作伙伴关系, 以便评测其 10 亿用户在社交网站上浏览某一产品广告的频次与其在某一实体零售店完成购买交易之间的关联关系 ebureau 向营销商金融公司在线零售商以及其他商业主体提供预测评级和数据分析服务, 最早只是分析某人是否可能成为潜在的优质客户或者某笔交易是否存在商业欺诈, 后来发展为向其客户提供数以亿计的用户消费记录, 而且每月还以 300 万条新增消费记录的速度在急速增长 ID Analytics 主要提供以身份认证交易欺诈检测和认证为目的的数据分析服务, 其认证网络中包括了数以百亿计的数据集成点 (aggregated data points) 11 亿条独特的身份数据元素, 涵盖了 14 亿条用户交易信息 Intelius 向商业机构和客户提供背景调查和公开记录信息, 其数据库中包含了 200 亿条以上的公开记录信息 (public record information) PeekYou 拥有能够分析 60 家社交媒体网站新闻来源网站主页博客平台内容的专利技术, 向客户提供详细的用户配置文件 (consumer profiles) Rapleaf 是一家数 69

76 大数据金融信息剪辑据集成商, 拥有一个以上能够连接超过 80% 以上美国用户电子邮件地址的数据点以及 30 个其他类型的数据点, 并且不断在其电子邮件地址列表中增补电子邮件用户年龄性别婚姻状况等信息 Recorded Future 通过互联网捕捉用户和企业的各类历史数据, 利用该类历史数据分析用户和企业的未来行为轨迹, 截至 2014 年 5 月, 已经实现对 502,591 家不同开放互联网站点各类信息的接入和抓取功能 ( 二 ) 美国数据经纪商的数据采集美国数据经纪商不是直接从用户处收集数据, 而是主要通过政府来源商业来源和其他公开可用来源等三个途径收集数据由于一个数据经纪商只能提供一个用户行为轨迹所需的很少数据元素, 因此数据经纪商必须将其所掌握的数据汇集起来, 描绘出用户生活更加复杂的多维图景联邦政府数据源上述 9 家数据经纪商中的 6 家直接从联邦政府渠道获得其所需要的数据地方政府数据源有些数据经纪商并非直接从地方政府获取其所需要的数据, 而是通过其他数据经纪商获取其所需要的地方政府数据, 后者往往通过雇佣人员对地方政府官员展开公关, 以便获取对地方政府数据进行编纂和整理的机会 ; 或者与地方政府具有业务往来关系, 地方政府同意其在业务往来中自动收集获取地方政府数据上述 9 家数据经纪商已经认可 25 家其他数据经纪商为能够从地方政府合法获取地方政府数据的数据经纪商但是几乎所有的地方政府立法均规定, 使用这些地方政府数据需要取得数据本人同意和授权公共数据源 ( 包括社交博客互联网等 ) 一半以上数据经纪商表示他们收集通信录电话本新闻报道等其他可用公共数据有些数据经纪商从 Bebo LinkedIn 等社交媒体网站直接抓取信息, 这些社交媒体网站的用户尚未设定隐私设置以限制其个人信息访问, 所以社交媒体网站便授权数据经纪商接入并获取这些用户个人信息商业数据源除 1 家数据经纪商外, 其余 9 家数据经纪商都通过广泛的商业渠道来购买其所需要的用户个人数据例如, 数据经纪商从零售商产品目录公司等渠道购买详细的商品交易信息, 部分数据经纪商还从期刊发行商那里购买详细的用户订阅类型 3 家数据经纪商从用户注册网站处获取用户名单列表, 用户注册并登录这些网站的目的往往是为了获取其所需要的零售新闻或旅游等特定服务有些数据经纪商从金融服务公司处获取其所需要的集合交易数据 (aggregated transaction data), 其中既有敏感数据也有非敏感数据有些数据经纪商声称从其商业合作伙伴或金融服务公司客户处直接获取数据, 以便为该特定客户定制增强某种特定产品或服务, 或者在其他产品或服务中以集合去身份化方式使用这些数据其他诸如社交媒体信息来源于与非客户企业之间签订的具体合同安排至少有 1 个以上数据经纪商从网络广告中获取用户的浏览器行为信息互为数据源数据经纪商的绝大多数商业数据源实际上来自上述 9 家数据经纪商之外的其他数据经纪 70

77 大数据金融资讯商, 例如, 收集电话公司新开固定帐户用户信息的数据经纪商, 收集汽车经销商销售保修售后服务修理等信息的数据经纪商, 针对 2600 多家商家近 19 亿个人用户的消费历史进行数据汇聚和建模的数据经纪商, 收集体育比赛市场调查保单登记等活动中用户以有线无线等方式提交申报信息的数据经纪商等, 一家专门收集此类信息的数据经纪商拥有近 24 条用户申报信息, 并将其分为 1000 多种兴趣类型部分数据经纪商共享同一数据源, 每一家数据经纪商都能从不同数据源收集到相同或相近的数据, 例如, 有一家数据经纪商从 20 多个数据源获取其用户联系数据 9 家数据经纪商中有 7 家相互买卖其所需要的数据, 因此, 用户几乎不可能知道谁是特定数据元素的最早创建人, 必须经过一系列中间数据经纪商才能追溯到数据流动轨迹并最终追寻到原始数据源 ( 三 ) 美国数据经纪商的产品类型数据经纪商通常提供市场营销产品风险控制产品和人员搜索产品等三类数据应用产品 2012 年 9 家主要数据经纪商的三类主要数据产品全年总收入大约为 4.26 亿美元 1. 市场营销产品有 5 家数据经纪商面向其客户销售自己的市场营销产品,2012 年全年营业总收入大约为 1.96 亿美元美国联邦贸易委员会 (FTC) 将数据经纪商的数据营销产品分为下列几类 : 第一类是直销产品, 包括邮件电话营销电子邮件营销等三类 ; 第二类是在线营销产品, 包括通过互联网向用户进行营销 ( 互联网营销 ) 通过移动设备向用户营销 ( 移动营销 ) 以及通过有线电视和卫星电视向用户营销 ( 有线电视卫星电视营销 ) 等三类 ; 第三类是营销分析所有这三类产品都能使数据经纪商的客户面向其客户量身定制各类市场营销信息 1) 直销产品以所收集到的数据为基础, 美国联邦贸易委员会 (FTC) 将直销产品分为数据追加 (data append) 产品和营销清单 (marketing lists) 产品两类数据追加 ( d a t a append) 产品数据追加 ( d a t a append) 产品能使企业更多地了解用户和市场客户会要求数据经纪商雇员提供姓名地址等用户信息, 雇员接着会选出用户电话号码购买习惯等额外信息, 这些额外信息是数据经纪商追加在客户数据集中以供其用于直接电邮电话营销以及电子邮件营销活动的附加信息有些数据产品能够帮助客户填补其用户联系信息中的空白, 例如, 客户提出用户的姓名和地址, 数据经纪商填补对应的用户座机电话号码和电子邮件地址, 换言之, 客户提出用户的座机电话号码移动电话号码和电子邮件地址, 数据经纪商填补对应的用户姓名和地址在有些数据追加产品中, 客户提供用户的姓名和店铺的邮政编码, 数据经纪商填补对应的用户地址有些数据追加产品能够帮助客户更好地理解其用户, 当客户提供用户的身份识别信息时, 数据经纪商马上能对客户数据集进行数据追加, 许多数据经纪商能向客户提供包括年龄信仰技术偏好性别种族等许多信息在内的原生和派生数据元素营销清单产品 71

78 大数据金融信息剪辑市场营销清单能够识别具有特定相同特征的用户 ( 例如与 2 个以上孩子共同生活的所有人群,2 个以上拥有专车品牌的妇女, 对糖尿病感兴趣的所有人群, 成员中有吸烟嗜好的家庭等 ) 客户从用户受众中识别出身份属性和身份特征, 数据经纪商提供拥有这些身份属性和身份特征的用户清单, 例如, 客户要求提供一份被银行拒绝提供服务或者具有财务挑战用户的清单, 以便向其推送次级贷款广告或者提供其他服务营销清单产品可限于用户姓名或地址, 以便向其发起直接邮件活动 ; 可限于用户姓名和电话号码, 以便向其发起电话营销活动 ; 可限于用户电子邮件地址, 以便向其发起电子邮件营销活动客户希望得到强健的数据以便适时调整其市场营销活动, 数据经纪商需要根据数据追加产品描述, 在数据营销清单产品中增加一些其他数据元素或者数据字段, 例如客户要求提供一份特定地区对美食烹饪感兴趣的用户清单, 以便向其发起直接邮寄活动, 除用户姓名和地址之外, 数据经纪商需要在数据营销清单中叠加用户年龄或年龄段家庭收入等相关信息 2) 线上营销产品有 3 家数据经纪商直接或间接通过互联网移动设备有线电视或卫星电视向用户营销特定商品美国联邦贸易委员会 (FTC) 将数据经纪商的线上营销产品分为注册用户瞄准 (registrationtargeting) 合作伙伴瞄准 (collaborative targeting) 和线上线下追踪 (onboarding) 产品三种类型注册用户瞄准 (registrationtargeting) 产品数据经纪商能够更有效更贴近用户体验地帮助注册网站向用户推广产品例如 XYZ 旅游网站希望向用户推送特定旅游产品, 它可以向数据经纪商提出一份它自己的注册用户列表, 数据经纪商向 XYZ 旅游网站逐一提供所有注册用户的旅行兴趣, 在这些信息的帮助下, XYZ 旅游网站根据 Jane Doe 对热带岛屿的特殊爱好为其量身定制了一份夏威夷的旅游套餐, 当 JaneDoe 登录网站时便将这份套餐推送给她当 XYZ 旅游网站不想为个人注册用户提供旅游套餐产品, 而是希望在其网站上销售第三方广告空间时, 它可以先向数据经纪商提供一份其注册用户列表, 数据经纪商告诉 XYZ 旅游网站其大多数用户喜欢摩托车和家用清洁用品, 依据这些信息, XYZ 旅游网站便可面向摩托车经销商家用清洁用品生产制造商兜售其网站广告空间合作伙伴瞄准 (collaborativetargeting) 产品在注册用户瞄准 (registrationtargeting) 服务中, 数据经纪商既向注册网站提供数据服务也向注册网站的广告商提供数据服务, 注册网站向数据经纪商提供一份用户列表, 注册网站的广告商也向数据经纪商提供一份其自己客户的列表清单, 数据经纪商发现双方均未实际接入对方客户潜在客户以及注册用户的个人信息, 只有数据经纪商同时拥有双方所有客户或用户的所有个人信息, 于是它可以替广告商提供数据分析服务, 以便广告商决定是否继续在该注册网站上投放广 72

79 大数据金融资讯告 3) 线上线下追踪 (onboarding) 产品在线上线下追踪 (onboarding) 产品中, 数据经纪商在 cookies 文件中植入登录用户的离线数据, 以便广告商在互联网上能够垂直地搜寻到所有目标用户, 广告商可以根据客户的离线行为数据来决定是否通过互联网向其在线推送广告信息线上线下追踪 (onboarding) 的需求方可以向数据经纪商提供其客户的相关数据, 以便数据经纪商能够在互联网上发现这些客户并向其推送广告商定义好的广告内容 ; 也可以委托数据经纪商识别共同拥有特定属性或特征的消费者受众, 在互联网上发现并定位这类消费者受众人群, 并向其推送广告商定义好的广告内容线上线下追踪 (onboarding) 产品往往采取字段定义线索匹配和在线目标锁定三个步骤字段定义 (segmentation) 线上线下追踪 (onboarding) 开始于客户向数据经纪商发出搜寻具有特定特征属性用户的要求, 数据经纪商基于预期客户的要求可能创建过股票数据字段海关数据字段等等, 这一过程被称为字段定义例如, 数据经纪商可以基于其定义好的数据字段, 通过锁定服装零售商已有用户为服装零售商发掘新的用户等多种方式, 帮助服装零售商向其用户在线推送奢侈时装品牌的广告线索匹配 (matching) 线索匹配是指数据经纪商通过数据字段的在线处理来搜寻发现其已识别的用户的过程为了发现在线用户, 数据经纪商往往与注册网站订立合同购买注册用户列表, 然后将这些注册用户列表与通过数据字段处理程序识别发现的用户进行比对, 以便在两者中发现能够匹配的重合线索, 一旦发现匹配线索, 数据经纪商便会将与该用户有关的所有数据元素和数据字段追加在该用户的数据库列表之中在线目标锁定 ( t a r g e t i n g consumersonline) 锁定已经匹配好的在线用户是线上线下追踪 (onboarding) 活动的最后一道程序当注册网站通知数据经纪商其先前识别的用户现已在线并且正在浏览本站, 数据经纪商立刻在已识别用户的浏览器中植入一个 cookies, cookies 包含了数据经纪商追加在用户身份属性上的所有相关信息, 尽管接受调查的数据经纪商异口否认其 cookies 中含有姓名电子邮件地址邮政地址等传统意义上的用户身份信息当数据经纪商将其 cookies 植入用户浏览器以后, 只要该 cookies 留存在用户浏览器中不被删除, 数据经纪商就可以通过互联网向该用户推送广告数据经纪商类似于通过在各种不同网站购买广告空间组成了一个自管理广告网络系统, 这些广告网络系统在每个网站都拥有安全的广告空间, 从而可以任意向这些广告空间投送其所定义的广告内容例如数据经纪商在 Jane Doe 的浏览器中植入含有女性邮政编码为老练的顾客等字段的 cookies, 代理时装零售商或者其他线上线下客户在其合作伙伴网络中向 Jane Doe 推送广告线上线下追踪 73

80 大数据金融信息剪辑 (onboarding) 产品客户还可以使用该产品从事用户重定向 (retargeting) 跨渠道销售 (Cross- Channel Campaigns) 等活动所谓用户重定向 (retargeting), 是指线上线下追踪 (onboarding) 产品客户利用其用户和厂家名单通过互联网向其发出特定广告要约, 例如, 借贷银行希望重定向 (retargeting) 其财务困境客户并向其发出新的次级信用卡申办要约, 宾馆希望重定向 (retargeting) 其高端优质会员客户并向其发出度假旅游的广告邀请等所谓跨渠道销售 (Cross-Channel Campaigns), 是指零售商希望锁定多个渠道的相同用户, 例如, 宠物商店希望通过直接邮寄电子邮件互联网广告等方式向宠物主人兜售犬用香波, 通过线上线下追踪 (onboarding) 产品, 它发现了其曾经发送过直邮或电邮广告的宠物主人, 于是锁定他们并同时向其推送互联网广告需要指出, 尽管数据经纪商利用用户离线活动信息向其推送在线广告, 但是他们并未计划使用用户浏览器在线活动信息来识别追踪其离线活动, 但是有报告指出部分数据经纪商确实利用用户浏览器在线活动信息线下向其推广直销产品 4) 市场分析产品有 5 家数据经纪商从事以市场营销为目的的市场分析活动, 以便预测用户行为市场分析产品能够帮助数据经纪商客户在广告推广产品改进社区竞选等活动中更加精准地瞄准并锁定目标用户, 并且深度洞察和窥探用户态度和偏好例如, 数据经纪商深度分析其客户的用户的相关数据, 建议其客户通过互联网报纸电视等媒体渠道面向目标用户或者面向特定地域推送特定产品或品牌的广告信息作为市场分析的重要组成部分, 数据经纪商还帮助其客户分析计算各种营销策略的预期结果, 以使其客户能够更好地向其用户推送产品广告信息, 例如, 数据经纪商可以向其客户预测完全通过 twitter 进行广告推送是否能够达到预期的广告效果有些数据经纪商向其客户提供广告活动影响结果的评估服务, 这些数据分析产品往往包含一个奠基于成千上万个数据元素之上的算法模型, 包括其客户提供的历史数据数据经纪商从政府部门收集到的数据商业来源数据以及其他公共可用数据, 都是该算法模型的参数数据例如, 电信运营商在线推广其新款移动设备之后, 可能想知道有多少用户浏览过这个广告有多少用户去过实体店以及有多少用户实际购买过这一新款移动设备等详细数据部分数据经纪商将其分析数据转化成市场营销评级产品, 根据对市场营销活动的不同响应或不同潜在响应将其客户的用户分为不同的级别, 客户可以根据市场评级来识别瞄准用户, 或者针对低响应率用户发送直邮广告 ; 客户也可以根据市场评级来识别低收邮率 (high undeliverable mail rate) 的地址或者低购买率的用户这些市场评级产品还可被用以定义用户愿意接收广告要约的类型广告要约的数量以及面向特定用户提供的服务质量水平其他评级产品还能够用以测定用户在互联网上的在线离线状态用户对其他非用户群体的影响等这些评级产品通常是 74

81 大数据金融资讯通过分析计算用户博客活动参与 Facebook 和 twitter 等社交媒体网站的活动情况用户拥有的好友跟随者读者数量用户在互联网上创建的信息内容数量以及用户的新闻知名度, 客户使用这些社会影响评级结果能够准确地向特定用户推送其产品的广告信息, 并且希望其用户能够向自己的好友跟随者宣传推广这些产品 2. 风险控制产品接受调查的 10 家数据经纪商中有 4 家面向市场销售其自己开发的风险控制产品, 2012 年的年收入总额为 1.77 亿美元美国联邦贸易委员会 (FTC) 将风险控制产品分为身份认证产品 (identity verification) 和欺诈侦测 (fraud detection) 产品两类身份认证产品 (identity verification) 身份认证产品能够帮助客户确认其用户的身份基于多种原因和需求, 客户非常愿意使用数据经纪商提供的身份认证产品, 例如, 银行使用这种身份认证产品以便能够满足爱国者法案 (the USA PATRIOT Act) 中了解你的客户身份验证要求或者在用户启动一笔金融交易时为其进行在线欺诈侦测数据经纪商采取各种不同格式面向客户推广其身份认证产品首先, 数据经纪商向其客户提供一份评级表格, 上面标明了交易关联风险水平的数值评分级别, 同时附有该数值评分级别的详细说明针对高风险评分客户, 评级说明会指出该用户提供的社会保障号码 (SSN) 与某个死者有关, 用户正在使用的住所与某个欺诈案件有关或者该住所是一所监狱的住所, 该社会保障号码 (SSN) 在某个较短时限内被连续不断地频繁使用, 或者该社会保障号码 (SSN) 隶属于用户提供住所之外的另外一个住所等其次, 数据经纪商向其客户提供一份调查问卷产品, 作为独立产品或者提供身份真实性验证的附加产品, 上面标明用户容易回答但不会出现在身份盗取者窃取信息中的一些典型问题, 例如隐藏在用户钱包里的信息这些信息通常会包括哪些是你曾经使用过的邮件地址? 或者你妈妈的生日是哪一天?, 当其被与某个评级产品关联使用时, 如果用户的风险评级水平较高, 数据经纪商的客户会要求其用户正确回答 6 个问题中的 5 个 ; 如果用户的风险评级水平较低, 数据经纪商的客户只要求其用户正确回答 6 个问题中的 3 个再者, 数据经纪商提供一份匹配 / 不匹配表格, 用于验证用户提供的信息是否与数据经纪商的数据库信息相匹配, 数据经纪商有时会提供一个接近匹配选项, 例如, 发现一个电话号码中的两个数字似乎已被调换了有些数据经纪商还提供一种名为身份状态验证 (status verification) 的产品, 既能提供用户身份识别又能揭露用户身份现状身份状态验证产品 (status verification) 能够揭示用户是否是一名现役军人向其提供特定抵押品止赎权 (foreclosure) 的担保保护, 或者标明用户是否被列为政府采购合同的禁用名单数据经纪商还提供就业状况的认证产品, 例如 X 用户为 Y 雇主工作欺诈侦测产品 ( fraud detection ) 有些数据经纪商还面向客户销售欺诈侦测产品 75

82 大数据金融信息剪辑 (frauddetection), 帮助客户识别并减少商业欺诈, 例如, 有的数据经纪商提供一种标明用户电子邮件是否存续较长时间或者是否具有关联交易历史的产品, 有的数据经纪商专门追踪用户的住址信息, 帮助公司和企业侦测与尝试欺诈有关的方式和模式, 例如指出交货地址与清单列表用户无关等欺诈侦测产品 (fraud detection) 还能帮助企业或组织确证用户提交信息的可靠性真实性, 例如, 某项公共福利是根据用户收入水平制定的, 在用户填写了其收入状况以后, 数据经纪商从广泛的人口统计数据便能够推断并确证这些信息的可靠性和真实性, 或者在征求用户同意以后, 根据用户国税服务 (Internal Revenue Service) 纳税退税申报表来确证用户收入申报信息是否可靠和真实数据经纪商的欺诈侦测产品 (fraud detection) 还能建立分析模型, 帮助发生过数据泄露的公司或组织来检测被泄露个人数据是否存在滥用的可能, 如果被泄露数据包含了用户的社会保障号码 (SSN), 公司组织可以向数据经纪商提供一份所有社会保障号码 (SSN) 的列表清单, 委托数据经纪商监测列表中某个特定社会保障号码 (SSN) 是否突然与多个不同地址发生了关联, 从而监测并锁定某个潜在的欺诈事件 3. 人员搜寻产品上述 9 家数据经纪商中有 3 家面向市场销售其自己开发的人员搜寻产品 (people search products),2012 年的年收入总额为 0.52 亿美元人员搜寻产品 (people search products) 往往包含了从政府部门或社交媒体网站等其他公共可用数据源所获得的用户相关信息, 这些信息通常独一无二, 供潜在的个人用户使用, 但也可同时被公司等组织使用用户通常使用人员搜寻产品 (people search products) 来追踪公司高管或竞争对手的行为信息搜寻老朋友研究用户潜在的爱好兴趣或其邻居情况在线检索或定位用户的法庭记录等人员搜寻产品 (people search products) 主要提供用户个人数据, 这类产品能使用户基于最少的数据元素便能发现最多的用户相关信息, 包括姓名住所城市所在州固定电话号码移动电话号码电子邮件地址用户姓名社会保障号码 (SSN) 等, 具体而言, 包括了别名婚姻记录年龄和出生日期电子邮件地址新闻故事犯罪记录电话号码离婚记录性别民事记录 ( 包括破产扣押留置法院裁判等 ) 兴趣和偏好住所历史财产所有权和销售历史 ( 包括举债活动 ) 教育信息死亡记录社交媒体信息 ( 包括用户名页面 URL 朋友关系等) 亲戚亲属邻居 ( 包括性侵犯者 ) 就业历史等详细信息有些数据经纪商提供免费的人员搜索服务, 但也有数据经纪商提供付费的人员搜索服务数据经纪商通常会提醒用户不要将上述个人数据用于公平信用报告法案 (FCRA) 规定以外的其他目的, 包括就业资格认定信用评级保险费评定房屋买卖以及其他类似或相同目的 ( 四 ) 美国数据经纪商 ( Data brokers ) 的产业特征数据经纪商通过多 76

83 大数据金融资讯种信源广泛收集用户个人信息, 绝大多数情况下用户对此并不知情数据经纪商往往通过商业政府及其它公共途径收集用户个人数据, 收集的数据种类包括破产信息选民登记信息用户消费信息网络浏览器运行信息担保品登记信息用户日常互动的细节信息等等数据经纪产业由多层互为提供数据的数据经纪商所组成数据经纪商不仅为终端用户提供数据, 同时也互相互为提供数据绝大多数数据经纪商的数据来源于其他数据经纪商, 而不是某一固定原始信源数据经纪商收集存储着海量数据元素, 几乎覆盖了每个美国用户数据经纪商的数据收集范围几乎涵盖了每个美国家庭和每笔商业交易, 例如一家数据经纪商的数据库中储存了 1.4 万亿条用户交易信息 7000 亿条集成数据元素 ; 一家数据经纪商的数据库中存储了 1 万亿美元的用户交易信息 ; 另一家数据经纪商逐月添加 30 亿条新的数据记录 ; 还有一家数据经纪商拥有几乎每个美国用户的 3000 条数据段数据经纪商联结并分析用户数据, 以便做出包括潜在敏感推理在内的用户推理数据经纪商从用户数据中推理用户兴趣, 根据用户兴趣结合其他信息对用户进行分类, 有些分类如狗主人冬季运动爱好者邮件按序应答者等是无害的, 有些分类自一开始便聚焦于伦理和收入问题, 如城市抢夺人移动式搅拌器等便聚焦于低收入的拉丁美洲人和非裔美国人, 因此属于潜在敏感分类数据经纪商将线上线下数据与市场用户的在线数据相结合数据经纪商依托网站注册功能和浏览器 cookies 抓取跟踪功能来发现用户在线行为轨迹, 推理用户离线行为特征并向其推送在线互联网广告 ( 五 ) 美国数据经纪 (Data brokers) 产业的利弊分析用户能从数据经纪商收集使用数据的众多目的中真正获益数据经纪产品能够预防欺诈增加产品销量向用户推送量身定制的广告与此同时, 许多数据的收集和使用行为对用户造成一定程度的风险如果用户因数据经纪商的错误而不能完成一项风险控制产品的交易, 用户往往因不知情而使自己受损 ; 有些营销产品的分级定级程序对用户并不透明, 使得用户对其较低评级无所适从并减轻其负面影响, 使得自己永远处于次级信用评级从而无法获得部分公司提供的部分高端服务数据经纪商一定程度上会向用户提供其个人数据的选择权, 但是这些选择权绝大多数情况下是不完整不可兑现的用户通常情况下不知在哪里去行使其选择权 ; 数据经纪商提供的选择退出机制往往并未明确指出用户是否可以对其所有个人数据均可选择退出, 从而导致选择退出机制在具体实施过程中非常混乱 ; 许多市场营销产品为用户提供的选择权往往含糊不清, 许多风险控制产品甚至并未向用户提供其个人数据的接入功能以及错误数据的修改删除功能储存用户数据永远都具有不可预知的安全风险虽然存储数据对于实现未来商业目的是有益的, 但 77

84 大数据金融信息剪辑是数据存储的安全风险可能要远远大于其商业利益三我国大数据交易存在的问题和建议 2014 年 1 月, 我国北京中关村成立了第一家大数据交易平台, 随即成立了由 70 多家大数据企业参加的中关村大数据交易产业联盟时至今日, 上海贵阳武汉等地陆续尝试性建设运营了多个大数据交易平台总结各地大数据交易平台的发展现状, 我国大数据交易实践存在的问题, 一是数据缺乏开放共享影响交易数据的量体规模各地各行各业普遍缺乏开放共享数据的主动性积极性, 部分行业开放数据助力大数据交易流通的服务意识不足, 不能满足大数据交易产业对数据源的实际需求, 长期看必然影响数据交易产业的量体和规模二是交易数据脱离信息网络基础设施静止不转数据必须依附于云平台内容分发网络 (SDN) 等信息网络基础设施进行流动, 才能展现出其应有的资产价值 ; 离开信息网络基础设施, 数据容易板结化固态化静态化和僵尸化, 其资产价值会与时衰减甚至消失这就要求数据交易机构应当以自建或租用等方式, 发展自营的数据库云计算边缘存储和分发设施, 至少在局域范围内拥有数据和基础设施的联合体, 以信息网络基础设施作为自营数据资源着床发育的母体, 以自营数据资源作为信息网络基础设施滋生繁衍的新生体, 只有两者联合互动, 才能使数据价值枝繁叶茂, 否则, 如果数据资源脱离了信息网络基础设施, 就容易变成静止不转的板结数据固态数据静态数据和僵尸数据, 不仅将使交易数据的价值难以得到正常发挥, 而且长期看可能不利于数据交易产业的良性发展三是交易数据脱离数据信任源进行离心偏转数据资产不同于传统资产的一个显著特征, 就是新的数据不断产生能够补充并代替旧的数据, 经济学上称之为永久可再生性和永久可流动性只要可信的数据信任源不断运行并开展正常社会生产生活活动, 那么新的数据就会源源不断被生产出来, 并以活水资源形式被补充到原有的数据流之中去, 从而形成一幅生生不息的数据长河数据一旦脱离其原生可信数据源, 就变成无本之木无源之流, 不但导致数据逐渐失去其真实性可靠性, 而且也会导致数据资源价值日渐枯竭, 致使数据交易涸泽而不能渔, 无法进行可持续的良性发展四是交易数据脱离应用和产品而无效空转数据资产不同于其他传统资产的特征之一, 就是它不具有排他性, 可以无限复制并呈辐射状蔓延开去根据产权交易理论, 没有排他性的资产标的可以形成无节制的免费搭车, 外部性效益增加的同时其边际效益不断递减, 而资产所有人的边际成本不仅并未出现同步递减相反却出现额外递增, 从而造成交易成本奇高无比, 导致交易价格渐趋为零并最终丧失可交易性正由于此, 美国数据经纪商在进行数据互为交易流转的同时, 着力于利用自身的数据优势, 开发数据营销产品风险控制产品人员搜寻产品等各类适销对路的数据应用和数据产品, 资源应用产品三位一体三足鼎立三箭齐发, 从而取得市场制胜的可靠法宝数据如果脱离应用和产品, 就会陷入免费搭车的外部性 78

85 大数据金融资讯陷阱, 数据无限空转的同时, 数据交易机构的合法权益也得不到有效的保障, 最终将限制甚至窒息数据交易产业的良性发展参照美国数据经纪产业发展模式, 以数据开放共享推动大数据交易资源建设, 以交易和产品双足运行推动大数据交易时新发展, 可能是我国未来大数据交易产业健康良性发展的可选之路一是大力推进公共数据开放共享坚持政府数据以开放为原则不开放为例外, 坚持政府数据开放先行公共数据开放跟进, 推进落实公共数据开放共享, 为数据交易产业提供不竭资源源泉, 活跃繁荣数据交易产业, 做大作强数据交易产业量体二是夯实大数据交易基本功能鼓励数据交易机构积极探索实践, 推动大数据供需有效对接, 搭建大数据讨价议价撮合机制, 探索大数据交易交割模式, 增强大数据流通变现能力, 引导大数据资源以多种价值形态参与社会生产生活活动三是构建适用于大数据交易的云端集散中心鼓励数据交易机构积极申办云存储中心对象存储空间可寻址存储空间云数据多点共享协同中心集聚式自助管理系统中央存储平台等云交易系统, 通过云平台实现数据集中, 形成自主可控且能增值利用的大数据集散中心逐步面向社会公众开放数据接口, 引导第三方数据开发者和社会力量对数据进行社会化开发汇聚和整合, 推动大数据按照等价支付有序流动的原则在云架构中进行自由流动, 带动整个数据价值链的规模化发展四是与数据源保持同步更新数据数据交易机构应当与数据源签署明确的数据更新协议, 按照数据源数据升级时间表的频度, 与数据源按日按周按月按半年或按年同步升级数据由于用户本人往往是最原始最可靠的数据源, 为了激发基于用户身份信息 (PII) 的用户端应用和服务的创新浪潮, 用户应当被赋予明确的权利, 以便其能够以可行机器可读的方式接入用户个人数据, 使得用户能够表达其政策诉求使用偏好和缔约要求, 推动用户和数据源签约公司共同参与大数据的治理和精用五是推动大数据交易和大数据应用连体融通发展数据交易机构应当瞄准重要行业的重大应用需求, 利用前沿性的大数据分析挖掘技术, 实施大数据资源价值的深度分析和关联开发, 探索富具市场特色满足市场特需的数据创新应用模式, 形成适用于重点行业大数据挖掘技术分析流程领域模型等关键应用和产品六是打造全国性的大数据交易产业链数据交易机构应当以推动数据资源开放流通应用为宗旨, 广泛聚集大数据提供方数据开发者大数据交互平台大数据使用方及数据投资者, 推广应用个性化医疗数字金融智能交通精准营销等基于大数据的新型商业模式, 在基础设施数据资源数据应用等关键环节形成产业合力, 打造全国性的大数据流通开发应用产业链来源 : qq.com 79

86 大数据金融信息剪辑金融大数据的机会张灿张灿, 视野金融联合创始人 COO 12 年金融 IT 从业经验, 证券基金从业资格拥有大型中型创业公司工作经验, 历任销售咨询管理等岗位, 具有丰富的企业管理和实战经验在金融大数据新三板数据研究 XBRL 信贷财务分析风险评级支付 IT 营销管理领域有很深的研究, 并拥有丰富的实践经验和深厚的人脉资源, 曾主导过多家大型银行证券公司第三方支付机构信息系统及互联网项目的建设上周六 (2016 年 12 月 3 日 ) 第 19 期智能金融沙龙, 文因互联非常荣幸地邀请到金融大数据的大咖北京视野金融的 COO 张灿, 和大家聊聊金融大数据人工智能金融和新三板数据的分析与整合本文为张灿在文因互联智能金融沙龙现场分享的实录 : 一金融大数据行业的发展真正的金融信息化, 应该是在 1998 年之后才真正开始的为什么说 1998 年之后? 因为当时我们在某银行做系统时就发现早些年的数据根本找不到而到了 2010 年, 金融机构的数据质量才慢慢好起来 1. 金融信息化二十年, 金融数据在做什么? 数据大集中数据大集中是一个过程, 之前整个银行体系都在分行, 包括证券公司也是如此这些金融机构并没有集中的数据中心概念, 所以他们先做了数据大集中数据仓库数据仓库是在数据大集中的基础上, 提升改善了数据的质量报表在上面两步的基础上, 做了两个报表 : 一个是监管报表, 另一个是内部管理报表决策支持决策支持是基于报表而形成的系统但是, 最后形成的决策支持系统扮演的角色并不是全局性的比如, 针对风险部门的是风险数据仓库, 针对业务部的是客户数据仓库, 所以在金融信息化过程中, 以上四个方面还是部分处于分离的状态 2. 最近几年, 金融数据在做什么? 数据效率和即席分析最近几年, 大家又开始认为数据收集过多对国内的金融机构来讲更是这样实际上从数据的角度来讲, 用户量实在太大了现在我有几个同事 80

87 大数据金融资讯在用 Hadoop 给银行做解决方案, 大家发现数据效率已经成了非常大的瓶颈, 因为其中有些计算实在太复杂原来从数据库导到数据仓库里, 可以延时来算这个数据, 但现在发现这样不可行了最典型的一个案例就是反欺诈 P2P 现在已经有团伙性作案诈骗, 这就导致选择模型很难, 然而又不能像银行放贷一样速度很慢所以我觉得, 提升数据效率和即席分析这两个结合起来, 诞生了非常多的机会数据整合无论做什么样的分析, 数据质量是最重要的如果数据质量差, 很多事情都做不了公开数据现在越来越开放, 比如说工商数据征信数据所以我觉得很多公开数据的运用, 确实为数据分析提供了非常好的基础智能金融的尝试为什么用尝试二字, 因为我还是持一个比较保守的观点就智能金融而言, 现在的数据挖掘技术与人工智能技术还是不够的, 但是我相信科技的不断发展肯定会解决这个问题我一直坚信一个观点就是 : 以后绝对不会存在物理上云的概念再过十年或者二十年所有的东西都是云, 这就是趋势, 是你没有办法改变的我觉得智能金融或者大数据是一个趋势, 是一个没有办法去改变没有余地可讨论的趋势 3. 银行贷款机构的大数据应用热点信用评级 + 这部分对金融机构来说是不可或缺的, 无论是何种形式的评级都发展得很快押品管理这是大家没有解决好的一点比如车贷评级还是一个弱项实时放贷银行在这方面的应用上其实要负一大部分责任因为我们的金融体系还不健全, 导致小额贷款难度较大实时预警提到实时放款就会涉及到实时预警做到实时预警, 需要将现有数据系统变成一个可计算的系统整个的存储架构包括业务逻辑与数据计算的架构, 都需要做出改变实时预警并不仅仅是计算模型这么简单, 贷前贷中与贷后的实时预警都是必须的如果大家有兴趣做, 这会是一块很大的市场另外还有两个大数据的应用热点是营销和客户分析和金融机构的工厂化 4. 投资机构的大数据应用热点投资机构的大数据应用是这两年我们一直在做的事情第一张图是百度股市通, 我觉得挺有意思的是股票雷达, 用搜索的情绪来看其对 A 股的影响因为 A 股确实是散户市场, 情绪的影响确实很明显使用以后你会发现, 搜索热度和上证指数在一年和两年的时期内基本是一致的对于现在比较热门的量化, 我们也在和公募基金私募基金合作进行研究但是需要明白的是, 量化还有很长的路要走再往下讲就是风控投资机构合规性做的很好但是对市场的预警与企业的预警, 银行比证券公司做得好, 比如在证券市场崩盘前很多银行已经在撤资了二企业分析评价探讨 1. 企业评级的演变企业风险评级有一个演变的过程 : 打分卡评级风险预警关于影响企业评级的因素, 有以下几个维度 : 财务因素只考虑财务指标, 数据全部来源于财务报表, 并可由系 81

88 大数据金融信息剪辑统自动计算指标值, 标识指标值的表现好坏, 按照一定规则计算出财务评分, 得到财务子模型评级级别非财务因互素涉及一般情况下可获取的客户相关信息, 例如财务管理水平, 经营管理水平, 外部征信情况, 银企关系等行业地区因素主要业务范围所处地区的信用分析所在行业的前景展望和行业信用分析财务预警主要考虑对客户评级级别影响较大的财务指标, 其值可以由系统自动从财务报表中计算得到比较指标值与预警的阀值, 显示是否有预警非财务预警考虑出现概率比较小, 影响程度比较大的预警事件外部影响要考虑与企业相关的宏观信息, 例如政府支持政策导向重大经济事件等 2. 行业分析的拓展大家做企业评级分析参照的核心其实是两点 : 行业和规模实际上, 我觉得行业分类无论是采用统计局还是证监会的分类标准, 其实差别都不大况且, 在分析中小企业时, 这些标准的适用性并不强关于行业分析的扩展, 视野金融也正在进行尝试首先, 我们做的是宏观数据和行业数据的配比宏观数据的可读性较差, 可以说只是一个库而已但对单列的某个行业来讲, 比如铁路运输量和煤炭行业, 白酒的销售和 A 股白酒行业的业绩表现, 这些指标和行业趋势还是比较吻合的将统计局的数据与行业数据相结合, 还是可以看到大趋势的其次, 是关联关系的分析 A 股的两千多家公司中有很多关联公司, 如果再加上新三板的挂牌企业, 相当于将一万多家企业进行关联将这两部分关联关系的优点是 : 披露信息更全因为通过工商数据的关联关系, 只能查到一些股权关系, 信息不够全面最后, 是大家都在尝试的产业链分析这其中涉及前五大供应商前五大供货商的分析等三新三板数据挖掘探讨大家在新三板上想做的事情, 我觉得都很类似无非是企业画像投资机构画像投资模型并购模型引入第三方数据等我们现在其实也能感觉出来, 通过数据发现企业价值和对投资机构分析的需求是非常核心的目前, 我认为新三板还处于一个不透明的起步阶段, 大家想知道很多问题比如投资机构想知道其他类似投资机构的投资收益新三板公司也希望知道同行业里有哪些投资机构在投, 有哪些动作, 如果融资的话, 以一个怎样的价格谈比较合适在引入第三方数据时, 我们发现三板四板 A 股美股港股国家统计局国资委工商证监协会的数据量比 A 股大的多 A 股是两千多家公司, 加上四板和新三板企业, 差不多有五万多家企业所以, 对这部分数据的挖掘任务还是非常重的四聊聊企业融资在做新三板市场时, 我们发现大家都在考虑股权融资但是适当借债或者是用并购的思路去融资也是不错的选择现在, 很多新三板企业融资难, 解决这个问题的核心就是要读懂金融机构的思维简单来说, 银行思考的是企业的偿债能力, 而投资机构思考的是能不能退出因为银行的钱基本来自于存在, 所以银行要保证资金的安全性, 其次是能否兑付投资机构则需要保证资金的按时的收益率 82

89 大数据金融资讯最后一点, 我认为企业要对照投资机构的思维挖掘自身优势, 包括投资机构看重的行业的一些优势, 比如这家投资机构投过产业链里哪些企业等除此之外, 企业还需要对金融机构有一个判断, 了解投资机构的偏好创始人和合伙人的背景, 这样你会发现融资的脉络就会变得很清晰了嘉宾提问环节 : 1. 关于建设企业数据库, 很多金融机构都有这方面的需求, 但是为什么现在还没有出现? 答 : 我简单说一下我的观点, 第一个就是银行和证券行业看起来都是金融行业, 但其实处于信息不对称的割裂状态去年, 某银行在做一个项目时需要一些企业数据, 而那家供应商的解决方式是在新浪网上搜我认为, 这样的信息是割裂的另一方面, 这件事情虽然有价值, 但前期投入太高, 所以收益并不太高, 比如说国内的知名金融数据终端在新三板上面吃力但不讨好但是我们想过一个方式, 比如大智慧在安徽建立了一个基地把这个标准定好的话, 可以请一些稍微便宜的人力来解决这个问题机器虽然可以解决一大部分事情, 但是很多事后还是需要依靠人力 2. 能不能具体分享一下, 在特定行业中的数据服务? 答 : 目前, 针对特定行业数据服务的需求还是挺多的, 这是一个典型的金融机构需求因为金融机构其实是不懂行业的, 也不可能去培养那么多特定行业的人去研究某个行业所以我觉得金融机构获取行业信息的途径可以分三部分 : 第一部分就是研究报告, 比如券商或者独立研究机构的研究报告 ; 第二部分则是聘请咨询公司做调研 ; 第三部分就是请一些行业专家做一个访谈像大型金融机构会在每年校招的时候倾向去招相关专业的人才来源 : qq.com 83

90 大数据金融信息剪辑大数据是未来互联网金融的核心人工智能和区块链这两个技术, 在未来会使数字货币在金融市场当中的使用权重大大增强同时可以彻底改造人和金融机构之间的关系所以在大数据意义上, 未来的金融机构的核心能力不是存量的改造, 而完全是增量的变化大数据是未来互联网金融的核心今天中国互联网金融行业可以说面临着一种低谷, 这是发生巨大变革过程当中的一个必然, 就像 2000 年互联网泡沫破灭的时候一样, 那个时候人人觉得末日要来临了, 规范要重建但是在接下来发生的事情, 未来几年在金融行业发生的事情, 变革的脚步一点都不会停下来, 它一定会在新的方向上进行发展在任何一个产业发生这些革命性变革的时候, 所有既得利益者很少能在新的业态当中成为领导者, 我们没有看到过一家马车公司转型成为一家成功的汽车企业在手机领域我们没有看到一家模拟机领域时代的领导者在智能机时代还是领导者甚至在互联网领域, 我们没有看到一家 PC 领域的领导品牌可以在今天移动互联网领域依然还可以保留地位这个行业正在变革发展裂变的过程当中余额宝是 2013 年出来的, 支付宝是 2003 年出来的我们把 2003 年看成是中国金融部门开始给互联网公司拉开一条门缝, 到 2013 年的时候, 实际上门缝已经很大了, 潮水涌进来了在这个过程当中, 互联网几乎对所有行业都有冲击, 首先冲击了信息行业, 然后是制造业, 接着是服务业, 到 2013 年, 冲击到了所有行业最底部的结构性部门金融行业这个时候中央政府又开始推动互联网 +, 互联网 + 的推出和余额宝的出现其实有很强的意识形态变化接着, 制度建设跟在变革发生之后在短短的这些年里, 出现了很多崩溃式的数据我们看到 2016 年 7 月底 P2P 平台当中一般的企业不见了我见过很多互联网 P2P 的人, 很多都是 80 后, 很多甚至是律师出身, 或者是大型互联网公司的人二次创业, 那为什么还出现这么多骗子, 那么一定和土壤有关所谓互联网金融所有的基础概念已经不再讨论了代价惨重的启蒙期已经过了讨论那些基础概念已经不再有意义无论是支付环节也好, 负债也好网点也好, 都被今天的互联网一层层地给改变了渠道创新不再是核心动力今天我们再讨论互联网对银行或者是金融机构的渠道变革, 这个环境已经消失了中国原有的金融机构认为还是通过大流量方式获取大规模用户, 建立自己一个平台, 用这个平台抗衡现在的互联网金融 84

91 大数据金融资讯平台机构的话, 这个思想已经是非常落后了随着技术的变革和中产阶级的出现, 人们对金融的概念货币和人的关系发生了变化另外一些新的技术产生, 也使得人和金融之间的关系发生了不可逆的变革随后我们把互联网金融看成是一个渠道的变革过去我们把网点去掉, 变成 APP, 将所有业务都放到手机端完成, 这也不再是一个未来发展的战场了今天互联网发生的最大的变革是两个东西第一个东西就是大数据, 大数据彻底改变了人和货币之间的关系, 以及经营体系在中国区市场重建的速度和效率, 大大的改变了从技术上就改变了人和货币上的关系另一方面区块链等这样的技术, 未来会产生有记忆的钱互联网会变成一种基因其三是有效监管会成为必要的动作其四是互联网成为金融的新基因互联网金融正在发生的重大变化国务院去年 3 月份在杭州市开启了非常重要的试点叫跨境电子商务综合试验区, 之后又开放了 12 个城市, 到现在是 12+1, 这个试验改革到今天已经有一年半时间大概进行到第一年的时候就发生了一种情况因为这一次的跨境电商改革是中国外贸转型的非常重要的一步地方政府把海关报关检验检疫税务审计等等的工作通过单一窗口方式搬到网上再配套一些第三方的互联网公司, 比如说阿里巴巴亚马逊慧聪, 这些公司协助中国外贸公司在单一窗口上, 在这个平台上进行外贸进出口贸易这大大提高了中国外贸透明度到今年年初的时候, 很多人都看到了机遇上个月的时候阿里和杭州市政府选择了 300 家杭州市重点外贸企业, 每家给 50 万美金的金保, 非常类似于 2003 年的支付宝你通过单一窗口平台和国外公司做贸易, 他要采购你的商品的话, 他可以先把钱打到第三方窗口, 然后你拿钱去采购, 采购之后再把东西给到他这是上个月刚刚开始的如果说这条路被走通的话, 就可以看到中国外贸未来发展和中国互联网金融产业会出现一个非常大的交融我们在京东做调研的时候看到一个景象, 未来企业或者说个人, 和金融之间的关系将是交易过程当中的一个环节在京东上所有做贸易的公司你可以向京东做短期贷款, 所有贷款都不需要担保, 因为他有你在京东上的交易数据, 你的信用在你的交易过程当中产生在阿里和京东的平台上, 我们可以看到未来金融发生的一个重要的特征, 就是它不再是一个交易本身, 他的时间会成为利润衡量的维度之一, 这已经超出了银行可以给到企业贷款的基本模式这是我们在外贸领域看到的一个基本情况随着中国内贸市场慢慢繁荣, 这一部分的变革也会进入到中国的内贸市场第一大亮点, 大数据会成为互联网金融的核心人工智能和区块链这两个技术, 在未来会使数字货币在金融市场当中的使用权重大大增强同时可以彻底改造人和金融机构之间的关系所以在大数据意义上, 未来的金融机构的核心能力不是存量的改造, 而完全是增量的变化在这种情况下, 你现的核心能力, 无论是网点能力客户能力还是你的产品能力, 在大数据和人工智能的范畴当中, 所有的资产都可能会失去意义第二个亮点是互联网成为金融社群化试验的工具经过 85

92 大数据金融信息剪辑这几年的发展, 陆金所人均年交易量是中国的中产阶级开始出现, 越来越多的金融衍生品需要向中国的中产阶级贩售, 所有这些东西是无法完全通过互联网在线实现的一般来说, 大家好像说这又回到了传统银行私人银行业务, 私人银行点对点的模型又开始发挥作用了但是其实, 我们并没那么看浙江省工商银行在浙江省就有超过 3000 个私人银行的理财人员, 一个省就要 3000 人, 去服务大概 100 万客户, 所以这还是一个非常传统的人力成本非常高的交易模式我们最近陆金所这些机构在研究说, 如果说通过大数据方式, 通过人脸识别方式, 可以把高净值, 愿意接受新的金融产品的人抓取出来, 那很可能现在银行所保有的这一块, 现在来看还是一个非常具有竞争能力的私人银行业务, 他们自己也是通过社群化的方式, 重新打通用户的关系点今天互联网金融的发展在三个层面上有障碍第一个是部门大数据的篱笆墙每个人都说未来的趋势是互联网金融, 未来是大数据时代, 但是我们去做调研的话, 你会发现在中国数据领域, 比如说 BAT 的数据是封闭的, 政府各个部门之间很多数据都是封闭的我觉得现在数据通过洗白的方式公开给大家, 这个真的是应该快点进行的未来的互联网金融也好, 很多互联网服务也好, 如果说它是建立在大数据基础上的话, 首先一个前提是数据之间的篱笆墙必须要拆掉我觉得在这个意义上来讲, 可能是一件非常大的跨部门协调的事情至少在一些公用事业行业首先把这些数据开放给我们这样的话, 所谓的互联网金融, 所谓的大数据时代才可以真正到来第二, 民营金融机构面前的玻璃门我们希望在这一次整顿当中, 政府可以继续鼓励民营机构创新, 可以把我们面前很多的玻璃墙旋转门该拆的拆, 可以让市场化的力量得到一个巨大推动第三, 监管部门职能创新现在我们讲互联网金融 P2P 股权众筹等等, 在一行三会的职能都是分散的这些条块分割的景象, 对于互联网这样集聚裂变和跨界的特点来说, 已经非常不适用了监管部门的机构改革已经提上了议事日程, 只有这样我们的互联网金融才可以迎来下一轮大的高潮来源 : qq.com/ 86

93 大数据金融资讯大数据遇上金融科技, 开启金融风控新时代 12 月 7 日, 第一届中欧大数据金融论坛在深圳开幕, 中国国际人才交流基金会苏光明主任发来贺信, 深圳市科技创新委李志远副主任教育部软件学院联盟理事长芦苇教授龙华区政府筹备组成员陈建民出席论坛并致辞深圳软件园管理中心徐绍禹主任主持开幕式来自深圳金融大数据相关行业协会与企业代表人才组织科研院所创投机构代表以及媒体记者共 300 余人参会本届论坛以大数据遇上金融科技, 开启金融风控新时代为主题, 英国牛津大学副校长 Anne Elizabeth Trefethen 教授德国柏林洪堡大学 Wolfgang Hardle 教授德国柏林洪堡大学陳怡璇副教授英国剑桥大学 David Stillwel 博士英国南安普顿大学马铁军博士深圳市前海金融控股有限公司阮华伟博士北京大学汇丰商学院卢骏博士深圳市华傲数据技术有限公司于文渊博士胡吉友先生等专家学者围绕大数据与金融科技等等热点发表主题演讲, 从各自的视角, 把脉深圳市金融科技未来发展之路中国国际人才交流基金会主任苏光明为论坛发来贺信, 苏光明在贺信中提到, 2015 年国务院印发促进大数据发展行动纲要, 纲要指出促进国际交流合作, 坚持平等合作互利共赢的原则, 建立完善国际合作机制, 积极推进大数据技术交流与合作, 充分利用国际创新资源, 促进大数据相关技术发展举办中欧大数据金融论坛, 这是促进国内外金融与大数据企业科研机构友好交流的一件盛事, 交流与探讨, 碰撞与合作, 必将为推动大数据与金融科技的融合发展作出贡献据了解, 本届论坛由深圳市科技创新委中国国际人才交流基金会教育部示范校软件学院联盟指导, 深圳软件园管理中心深圳市龙华新区经济服务局英国南安普顿大学国家软件人才国际培训 ( 深圳 ) 基地 87

94 大数据金融信息剪辑共同主办, 深圳市华傲数据技术有限公司深圳市宝能科技园深圳软件园龙华分园北京大学汇丰商学院联合承办并得到了龙华新区高层次人才发展促进会深圳市高层次人才联谊会深圳市欧美同学会深圳市金融人才协会深圳市互联网金融协会深圳市大数据研究与应用协会等单位的大力支持论坛期间, 还将举办国内外高层次人才座谈会, 赴有关金融与大数据企业考察交流, 促成具体合作项目的落地开展近日, 深圳市政府印发了深圳市促进大数据发展行动计划 (2016~2018 年 ), 明确到 2018 年底, 深圳市将建成完善的大数据基础设施, 形成较完善的具有核心自主知识产权的大数据产业链, 成为国内领先的大数据创新应用示范市和大数据产业发展高地深圳市将实施促进大数据发展的重大工程, 推动大数据与移动互联网云计算金融科技的深度融合, 加强跨领域跨行业的数据融合和协同创新, 积极探索创新协作的应用模式和商业模式, 培育大数据新兴业态特别是我市互联网金融等重点领域的大数据融合与应用创新随着经济全球化发展的日益加快, 特别是新兴的互联网金融风险日趋复杂化和多样化, 使人们更加意识到金融风险管理的必要性和紧迫性金融业一直是深圳的支柱产业和标志性产业, 深圳金融业的发展史与这座城市的崛起史密切同步浑然一体当下, 大数据正在对我国金融行业产生着广泛而深刻的变革深圳一直是改革开放的试验田和排头兵, 为全国的经济体制改革提供了珍贵的实践经验深圳金融业态的转型升级需要与大数据金融科技等新兴技术相结合, 面向产品创新商业模式创新服务创新管理创新等方面的数据价值挖掘, 将创造出巨大的商业价值经济价值和社会价值来源 : qq.com/ 88

95 大数据金融资讯实务大数据技术在金融检察工作中的运用摘要 : 由于金融发展与现代信息技术的深度融合, 运用大数据技术作为支撑, 提升办案能力, 是金融检察工作因应犯罪信息化智能化新情况的必然举措当前, 金融检察工作面临数据源缺乏大数据运用水平低数据分析人才匮乏传统审查思维僵化等问题, 应进一步打通数据调取通道, 推动设立数据共享平台, 理顺技术协作机制, 解决大数据运用的基础问题同时, 应培养专门的法律大数据分析人才, 提升检察技术和信息化队伍的专业素质一运用大数据技术办理金融犯罪案件的方法一般而言, 大数据技术手段比较丰富用途多样因此, 在金融犯罪的办理和预防中, 应根据案件类型案件所处阶段应用目的和掌握数据情况的不同, 使用不同的大数据分析方法 1 洗钱案件办理中的大数据运用在互联网时代, 洗钱犯罪呈现交易量大单笔交易金额少地理位置分散的新特点, 对传统的反洗钱预防办理手段构成了挑战如何将大数据技术运用于反洗钱工作, 是应当认真思考与研究的课题目前我国金融业主要使用基于第一代反洗钱技术的智能信息系统, 虚警率和有效性均不尽如人意就国外的使用经验而言, 第二代反洗钱技术经过分层, 进行全方位的鉴别与分析, 能够带来效率和效果的明显改善对此, 金融检察部门可以采用检察建议的方式督促有关部门机构研发和部署 2 庞氏骗局案件办理中的大数据运用在我国, 庞氏骗局以传统的民间金融互助模式为掩护, 进行金融投资诈骗而在互联网时代, 它又假借互联网金融的名号进行诈骗以互联网金融为伪装形式的新型庞氏骗局犯罪, 其涉案金额较过去也有了数量级的提高事实上, 通过大数据分析, 对新型庞氏骗局犯罪进行预警是完全可能实现的可采用大数据聚合方法进行风险预警, 互联网金融企业的注册信息招聘信息网站访问量营销广告等特征数据经大数据平台聚合, 形成对企业的数据画像为定量地评估该互联网金融平台的安全性, 可将各种特征数据进一步抽象为合规性特征词命中传播力收益率和投诉率五个特征指数, 将上述五项指数加权整合后, 所测算出的数字即是企业冒烟指数, 代表其所涉非法集资的风险同时, 要尽可能保障被害人合法权益, 就需要运用大数据技术分析各种财务数据, 通过关联分析追踪资金流向, 最大限度发现和追 89

96 大数据金融信息剪辑回赃款此外, 大数据的数据聚合技术在追踪对象的行为轨迹方面有较大优势, 对于畏罪潜逃的金融犯罪嫌疑人, 通过聚合其银行通讯交通住宿监控录像等相关数据, 能够描绘出其活动轨迹行为时间线, 推测其潜逃方向和藏匿地点, 辅助公安机关实施抓捕 3 老鼠仓案件办理中的大数据运用利用未公开信息进行交易, 就是俗称的老鼠仓实践中, 沪深两大证券交易所启用了针对利用未公开信息交易的监测分析系统, 使用大数据技术监控识别老鼠仓行为, 使得监管水平实现了质的变化和量的飞跃运用大数据技术监测老鼠仓, 主要是基于沪深两大证券交易所每天的海量数据 : 首先, 通过对网络信息和交易数据的分析, 挖掘出可疑账户 ; 其次, 通过分析交易 IP 开户人身份社会关系等进一步确认 ; 最后, 进入调查阶段交易所针对老鼠仓等交易行为还建立了专项核查和定期报告制度当然, 利用监测系统识别老鼠仓行为还存在不尽如人意之处, 如存在监测手段过度依赖时间窗筛选, 其他维度数据聚合水平不高, 造成虚警率高, 对人工核查依赖较大等问题又如, 系统架构上还有潜力可挖 : 沪深证券交易所和中金所的数据互不相通, 信息互不掌握, 降低了大数据捕鼠的威力二金融检察工作中运用大数据技术面临的问题 1 数据隔离问题数据共享是运用大数据技术的基础和前提然而, 现实中数据隔离无处不在大量数据以数据孤岛的状态被分割在各部门内部而无法被关联与聚合涉及金融领域的数据隔离表现在以下几个方面 : 一是金融机构的数据隔离上交所和深交所 2013 年已启动了基于大数据技术的市场监测系统, 然而两大交易所之间至今依然未进行数据交流和通整分立的数据使得对老鼠仓等非法行为的大数据监测未能达到足够理想的效果, 存在较高的虚警率和人工分析依赖性除了不同金融机构之间的数据隔离之外, 同一机构的不同分支机构之间也存在数据隔离现象, 这对跨地域乃至跨境案件的数据调取和分析带来了困难二是金融机构和监管部门司法部门之间的数据隔离各金融机构在和监管部门司法部门的数据联结上, 依然是自我监测发现异状向监管部门报案监管部门向有关方面调取涉案数据用于分析向司法部门移交案件司法部门向有关方面调取涉案数据用于核查的原始方式, 各机构的大数据无法汇集到监管部门和司法部门, 导致其调取涉案数据的手续庞杂费时费力同时, 司法部门向金融 ( 监管 ) 机构提出数据调取要求, 金融机构往往只提供机打纸质明细清单, 这对于洗钱金融投资诈骗等交易量大涉案账号多的金融犯罪案件的办理增加了难度三是内设机构之间的数据隔离金融监管机构和司法部门的内设机构间也存在着数据隔离现象对检察机关而言, 需要理顺内设机构之间的工作机制, 清晰保密界限, 畅通数据共享和线索传达途径, 并实现业务部门和检察技术部门之间的协作 2 运用水平问题尽管近年来国内大数据技术发展很快, 但还存在数据聚合度低运用水平不高等问题就金融犯罪的办理而言, 技术水平还停留在以单维度数据分析及展示为主要技术手段的第一代大数据应用范畴, 关联分析和 90

97 大数据金融资讯多维度数据聚合等第二代大数据技术的运用较少, 相应的数据共享模式也未能建立大数据应用平台多为各部门各自建设, 除数据隔离的问题外, 还有硬件投入较大导致的零星建设和更新缓慢等问题 3 数据分析人才匮乏大数据既然是一种技术, 意味着需要专业知识来掌控, 因此, 法律研究审查应用和立法领域都需要具有丰富经验的法律大数据分析人才提供协助此外, 随之兴起的数据挖掘机器学习人工智能 3D 打印数据清洗等相关技术, 可能会改变数据世界里的很多计算方法和基础理论, 而这也将使得金融检察的对象和工作模式由传统的 1.0 时代向 2.0 时代跨越, 并进一步驱动检察工作的变革 4 传统审查思维僵化大数据技术的运用不亚于一场革命, 在这项新技术出现以后, 是一整套知识价值社会组织的重组传统案件的审查思维是较多依赖于供述与陈述的线性的逻辑的和孤立的审查思维, 但是大数据技术提供了相互连接的, 非平面立体化无中心无边缘的网状结构, 必然呼唤新的思维习惯与分析架构大数据技术在金融检察工作中的应用即象征了这种变迁法律人的思维也必将随之发生革命性的转变, 即不再探求难以捉摸的法律因果关系, 转而关注社会复杂事物之间的相联关系三金融检察工作中运用大数据的路径选择 ( 一 ) 解决大数据运用的基础问题由于当前数据调取通道不畅通数据共享水平低, 金融检察工作的开展缺乏必要的数据基础在金融检察工作中运用大数据技术, 需要做好以下基础建设工作 1 打通数据调取通道, 解决涉案数据信源问题涉案数据的调取是基础中的基础, 然而由于一些涉案机构的工作机制和历史遗留问题, 金融检察实务中往往只能调取到近期当地纸质的涉案数据这成为金融检察案件办理中运用大数据技术的第一道障碍因此, 应考虑由最高人民检察院会同有关机构乃至行业监管部门建立全局性的长期的数据调取工作机制, 从根本上解决数据信源问题 2 推动设立数据共享平台, 提升大数据分析预警能力我国目前在反洗钱反老鼠仓等金融犯罪案件中已启用大数据分析预警系统, 但各机构的数据互不相通, 明显降低了大数据分析的预警效能同时, 在金融犯罪案件查办过程中, 往往需要进行多头反复地数据调取, 浪费人力物力而且容易耽误时机检察机关应推动行业监管部门建立跨机构跨门类的大数据共享平台, 用于金融犯罪分析预警, 提升防范能力 3 理顺技术协作机制, 提供案件办理的技术支持金融检察工作中运用大数据技术, 离不开检察技术部门的保障和支持当前, 检察业务部门和技术部门之间尚未建立起稳定的协作机制金融检察部门可率先建立和检察技术部门的协作机制, 从制度层面上解决案件介入和保密问题, 并根据需求督促检察技术部门强化相应的技术能力, 积极在金融检察工作中多用用好技术协作, 身体力行实践科技强检 4 整合建立金融情报机构建立金融情报机构是世界各地有效打击金融犯罪的大趋势金融情报机构是发放及接收可疑交易的情报中心, 通过信息共享及情报交换, 有效整合各部门的信息资源, 以加强打击金融犯罪体系的严密性 91

98 大数据金融信息剪辑当前国内金融监管机构部门林立, 但缺乏统一的整合, 难免存在重复监管和监管盲区, 更为关键的是, 容易造成相互之间的信息数据壁垒, 显然不符合当前打击金融犯罪的需求, 也不符合大数据技术在金融监管和打击金融犯罪中的运用趋势因此, 亟须建立一个统一的机构来解决当前困局从长远看, 建立永久性具有权威性的金融情报机构当属最佳选择可充分利用现代科学技术, 对数据进行系统汇总整理及加工, 有效处理信息数据 ( 二 ) 大数据技术在金融检察工作中的运用在大数据技术运用基础得以保障的前提下, 金融检察部门能够利用大数据技术进行分析案情引导侦查核实证据诉讼监督理论研究犯罪预防等工作 1 追索资金流向就金融犯罪案件而言, 资金流向可谓整个案件的核心事实运用大数据技术, 可对银行账目和其他交易账目明细进行大数据分析, 以有效掌握线上金融活动中的资金流向如若有适当的涉案人员线下行为数据用于数据聚合, 甚至可能在一定程度上掌握线下资金流向, 从而为侦查工作迅速打开缺口, 提高办案效率, 提高打击犯罪的精准度, 也为追赃工作打下良好基础 2 涉案人员追逃涉案自然人卷款潜逃是金融犯罪案件中的常见情形, 尽管可以发布通缉令上网追逃, 但追逃工作在线索不足的情况下往往持续时间较长通过将涉案人员的相关数据, 如电信通联数据金融账户数据网络账户数据公共服务利用数据等进行充分的聚合与分析, 就有可能了解其潜逃前行为掌握其潜逃地线索, 为追逃工作提供线索指引方向, 从而大幅缩短追逃周期提高追逃成功率和追逃效率 3 证据核实证据真实性的审查判断是刑事案件办理中的一大难题, 问题证据乃至虚假证据如果和证据链吻合良好, 往往具有欺骗性和误导性由于大数据的巨量性和非人为生产的特点, 要通过人为捏造数据改变大数据分析的结果相当困难因此, 大数据技术可用于对部分证据进行核实原则上, 当大数据分析的结论和既有证据冲突时, 应当深入核实冲突证据的真实性 4 理论研究大数据技术可以通过分析某一类历史数据来总结该类事件发生的规律性通过对金融犯罪案件的历史数据进行分析聚合, 金融检察部门可以总结出一些金融犯罪案件的发生模式和相关的制度漏洞或工作机制缺陷, 为实证研究提供更好的路径同时, 这些大数据分析成果也可用于指引金融犯罪案件的办理, 实现理论研究成果的转化 5 犯罪预防基于金融犯罪案件涉案资金大涉及人数多牵涉地域广以及追赃难等特点, 金融犯罪的预防工作具有特别意义金融检察部门可运用大数据技术, 将对历史案件的分析成果通过检察建议等方式传达给相关监管部门和涉案机构, 建议其进行摸排整改, 有助于从根源上杜绝同类案件的发生 ( 高扬捷福建省泉州市人民检察院检察长 ) 来源 : 人民检察微信公众号 92

99 大数据金融资讯大数据在金融 : 数据的价值移动互联网大数据金融三个热点词汇叠加在一起, 将会爆发出多么大的想象力大数据时代不是突然出现的, 实际上过去的几十年间, 数学家就已经涉猎金融行业了, 如诺贝尔经济学奖获得者哈里. 马克维茨威廉. 夏普, 罗伯特, 恩格尔都是数据家他们通过数学模型对金融市场进行分析, 利用计量经济学知识和金融市场数据来建立数学模型, 预测金融市场产品收益同风险波动的关系数据分析和数据挖掘一直就存在于过去的商业活动中大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果确切的说是移动互联网时代产生了海量的数据, 大数据技术完美的解决了海量数据的收集存储计算的问题, 因此大数据时代开启企业利用数据价值的另一个时代大数据对金融行业价值可以从以下几个方面进行讨论 : 01 精准营销大数据可以提供某些企业交易特点和资金需求特点, 可以帮助业务部门对企业的资金需求进行分析和筛选, 提供现金管理产品, 帮助企业解决流动性问题大数据可以帮助信用卡中心追踪热点信息, 针对特定人群提供精准营销产品, 增加新卡用户, 例如热映电影娱乐活动餐饮团购等 02 社交化营销人们的社交行为产生了巨大的数据, 利用社交平台, 结合大数据分析, 金融行业可以开展成本较低的社交化营销, 借助于开放的互联网平台, 依据大量的客户需求数据, 进行产品和渠道推广通过互联网社交平台返回的海量数据, 评测营销方案的阶段成果, 实时调整营销方案, 利用口碑传销和病毒式传播来帮助金融行业快速进行产品宣传品牌宣传渠道宣传等 03 信用风险评估建立基于大数据的信用风险评估模型和方法, 将会提高中小企业和个人的资金申请支持个人信用评分标准的建立, 将会在即将到来的信用消费时代取得领先基于大数据的动态的信用风险管理机制, 将会帮助金融机构提前预测高风险信用违约时间, 及时介入, 降低违约概率, 同时预防信用欺诈 04 欺诈风险管理大数据提供了多纬度的监控指标和联动方式, 可以弥补和完善目前反欺诈监控方式的不足特别在识别客户行为趋势方面, 大数据具有较大的优势此外, 金融机构还可以依据大数据分析, 为客户提供定制服务, 预知企业客户未来资金需求, 提高客户体验 05 需求分析和产品创新大数据提供了整体数据, 93

100 大数据金融信息剪辑金融企业可以利用整体样本数据, 从中进行筛选可以从客户职业, 年龄, 收入, 居住地, 习惯爱好, 资产, 信用等各个方面对客户进行分类, 依据其他的数据输入纬度来确定客户的需求来定制产品 06 运营效率提升大数据可以展现不同产品线的实际收入和成本, 帮助企业进行产品管理同时大数据为管理层提供全方面报表, 揭示内部运营管理效率, 有力于内部效率提升大数据可以帮助市场部门有效监测营销方案和市场推广情况, 提高营销精准度, 降低营销费用大数据可以展现风险视图控制信用风险, 同时加快信用审批 07 决策支持大数据可以帮助金融企业, 为即将实施的决策提供数据支撑, 同时也可以依据大数据分析归纳出规律, 进一步演绎出新的决策基于大数据和人工智能技术的决策树模型将会有效帮助金融行业分析信用风险, 为业务决策提供有力支持金融行业新产品或新服务推向市场前, 可以在局部地区进行试验, 大数据技术可以对采集的数据进行分析, 通过统计分析报告为新产品的市场推广提供决策支持进入大数据时代, 金融行业的客户信息交易信息资产信息信用信息等数据经过有效采集和整理分析, 将会成为具有价值的数据信息内部数据结合外部数据将形成具有重要价值的数据资产, 可以有效帮助金融企业进行精准营销, 降低运营费用, 提高欺诈管理水平, 提高信用风险管理水评, 为决策提供有效支持, 同时帮助金融企业了解客户需求, 开发出符合客户需要, 具有创新精神的新产品简单的讲, 大数据将帮助金融行业提高运转效率, 降低支出成本, 提高风险管理水平, 并基于客户需求进行更好的产品创新来源 : com/archives/

101 大数据金融资讯王玉祥 : 大数据金融时代的众筹解放近年来, 贵州和贵阳通过发展大数据产业战略弯道取直, 实现了跨越式创新发展, 受到了党中央和国务院的肯定, 获得了社会各界的高度认可, 也获得了国际社会的高度关注贵阳市连续多年实现 GDP 两位数增长, 其 GDP 增速多年位居全国省会城市之首李克強总理今年 5 月, 出席在贵阳举办的中国大数据博产业峰会暨中国电子商务创新峰会开幕式时, 高度肯定了贵州的发展模式, 他说 : 贵州是美丽是欠发达省份, 但是贵州在发展大数据云计算物联网上, 把无生了有而大数据是二十一世纪的钻石矿, 在大数据为代表的新一代互联网产业背景下, 落后的地方甚至可以抢占先机中共贵州省委常委贵阳市委书记陈刚, 他在最近视察贵州金融城时强调指出 : 要围绕国家大数据综合试验区国家生态文明试验区和内陆开放型经济试验区建设, 要进一步清晰发展定位, 突出大数据金融特色, 打造大数据金融中心要突破传统金融城发展思路, 积极适应互联网大数据特征, 形成新的发展模式和业态, 建成以大数据金融辐射全国乃至全球的特色金融中心贵阳在建设全球大数据金融中心的顶层设计下, 也同时在思考梳理规划贵阳的众筹金融创新生态体系, 并对解放众筹与众筹解放的系列理论创新, 以及对众筹平台与领筹人制度的实践创新, 及时做出总结与评估在这个过程中, 刘文献先生为中国众筹金融发展进程做出了非常有价值的探索尤其是在当前中国, 对互联网金融的监管与创新并重的时代背景下, 在全球风起云涌的金融科技创新与跨境金融合作的强力推动下, 在贵阳建设全球大数据金融中心的目标指引下, 贵阳的众筹金融创新发展, 具有非常重要的创新实践示范意义, 受到了中国乃至世界众筹金融行业的高度关注我们认为, 众筹金融是大数据金融的核心组成部分, 在互联网尤其是移动互联网带来的全球化众联的众时代, 承担了社会组织尤其是企业组织变革经济制度尤其是双创制度创新生产过程众创众包重组资源众筹分配重构社会众扶促进普恵金融等方面, 具有不可替代的重要的结构性作用, 众筹金融发展的健康成熟与否及快慢强弱程度, 对大数据金融的发展有重大影响中国人民大学法学院副院长杨东教授认为 : 互联网 + 金融 = 众筹金融我个人也非常认同他的观点同时我也认为 : 大数据金融起于互联网金融, 又高于互联网金融一包涵 95

102 大数据金融信息剪辑了互联网金融和传统金融如果说互联网金融的代表形态可能是众筹金融的话, 那么, 如果把大数据金融比喻成一个无边无际的正在形成新宇宙的银河系, 众筹金融就是浩瀚约银河系中的一个熣灿的星系, 既是银河系的不可分割的一部分, 又是相对独立的一个有着自己生命系统的星系刘文献先生把众筹金融生态体系命名为太阳系, 并详细规划了以众筹金融交易所为核心, 內环环绕着世界众筹大会世界众筹大赛众筹金融协会众筹金融研究院众筹金融学院众筹金融投资基金众筹金融创客小镇众筹金融双创孵化器众筹金融产业园众筹金融专业保险与行业银行等众筹金融平台, 中环则环绕着以几十个行业和产业领筹人为牵头的产业领筹金融公司 ; 外环则是浩瀚的企业创客经纪人投资人消费者专业服务机构所组成的众筹交易世界构建一个立体生态的众筹金融生态体系, 是刘文献先生众筹金融理论的代表性成果, 也使他区别于一般的众筹金融学者而有了全局的高度同时, 在贵阳市政府的支持下, 他还带领团队和领筹人, 展开了轰轰烈烈而艰苦卓越的构建众筹金融生态体系的建设工作, 为建设新世界众筹之都的梦想而付出艰苦的探索和努力这些创新和实践, 为他赢得了全球同行的认可和尊重在我带领贵阳众筹金融访问团访问英国, 并与英国政要和英国众筹界领袖交流过程中, 刘文献先生被他们尊称为中国众筹金融体系的开创者 2015 年 10 月 23 至 26 日, 2015 世界众筹大会在贵阳召开, 大会举办了开幕式主论坛及 39 场众筹专业与众筹行业论坛, 大会吸引了全球约名众筹行业相关专业人士创客投资人及媒体记者参会来自全球的 1569 个创业项目受邀在大会参加同期举办的世界众筹大赛 2015 世界众筹大会, 在双创四众众筹金融体系创新与监管众筹服务实体经济众筹与传统金融合作众筹交易新五版市场全球跨境众筹合作众筹人才培养众筹扶贫城市活动与全民众筹知识产权众筹大数据众筹金融等领域做了广泛而深入的研讨交流, 大会获得了圆满成功, 并在全球产生了积极而深远影响, 同时, 也为贵阳迈向全球大数据金融中心的目标为贵阳成为全国双创城市做出了积极贡献贵州省委副书记省长孙志刚在 2015 世界众筹大会开幕式上表示, 世界众筹大会是全球众筹领域领筹者投资者服务者和创意者交流合作的重要平台, 是贵州开放创新的重大机遇 ; 原国家外经贸部副部长博鳌亚洲论坛秘书长龙永图在主持大会开幕式时表示, 这可能是世界众筹领域在中国的一件开创性的大事, 也会成为中国大众创业万众创新的历史进程当中一次引领性的盛会在接受人民日报记者的专访时, 陈刚书记表示这次大会是个新生事物, 借着大会把大批 70 后 80 后 90 后齐聚贵阳, 大家展示成果交流经验, 为双创四众的发展提供宝贵的智力和实践支撑他认为, 现在政府应该为互联网搭台为搭台者搭台, 政府首先想到的应该是筹众, 即如何实现企业投资者创新者的共同参与, 形成一个公共聚集的机制, 让草根平民有更多参与的可能, 并且政府具有容错的精神对创新创业者至关重要贵阳市委副书记市长刘文新, 在会见与会嘉宾时表示, 希望越来越多的企业家和创客, 创新众创众包众扶众筹理念, 让更多好项目在贵阳落地生根开花结果, 实现自身与贵阳经济社会共进步同发展今年 11 月, 即将在贵阳召 96

103 大数据金融资讯开的大数据金融信用体系建设与风险控制研讨会中, 将会进行高规格高水平高层次的国际化的大数据金融的创新与风控研讨及阶段性成果发布中英跨境众筹产业园中英跨境众筹产业基金中英跨境众筹交易版块中英大数据众筹创新与风控课题中英大数据众筹金融博士生合作计划等国际众筹合作成果都将发布亮相, 这其中就有刘文献先生以及领筹人卓越领筹科技金融产业园李梓正董事长的贡献领筹人制度和领筹金融 ( 集团 ) 推动下的各个产业领筹金融公司构建, 也是刘文献先生对众筹金融体系理论和实践创新的又一重要贡献现在, 一批产业领筹金融公司已完成成立工作, 有的已有一些初见成效, 如 : 卓越领筹金融公司在中英跨境众筹领域的成果, 五星生活金融公司在农村金融领域已合作建立了 5000 多个农村金融小超市进展, 体育金融公司也开始了楼云跳青少年体育中心的全国规划布局, 领筹电竞产业金融公司协助国家体育总局信息中心, 与贵阳市政府中国大唐集团举办的首届中国移动电子竞选大赛, 推动电竞小镇的建设其它一些领筹人, 如新华领筹消费积分大数据电商天坛电影金融领筹美食金融神州趋缓扶贫金融汇金领筹房地产金融永恒领筹智慧能源交易汖致旅游金融南北巢医养金融等, 也都逐步有了产业众筹金融项目抓手, 各类商业模式也正趋于成熟, 假以时日, 如果有切实有效控制好各类风险, 扎扎实实的做实做大, 则完全可能看到贵阳众筹金融体系, 服务更多实体行业和实体企业的成功范例贵阳众筹金融交易所是全球首个众筹金融的交易平台, 刘文献先生做为董事长和贵阳财经大学贵阳大数据金融学院的执行院长, 提出了一系列富有大数据金融特点, 并且有良好巿场价值和社会普惠意义的创新交易品种, 比如三五版市场众筹交易品种知识产权证券化交易品种消费积分大数据交易品种公共资产 RlETs 交易品种智慧能源收益权交易品种等我希望这些交易品种经过风控论证和试点工作后, 可以能够更好地让众筹交易为实体经济服务贵阳在发展建设大数据金融中心过程中, 始终坚持创新和风控两手抓, 两手硬今年也是众筹金融创新和风控两手抓两手硬的关键时期贵阳市委书记陈刚同志很早就提出了大数据铁笼计划, 就是要用大数据对政府审批权力市场平台权力企业公众融资权力和投资者的风险投资承受力进行全方位全流程的监管和预警同时, 也是更好地利用大数据帮助投资人对企业和项目进行更纵深更全面和更智能的投资分析此外也可以用历史大数据和大数据智能比对模型等手段, 来对投资会员的风险偏好和风险投资承受力进行评估针对性培训风险值预警及投资熔断所以说, 责任铁笼计划, 也是打造贵阳全球大数据金融中心的必要条件和监管基础设施今年以来, 国家加强了对互联网金融的监管, 基本上形成中央政府及全国金融管理部门出监管政策, 地方政府及地方金融实施具体监管的格局改革开放以来的中国金融发展史, 是创新和风险管理的交替发展螺旋上升的发展史, 所以也有经济学家认为金融就是经营风险管理, 这句话虽不全面, 但也道出金融和风险防范及价值发现相伴相生的本质对于刚刚才几岁的中国互联网金融来说, 关健是如何创新? 又如何监管? 创新的工作表面上看虽主要是由企业和创客来做, 政府只要出好支持政策和放手鼓励就好了但对于身处大数据时代的中国创新来说, 创新不能完全让市场处于自发的原始水平, 政府如何开放管理大数据, 构建大数据政府服 97

104 大数据金融信息剪辑务平台, 提高创新的大教据服务能力, 这是一个必须正视的问题, 也是必须解决定的一个问题贵阳正在进行的探索和实践, 就是个非常积极主动和具有深远影响的重要尝试当前, 地方政府对互联网金融的监管, 也缺乏非常有效的监管的基础设施和监管的手段, 所以同样不能让政府监管处于完全原始的状态, 因为这样不但管不好管不住风险, 反而有可能误伤了创新, 贵阳正在实施的数据铁笼计划以及多个系统的数控金融系统建设, 就是要提升政府和互联网金融平台及从业者的大数据风险防范能力正是在上述大数据创新和大数据风险防范的意义上来说, 我们认为 : 大数据金融, 起于互联网金融, 又高于互联网金融互联网金融就好比是个可以野蛮生长的原生金融世界, 而大数据金融则是个有人类科学管理和价值服务的智慧金融世界原始社会发展靠丛林法则, 而现代社会发展靠技术创新基础上带来的民主发展与科学管理毫无疑问, 大数据技术无疑是当代最重要的奇点来临贵阳正在形成一种共识 : 人类社会的每一次大进步和发展, 无不起始于科技创新, 完善于制度创新, 成就于金融创新今天的贵阳, 一座现代化的贵州金融城已拨地而起, 屹立立在中囯西部围绕国家大数据综合试验区国家生态文明试验区和内陆开放型经济试验区建设, 进一步清晰金融城发展定位, 突出大数据金融特色, 打造大数据金融中心, 突破传统金融城发展思路, 积极适应互联网大数据特征, 形成新的发展模式和业态, 成为大数据时代贵阳业发展的宏伟目标我们相信 : 富有责任感和使命感的企业和企业家, 是市场创新和风险控制的最重要主体今天, 我们在全球大数据金融中心创新的的大舞台上, 来为包括从事众筹金融互联网金融移动金融区块链金融消费金融文化金融绿色金融农村金融科技金融等创新金融的企业和企业家搭台者抬台特别是像刘文献先生这是样东西创新金融代表人物是大数据金融时代的孔雀西南飞的贵漂, 更重要的是, 他们以人生的大智慧大执着大努力和大激情, 以不畏艰苦不怕失败的勇气, 正带领更多的企业和企业家团队向崛起中的全球大数据金融中心集聚, 和贵阳相互成就, 一群人和一座城市, 共同的梦想, 共同的未来 2015 年初, 我们在北京邀请刘文献院长来贵阳发展的时候, 他刚完成解放众筹大作, 他以解放众筹一书, 以无限的创新激情, 预言迎接并发起了以双创四众为主题的世界众筹大会, 推动形成了众筹金融的创新格局今年秋天, 他以众筹金融体系构建的新实践和新思考, 写成众筹的解放一书, 以凤凰涅磐的心态, 再次迎接推动参与发起 2016 贵阳大数据金融信用体系建设和风险控制研讨会我们深信并期待, 众筹的解放它对未来的大数据金融特别是众筹金融, 将产生深远的影响像跳舞一样, 左脚创新, 右脚风控像季节一样, 有冬天, 就会有春天我们相信, 在贵阳大数据金融发展的星空中, 众筹解放和解放众筹, 都将为我们带来解放和被解放的巨大梦想和澎湃前景是为序, 不仅为本书来源 : qq.com/ 98

105 大数据金融资讯 2016 大数据金融企业谁是王者?( 分类排行 ) 金融服务产业向来是全球范围内的强势产业, 随着互联网通信技术的不断提升发展, 互联网金融正成为致力于产业效率和用户体验提升的新动力近几年伴随着移动互联网的普及, 互联网金融业正在经历着跳跃式增长当进入到 2016 年, 在合规整改的浪潮中, 监管新规不断落地, 加速了互联网金融产业的净化, 同时也促进了产业向纵深发展 2016 年, 在政策和市场因素双重作用下, 互联网金融行业正经历着前所未有的际遇不论是第三方支付的逐步成熟互联网银行保险的启程, 还是 P2P 消费金融大数据金融等新兴金融模式的兴起, 亦或是传统企业在互联网金融领域的试水, 都彰显着互联网金融朝阳般的前景和强大的生命力在国家加大整改力度后, 主要的互联网金融企业将重心放在合规整改兼并收购收割小平台退出后的市场等方面, 产品和模式创新的力度有所收缩, 从业机构数量的快速下降并不应该成为互联网金融创新发展的阻力, 优胜劣汰是社会进程的规则, 合规整改下的互联网金融, 门槛更高, 形式也更多样 P2P 在质疑声中多云转晴从 2012 年, 开始有零星的 P2P 平台跑路事件开始, 风险不断累积和发酵, 直至 e 租宝事件严重扰乱了社会经济秩序, P2P 行业已然成为此次互联网金融整改的重点目标 2016 年以来, 中国网贷行业的监管政策及实施细则逐步明确和落地, 行业自律和信息披露逐步加强和完善,P2P 网贷行业总体是在向透明和规范的方向发展与此同时, 网贷行业经营环境的改善, 也正成为投资人较好的投资渠道消费金融成为最亮的那颗星消费金融市场的用户个人需求量小, 但是需求群体却很大, 市场前景广阔, 加之媒体的推波助澜, 很快将消费金融推向市场顶峰 99

大数据金融信息剪辑一大出口国和第二大进口国整个IT产业的神经大数据已快速增长的跨境交易市场意味渗透各行各业挖掘数据中的着巨大且不断增长的跨境网上商业价值目前中国在大数据支付需求网络支付运营主体应用方面还处在起步阶段与支付业务均呈现多元化发展趋势中国经济的飞速发展必然迎来天量的数据处理而数据量处理的爆发又会带动硬件设备支出数据中心大规模建设

8万力以及管理能力的要求都极网络支付的快速发展一亿未来五年行业年均复高经验不足管理深度不够方面丰富了电子商务的支付体合增长率将达到24.

106 大数据金融信息剪辑一大出口国和第二大进口国整个IT产业的神经大数据已快速增长的跨境交易市场意味渗透各行各业挖掘数据中的着巨大且不断增长的跨境网上商业价值目前中国在大数据支付需求网络支付运营主体应用方面还处在起步阶段与支付业务均呈现多元化发展趋势中国经济的飞速发展必然迎来天量的数据处理而数据量处理的爆发又会带动硬件设备支出数据中心大规模建设以及相关应用服务领域的商机未来中国大数据产品的潜在市场规模有望给IT行业开拓一个全新的黄金时代此消彼长联合创新合规整改的终极目的在于通过整顿归纳总结出有效指引有效原则和有效标准建立中国互联网金融健康发展的消费金融以小额分散为长效机制据第三方机构的报主要特点然而小额分散对团告显示 2016年中国互联网队风控模型建构能力技术能金融行业市场规模将达17.8万力以及管理能力的要求都极网络支付的快速发展一亿未来五年行业年均复高经验不足管理深度不够方面丰富了电子商务的支付体合增长率将达到24.67% 到都会导致平台在高速发展中面系健全了信用体系另一方 2020年预计超过43万亿作为临考验平台的安全性不在于面作为一种新型的支付方新兴产业互联网金融市场未业务核心在于平台的综合实式它的发展同时也增加了新来的发展空间和潜力巨大力的经济风险和社会风险依靠监管的完善是网络支付发展的外部推动力当下的移动支付迎来破冰时代由于移动端应用需求的普及未来有望呈现爆发式增长主要的第三方支付机健全的法律制度成熟的政府监管体系和完善行业自律体系网络支付服务才能长期稳健发展下去大数据有望开拓全新的黄金时代构纷纷布局移动支付其次继物联网移动互联网全球化趋势明显作为世界第云计算之后大数据再次挑动 100

107 大数据金融资讯随着应用和消费场景的日显丰富, 互联网金融也必将呈现出极大的多样性, 除了目前的第三方支付 P2P 互联网银行互联网保险互联网证券外, 互联网消费金融金融大数据等细分领域在近期正在迅猛发展正如人的追求没有止境一样, 互联网金融在探索未知的路上永远不可能停顿目前, 作为互联网金融的代表形态, 第三方支付的需求正在得到突显, 支付宝翼支付华为钱包等移动支付方式正在得到大量的应用 ;P2P 正遇来了规范发展期, 陆金所宜人贷 Ppmoney 人人贷拍拍贷等公司坚持合规运营, 并不断优化服务, 在行业中取得了有利的竞争位置信贷消费已经成为人们日常消费中非常普遍的选择, 很多电商及互联网金融平台依托自身业务特点, 开展了消费分期服务, 促进了自身业务的壮大和发展, 受到消费者的欢迎如蚂蚁花呗京东白条等金融服务对于在淘宝及京东平台购物的用户来说, 提供了极大的方便而且现在越来越多的垂直平台也在这方面进行着尝试, 例如拿去花就是土巴兔装修提供的一种装修贷产品此外趣分期分期乐等面向校园和白领消费的互联网金融平台也正迎来高速发展期近年来, 由互联网公司牵头发起的金融创新不断涌现, 互联网银行互联网保险等有别于传统金融的新模式快速推进, 与之相关的互联网征信技术和资讯服务也都得到了快速发展, 安心保险泰康在线安心保险易安财险, 以及网商银行微众银行这些新型的互联网金融企业正成为推动现代金融改革的探路者结语当人们汇入到移动互联网大潮之中后, 互联网金融新形态也随之兴起近年来, 互联网金融凭借成本低效率高覆盖广发展快等优势, 提供多样化的产品与服务, 满足各个金融服务领域的需求但是互联网金融的健康稳定发展离不开完善的互联网金融监督体系的支持完善互联网金融监督和安全防范制度体系, 才能促进互联网金融的健康稳定发展互联网金融市场的规范化管理为企业发展提供公平的竞争空间, 不良平台将无处遁形快速淘汰抓住大格局整顿契机, 寻求行业之间的创新联合, 无疑是互联网金融市场的一个新走向越来越合规的互联网金融, 在行业进程下因地制宜, 将在现有市场基础上更新更快的走向下一季辉煌, 是所有的消费者和行业人都翘首以盼的结局来源 : com/ /n shtml 101

大数据金融信息剪辑数据可视化 2016 信息之美金奖作品全解析信息之美奖全名为个特别奖视飞机上用来获取更广阔的视野凯度信息之美奖 The 获奖作品赏析 Kantar Information is Beautiful 1 全场最大奖项最佳美国政府的空中监视行 Awards 是为了嘉奖信息信息之美奖 Most Beautiful 为截止到目前几乎不为人知

108 大数据金融信息剪辑数据可视化 2016 信息之美金奖作品全解析信息之美奖全名为个特别奖视飞机上用来获取更广阔的视野凯度信息之美奖 The 获奖作品赏析 Kantar Information is Beautiful 1 全场最大奖项最佳美国政府的空中监视行 Awards 是为了嘉奖信息信息之美奖 Most Beautiful 为截止到目前几乎不为人知与数据可视化的优秀作品而设天空中的密探 BuzzFeed News通过分析从航立的奖项 2012年记者兼数据可视化学者大卫麦克坎德作者 Peter Aldous 和 Charles Sefie 美国班追踪网站Flightradar24上得到的大约200架已辨别的联邦莱思 David McCandless 和凯度集团译者注凯度集团系全球知名的研究分析和咨询网络集团公司创意总监艾兹卡米 Aziz Cami 共同创立了该奖奖项类别今年的信息之美奖共分为数据可视化信息图交互可视化数据可视化网站数据新来源媒体 Buzzfeed 飞机位置数据通过动态化的闻数据可视化项目 6个图片截取自美国科地图和路线图借助VR技术类别每个类别都评出了金罗拉多州博尔德Churchill 形成了一幅前所未有的美国政银铜三个奖项一些类别还 Navigation软件公司关于增府监视行动规模图景为大家评出了荣誉提名奖除此之强现实系统的宣传视频让清晰展现一个政府监视下的美外主办方特别设立了最佳读者可以更加直接鲜活感受该国团队学生奖社区系统的强大感知能力这种系这部作品曾经获得过2016 奖最佳信息之美奖等9 统安装于美国联邦调查局的监年全球数据新闻奖年度最佳数 102

大数据金融资讯据可视化奖真是拿奖拿到手对应的人类活动在过去的两软!新闻坊之前详细解读过这个万多年间全球平均气温由最失踪移民地图基于作品赶紧来温习下这篇吧初的零下4.

com/1732/ 数据该项目由国际移民组织 2 数据可视化类 Data Visualization 金奖作品地球的气温变化时间轴作者 Randall Munroe 美国来源媒体美国XKCD博客 3 信息图 Infographic 金奖作品失踪移民地图作者

网站这项研究始于2013年当年 10月两艘非法非洲移民船只在意大利南部岛屿兰佩杜萨岛附近沉船造成至少368人丧生该项目的地图只有地理信息来展示不同地区的形态也强调了我们都是世界公民这一点这项作品最初在2015 年9月完成后来在2016年2

109 大数据金融资讯据可视化奖真是拿奖拿到手对应的人类活动在过去的两软!新闻坊之前详细解读过这个万多年间全球平均气温由最失踪移民地图基于作品赶紧来温习下这篇吧初的零下4.3摄氏度增加到将失踪移民项目 The Missing 近零上1摄氏度作品链接 Migrants Project 收集的数据该项目由国际移民组织 2 数据可视化类 Data Visualization 金奖作品地球的气温变化时间轴作者 Randall Munroe 美国来源媒体美国XKCD博客 3 信息图 Infographic 金奖作品失踪移民地图作者 Valerio Pellegrini和 Michele Mauri 意大利成功移民和死亡的人口数据 IOM 的全球移民数据分析中心 GMDAC 与媒体与通讯事业部 MDC 共同发起来收集全球范围内在非法移民过小编注这是一个极客漫画程中死亡或失踪的人口数据网站这项研究始于2013年当年 10月两艘非法非洲移民船只在意大利南部岛屿兰佩杜萨岛附近沉船造成至少368人丧生该项目的地图只有地理信息来展示不同地区的形态也强调了我们都是世界公民这一点这项作品最初在2015 年9月完成后来在2016年2 月进行更新加入了新的移民失踪事件的数据作品链接 infographics 图为从该作品中截取的该图展示了地中海区域 4 数据可视化项目 1000年到2016年全球平均气温变化曲线图及未来气温变化走向预测全球变暖是真的吗?还是一些科学家所说的骗局? 美国网络漫画家Randall Munroe用温度变化曲线向我们展现了从上一次冰川时期公元两万年前到2016年的全球气温变化时间轴并在曲线旁标注该时间段 103

大数据金融信息剪辑 Dataviz Project 金奖作品业的数据用披萨来展示芬兰伴随着关于对商业航运的重数据美食首都赫尔辛基的不同种族人口要性运输货物的重要河流比率等及地区等的讲解作者 Moritz Stefaner和 Susanne Jaschko 德国在伊朗一半全球作品链接 https://www. 作品链接 http://datacuisine.

org/ 前500的网站被封禁但是 5 交互可视化类 6 数据可视化网站 70%的年轻网络用户试用代 Interactive 金奖作品航 Dataviz Website 金奖作品理服务器访问这些网站该运地图流动的数据图用意大利调味饭中不同颜作色的米粒代表这些数据其者 Robin 中上半部分的黄色米粒代表 Houston 和可访问的网站下半部分代 Duncan

110 大数据金融信息剪辑 Dataviz Project 金奖作品业的数据用披萨来展示芬兰伴随着关于对商业航运的重数据美食首都赫尔辛基的不同种族人口要性运输货物的重要河流比率等及地区等的讲解作者 Moritz Stefaner和 Susanne Jaschko 德国在伊朗一半全球作品链接作品链接 shipmap.org/ 前500的网站被封禁但是 5 交互可视化类 6 数据可视化网站 70%的年轻网络用户试用代 Interactive 金奖作品航 Dataviz Website 金奖作品理服务器访问这些网站该运地图流动的数据图用意大利调味饭中不同颜作色的米粒代表这些数据其者 Robin 中上半部分的黄色米粒代表 Houston 和可访问的网站下半部分代 Duncan Clark 表被封禁的网站下半部分英国的黄色米粒代表通过代理服务器进行访问的网站该作品是基于2012全食物可以作为展示数年全球商业据的工具吗?数据是什么味航运数据的道? 数据美食工作坊将美食交互式3D地作为一种工具来展示数据图展示了该工作坊由德国艺术设计网现代商业航站Prozessagenten发起运的巨大规由数据可视化专家Moritz 模大型商船 Stefaner负责艺术设计该工的航运路线不同类型商船作坊会采用当地的食物来展示的地理分布和它们的碳排放当地相关的数据比如说用当量这幅地图以动画片的形 Flowingdata.com网站由地鱼类做的鱼汤来展示当地渔式呈现在缓缓的音乐中还数据统计师Nathan Yau运营作者 Nathan Yau 邱南森持续更新原创或整合的数据可视化内容该网站上现在有大量的数据可视化作品数据可视化学习教程和指南等作品链接 flowingdata.com/ 特别奖商业项目

大数据金融资讯作品通过研究1958年至 2015年公告牌歌曲的排名变化展现各个时代音乐的流行趋势作品链接 http:// polygraph.

站由的变革 01 对话电影德勤 Deloitte Datawheel数据公司和麻省理工学院媒体实验室Macro Connections共同创建数据美国是一个开放的免费资源平台

io/ 2 年度最佳工作室 Studio of the Year Polygraph工作室 Polygraph斩获了今年的年度最佳工作室奖工作美国FiveThirtyEight网站

111 大数据金融资讯作品通过研究1958年至 2015年公告牌歌曲的排名变化展现各个时代音乐的流行趋势作品链接 polygraph.cool/history/ 3 最佳团队奖 Outstanding Team FiveThirtyEight网站 Commercial/biz Project 金奖作品数据美国该网站由的变革 01 对话电影德勤 Deloitte Datawheel数据公司和麻省理工学院媒体实验室Macro Connections共同创建数据美国是一个开放的免费资源平台提供美国政府多家统计部门的官方数据现有 180多万个数据可视化成果范围涵盖工业教育职场等多个领域作品链接 datausa.io/ 2 年度最佳工作室 Studio of the Year Polygraph工作室 Polygraph斩获了今年的年度最佳工作室奖工作美国FiveThirtyEight网站作品探讨了性别社会背团队获得此奖该网站成立于景票房数据等因素对于电影 2008年特点是基于大量数的影响通过数据鲜明反映出据来预测新闻最具代表性的了当今电影的多元化趋势作品便是通过棒球比赛数据成作品链接 polygraph.cool/films/ 02 音乐品味的变革功预测出奥巴马将赢得美国总统大选网站在不牺牲严密性和准确性的前提下让数据新室研究的话题广泛相比用文闻变得生动且通俗易懂更加字枯燥的表述他们更喜欢借吸引读者代表作品是 2016 助画面符号等动态信息开展年美国大选预测话说小对不同课题的研究代表作品编很想知道这次特朗普当选为对话电影和音乐品味 FiveThirtyEight的预测是否靠谱 105

大数据金融信息剪辑 Moritz Stefaner 德国代表啊 4 社区奖 Community Awards 金奖由全球数据可作品天神项目季风能源预测视化社区通过网上投票得出

幅信息图表等可视化的数据呈华早报现这些可视化的信息能够让忙碌的医务人员快速而便捷地天气预报的预测范围局限于未来几周气候预报的预测范围放眼于未来几年对于能

com/infographics 源交易商来说了解未来几个 02 Nadieh Bremer代表作月的风况则最为重要基于复品奥运旋翼自1896年以杂的气候模型该项目将尝试

net/ 6 明日之星奖 Rising Star Will StahlTimmins 英国和Nadieh Bremer 荷兰 01 Will Stahl-Timmins代

112 大数据金融信息剪辑 Moritz Stefaner 德国代表啊 4 社区奖 Community Awards 金奖由全球数据可作品天神项目季风能源预测视化社区通过网上投票得出基于相关调查机构教育中国各省经资源和研究文章作者曾经为济增长作者 Alberto Lucas 英国医学杂志提供过数十 López 美国来源媒体南幅信息图表等可视化的数据呈华早报现这些可视化的信息能够让忙碌的医务人员快速而便捷地天气预报的预测范围局限于未来几周气候预报的预测范围放眼于未来几年对于能找到他们所需要的信息作品链接 bmj.com/infographics 源交易商来说了解未来几个 02 Nadieh Bremer代表作月的风况则最为重要基于复品奥运旋翼自1896年以杂的气候模型该项目将尝试来奥运会金牌获得者信息一览用新的方法预测未来几个月的风况为风能基地提供帮助作品链接 6 明日之星奖 Rising Star Will StahlTimmins 英国和Nadieh Bremer 荷兰 01 Will Stahl-Timmins代中国的经济增长在过去的 20年中吸引了全世界的目光表作品英国医学杂志信息图表南华早报的作品用信息图表相结合的形式记录了过去20 年中国各省的经济增长态势通过交互式的数据可视并将全国分为了8个经济区域进化作者展现了自1896年第行了展示一届奥运会和当前的奥运纪 5 最佳个人奖录以来按照项目性别和 Outstanding Individual 国家等顺序总共5100名奥运金 106

大数据金融资讯牌获得者的信息你可以通过多数情况下收入分化与种族 8 最佳非英语类作底部的时间线任意查询说不隔离相关暗指城市规划背品 Best Non-English

见下图荣获 Scherabon 美国学生奖银奖成为这项全球性数据可视化比赛开始五年来第一个获奖的中国大陆作品恭喜!

paris/ 评选方式2016年信息之美奖邀请了包括Google 数据编辑西蒙罗杰斯 Simon Rogers 美国迈阿密大学传播学院视觉新闻学的教授艾尔博尔特卡罗 Alberto

113 大数据金融资讯牌获得者的信息你可以通过多数情况下收入分化与种族 8 最佳非英语类作底部的时间线任意查询说不隔离相关暗指城市规划背品 Best Non-English 定就会找到一个有趣的故事后的政治操控作品链接 Language BIG 作者作品链接 Terre Urbaine 法国需要特别提一下的是南 github.io/olympicfeathers/ 7 学生奖 Student 京艺术学院设计学院的叶培蕾 Awards 洛杉矶及芝加哥同学凭借信息图作品垃圾分的收入差距作者 Herwig 类回收图表见下图荣获 Scherabon 美国学生奖银奖成为这项全球性数据可视化比赛开始五年来第一个获奖的中国大陆作品恭喜! 作品通过视频等动态设计展现了整个地球在漫长岁月中的城市化过程作品链接 paris/ 评选方式2016年信息之美奖邀请了包括Google 数据编辑西蒙罗杰斯 Simon Rogers 美国迈阿密大学传播学院视觉新闻学的教授艾尔博尔特卡罗 Alberto Cairo 数据可视化专家安迪柯克 Andy Kirk 2015 年信息之美奖最佳信息之美奖和数据可视化项目金奖获得者斯蒂芬妮波萨维奇 Stefanie Posavec 在内的30多位数据可视化专家作者通过两张大图将洛担任评审同时网站的访问用杉矶和芝加哥的收入差距可视户也可参与投票决定最后的获化图中两座城市的矩形建筑奖者物高度对应了每个区域的收入水平清晰地展现了现代城市来源 me/n/ 中的贫富差距文中指出大 107

114 大数据金融信息剪辑导读大数据蕴藏着丰富的信息和价值, 如何处理好大数据并发掘其潜藏的商业价值, 这是大数据时代的新挑战我们将为大家提供与大数据相关的最新技术和资讯一篇对大数据深度思考的文章, 让你认识并读懂大数据在写这篇文章之前, 我发现身边很多 IT 人对于这些热门的新技术新趋势往往趋之若鹜却又很难说的透彻, 如果你问他大数据和你有什么关系? 估计很少能说出一二三来究其原因, 一是因为大家对新技术有着相同的原始渴求, 至少知其然在聊天时不会显得很土鳖 ; 二是在工作和生活环境中真正能参与实践大数据的案例实在太少了, 所以大家没有必要花时间去知其所以然我希望有些不一样, 所以对该如何去认识大数据进行了一番思索, 包括查阅了资料, 翻阅了最新的专业书籍, 但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论, 我很真诚的希望进入事物探寻本质如果你说大数据就是数据大, 或者侃侃而谈 4 个 V, 也许很有深度的谈到 BI 或预测的价值, 又或者拿 Google 和 Amazon 举例, 技术流可能会聊起 Hadoop 和 Cloud Computing, 不管对错, 只是无法勾勒对大数据的整体认识, 不说是片面, 但至少有些管窥蠡测隔衣瘙痒了也许, 解构是最好的方法怎样结构大数据? 首先, 我认为大数据就是互联网发展到现今阶段的一种表象或特征而已, 没有必要神话它或对它保持敬畏之心, 在以云计算为代表的技术创新大幕的衬托下, 这些原本很难收集和使用的数据开始容易被利用起来了, 通过各行各业的不断创新, 大数据会逐步为人类创造更多的价值其次, 想要系统的认知大数据, 必须要全面而细致的分解它, 我着手从三个层面来展开 : 第一层面是理论, 理论是认知的必经途径, 也是被广泛认同和传播的基线我会从大数据的特征定义理解行业对大数据的整体描绘和定性 ; 从对大数据价值的探讨来深入解析大数据的珍贵所在 ; 从对大数据的现在和未来去洞悉大数据的发展趋势 ; 从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈第二层面是技术, 技术是大数据价值体现的手段和前进的基石我将分别从云计算分布式处理技术存储技术和感知技术的发展来说明大数据从采集处理存储到形成结果的整个过程第三层面是实践, 实践是大数据的最终价值体现我将分别从互联网的大数据, 政府的大 108

115 大数据金融知识数据, 企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图和大数据相关的理论 1 特征定义最早提出大数据时代到来的是麦肯锡 : 数据, 已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来业界 (IBM 最早定义 ) 将大数据的特征归纳为 4 个 V ( 量 Volume, 多样 Variety, 价值 Value, 速 Velocity), 或者说特点有四个层面 : 第一, 数据体量巨大大数据的起始计量单位至少是 P(1000 个 T) E(100 万个 T) 或 Z(10 亿个 T); 第二, 数据类型繁多比如, 网络日志视频图片地理位置信息等等第三, 价值密度低, 商业价值高第四, 处理速度快最后这一点也是和传统的数据挖掘技术有着本质的不同其实这些 V 并不能真正说清楚大数据的所有特征, 下面这张图对大数据的一些相关特性做出了有效的说明古语云 : 三分技术, 七分数据, 得数据者得天下先不论谁说的, 但是这句话的正确性已经不用去论证了维克托迈尔 - 舍恩伯格在大数据时代一书中举了百般例证, 都是为了说明一个道理 : 在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值书中, 作者提及最多的是 Google 如何利用人们的搜索记录挖掘数据二次利用价值, 比如预测某地流感爆发的趋势 ;Amazon 如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐, 以此有效提升销售量 ;Farecast 如何利用过去十年所有的航线机票价格打折数据, 来预测用户购买机票的时机是否合适那么, 什么是大数据思维? 维克托迈尔 - 舍恩伯格认为,1- 需要全部数据样本而不是抽样 ;2- 关注效率而不是精确度 ;3- 关注相关性而不是因果关系阿里巴巴的王坚对于大数据也有一些独特的见解, 比如, 今天的数据不是大, 真正有意思的是数据变得在线了, 这个恰恰是互联网的特点非互联网时期的产品, 功能一定是它的价值, 今天互联网的产品, 数据一定是它的价值你千万不要想着拿数据去改进一个业务, 这不是大数据你一定是去做了一件以前做不了的事情特别是最后一点, 我是非常认同的, 大数据的真正价值在于创造, 在于填补无数个还未实现过的空白有人把数据比喻为蕴藏能量的煤矿煤炭按照性质有焦煤无烟煤肥煤贫煤等分类, 而露天煤矿深山煤矿的挖掘成本又不一样与此类似, 大数据并不在大, 而在于有用价值含量挖掘成本比数量更为重要 2 价值探讨大数据是什么? 投资者眼里是金光闪闪的两个字 : 资产比如,Facebook 上市时, 评估机构评定的有效资产中大部分都是其社交网站上的数据如果把大数据比作一种产业, 那么这种产业实现盈利的关键, 在于提高对数据的加工能力, 通过加工实现数据的增值 Target 超市以 20 多种怀孕期间孕妇可能会购买的商品为基础, 将所有用户的购买记录作为数据来源, 通过构建模型分析购买者的行为相关性, 能准确的推断出孕妇的具体临盆时间, 这样 109

116 大数据金融信息剪辑 Target 的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷 Target 的例子是一个很典型的案例, 这样印证了维克托迈尔 - 舍恩伯格提过的一个很有指导意义的观点 : 通过找出一个关联物并监控它, 就可以预测未来 Target 通过监测购买者购买商品的时间和品种来准确预测顾客的孕期, 这就是对数据的二次利用的典型案例如果, 我们通过采集驾驶员手机的 GPS 数据, 就可以分析出当前哪些道路正在堵车, 并可以及时发布道路交通提醒 ; 通过采集汽车的 GPS 位置数据, 就可以分析城市的哪些区域停车较多, 这也代表该区域有着较为活跃的人群, 这些分析数据适合卖给广告投放商不管大数据的核心价值是不是预测, 但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉从大数据的价值链条来分析, 存在三种模式 : 手握大数据, 但是没有利用好 ; 比较典型的是金融机构, 电信行业, 政府机构等没有数据, 但是知道如何帮助有数据的人利用它 ; 比较典型的是 IT 咨询和服务企业, 比如, 埃森哲,IBM,Oracle 等既有数据, 又有大数据思维 ; 比较典型的是 Google,Amazon,Mastercard 等未来在大数据领域最具有价值的是两种事物 : 拥有大数据思维的人, 这种人可以将大数据的潜在价值转化为实际利益 ; 还未有被大数据触及过的业务领域这些是还未被挖掘的油井, 金矿, 是所谓的蓝海 Wal-Mart 作为零售行业的巨头, 他们的分析人员会对每个阶段的销售记录进行了全面的分析, 有一次他们无意中发现虽不相关但很有价值的数据, 在美国的飓风来临季节, 超市的蛋挞和抵御飓风物品竟然销量都有大幅增加, 于是他们做了一个明智决策, 就是将蛋挞的销售位置移到了飓风物品销售区域旁边, 看起来是为了方便用户挑选, 但是没有想到蛋挞的销量因此又提高了很多还有一个有趣的例子,1948 年辽沈战役期间, 司令员林彪要求每天要进行例常的每日军情汇报, 由值班参谋读出下属各个纵队师团用电台报告的当日战况和缴获情况那几乎是重复着千篇一律枯燥无味的数据 : 每支部队歼敌多少俘虏多少 ; 缴获的火炮车辆多少, 枪支物资多少有一天, 参谋照例汇报当日的战况, 林彪突然打断他 : 刚才念的在胡家窝棚那个战斗的缴获, 你们听到了吗? 大家都很茫然, 因为如此战斗每天都有几十起, 不都是差不多一模一样的枯燥数字吗? 林彪扫视一周, 见无人回答, 便接连问了三句 : 为什么那里缴获的短枪与长枪的比例比其它战斗略高? 为什么那里缴获和击毁的小车与大车的比例比其它战斗略高? 为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高? 林彪司令员大步走向挂满军用地图的墙壁, 指着地图上的那个点说 : 我猜想, 不, 我断定! 敌人的指挥所就在这里! 果然, 部队很快就抓住了敌方的指挥官廖耀湘, 并取得这场重要战役的胜利这些例子真实的反映在各行各业, 探求数据价值取决于把握数据的人, 关键是人的数据思维 ; 与其说是大数据创造了价值, 不如说是大数据思维触发了新的价值增长现在和未来我们先看看大数据在当下有怎样的杰出表 110

117 大数据金融知识现 : 大数据帮助政府实现市场经济调控公共卫生安全防范灾难预警社会舆论监督 ; 大数据帮助城市预防犯罪, 实现智慧交通, 提升紧急应急能力 ; 大数据帮助医疗机构建立患者的疾病风险跟踪机制, 帮助医药企业提升药品的临床使用效果, 帮助艾滋病研究机构为患者提供定制的药物 ; 大数据帮助航空公司节省运营成本, 帮助电信企业实现售后服务质量提升, 帮助保险企业识别欺诈骗保行为, 帮助快递公司监测分析运输车辆的故障险情以提前预警维修, 帮助电力公司有效识别预警即将发生故障的设备 ; 大数据帮助电商公司向用户推荐商品和服务, 帮助旅游网站为旅游者提供心仪的旅游路线, 帮助二手市场的买卖双方找到最合适的交易目标, 帮助用户找到最合适的商品购买时期商家和最优惠价格 ; 大数据帮助企业提升营销的针对性, 降低物流和库存的成本, 减少投资的风险, 以及帮助企业提升广告投放精准度 ; 大数据帮助娱乐行业预测歌手, 歌曲, 电影, 电视剧的受欢迎程度, 并为投资者分析评估拍一部电影需要投入多少钱才最合适, 否则就有可能收不回成本 ; 大数据帮助社交网站提供更准确的好友推荐, 为用户提供更精准的企业招聘信息, 向用户推荐可能喜欢的游戏以及适合购买的商品其实, 这些还远远不够, 未来大数据的身影应该无处不在, 就算无法准确预测大数据终会将人类社会带往到哪种最终形态, 但我相信只要发展脚步在继续, 因大数据而产生的变革浪潮将很快淹没地球的每一个角落比如,Amazon 的最终期望是 : 最成功的书籍推荐应该只有一本书, 就是用户要买的下一本书 Google 也希望当用户在搜索时, 最好的体验是搜索结果只包含用户所需要的内容, 而这并不需要用户给予 Google 太多的提示而当物联网发展到达一定规模时, 借助条形码二维码 RFID 等能够唯一标识产品, 传感器可穿戴设备智能感知视频采集增强现实等技术可实现实时的信息采集和分析, 这些数据能够支撑智慧城市, 智慧交通, 智慧能源, 智慧医疗, 智慧环保的理念需要, 这些都所谓的智慧将是大数据的采集数据来源和服务范围未来的大数据除了将更好的解决社会问题, 商业营销问题, 科学技术问题, 还有一个可预见的趋势是以人为本的大数据方针人才是地球的主宰, 大部分的数据都与人类有关, 要通过大数据解决人的问题比如, 建立个人的数据中心, 将每个人的日常生活习惯, 身体体征, 社会网络, 知识能力, 爱好性情, 疾病嗜好, 情绪波动换言之就是记录人从出生那一刻起的每一分每一秒, 将除了思维外的一切都储存下来, 这些数据可以被充分的利用 : 医疗机构将实时的监测用户的身体健康状况 ; 教育机构更有针对的制定用户喜欢的教育培训计划 ; 服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务 ; 社交网络能为你提供合适的交友对象, 并为志同道合的人群组织各种聚会活动 ; 政府能在用户的心理健康出现问题时有效 111

118 大数据金融信息剪辑的干预, 防范自杀, 刑事案件的发生 ; 金融机构能帮助用户进行有效的理财管理, 为用户的资金提供更有效的使用建议和规划 ; 道路交通汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排 ; 当然, 上面的一切看起来都很美好, 但是否是以牺牲了用户的自由为前提呢? 只能说当新鲜事物带来了革新的同时也同样带来了病菌比如, 在手机未普及前, 大家喜欢聚在一起聊天, 自从手机普及后特别是有了互联网, 大家不用聚在一起也可以随时随地的聊天, 只是病菌滋生了另外一种情形, 大家慢慢习惯了和手机共渡时光, 人与人之间情感交流仿佛永远隔着一张网大数据隐私你或许并不敏感, 当你在不同的网站上注册了个人信息后, 可能这些信息已经被扩散出去了, 当你莫名其妙的接到各种邮件, 电话, 短信的滋扰时, 你不会想到自己的电话号码, 邮箱, 生日, 购买记录, 收入水平, 家庭住址, 亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了更可怕的是, 这些信息你永远无法删除, 它们永远存在于互联网的某些你不知道的角落除非你更换掉自己的所有信息, 但是这代价太大了用户隐私问题一直是大数据应用难以绕开的一个问题, 如被央视曝光过的分众无线罗维邓白氏以及网易邮箱都涉及侵犯用户隐私目前, 中国并没有专门的法律法规来界定用户隐私, 处理相关问题时多采用其他相关法规条例来解释但随着民众隐私意识的日益增强, 合法合规地获取数据分析数据和应用数据, 是进行大数据分析时必须遵循的原则说到隐私被侵犯, 爱德华? 斯诺登应该占据一席之地, 这位前美国中央情报局 (CIA) 雇员一手引爆了美国棱镜计划 (PRISM) 的内幕消息棱镜项目是一项由美国国家安全局 (NSA) 自 2007 年起开始实施的绝密电子监听计划, 年耗资近 2000 亿美元, 用于监听全美电话通话记录, 据称还可以使情报人员通过后门进入 9 家主要科技公司的服务器, 包括微软雅虎谷歌 Facebook PalTalk 美国在线 Skype YouTube 苹果这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心再看看我们身边, 当微博, 微信,QQ 空间这些社交平台肆意的吞噬着数亿用户的各种信息时, 你就不要指望你还有隐私权了, 就算你在某个地方删除了, 但也许这些信息已经被其他人转载或保存了, 更有可能已经被百度或 Google 存为快照, 早就提供给任意用户搜索了因此在大数据的背景下, 很多人都在积极的抵制无底线的数字化, 这种大数据和个体之间的博弈还会一直继续下去专家给予了我们一些如何有效保护大数据背景下隐私权的建议 : 减少信息的数字化 ; 隐私权立法 ; 数字隐私权基础设施 ( 类似 DRM 数字版权管理 ); 人类改变认知 ( 接受忽略过去 ); 创造良性的信息生态 ; 语境化 112

119 大数据金融知识但是这些都很难立即见效或者有实质性的改善比如, 现在有一种职业叫删帖人, 专门负责帮人到各大网站删帖, 删除评论其实这些人就是通过黑客技术侵入各大网站, 破获管理员的密码然后进行手工定向删除只不过他们保护的不是客户的隐私, 而大多是丑闻还有一种职业叫人肉专家, 他们负责从互联网上找到一个与他们根本就无关系用户的任意信息这是很可怕的事情, 也就是说, 如果有人想找到你, 只需要两个条件 :1- 你上过网, 留下过痕迹 ;2- 你的亲朋好友或仅仅是认识你的人上过网, 留下过你的痕迹这两个条件满足其一, 人肉专家就可以很轻松的找到你, 可能还知道你现在正在某个餐厅和谁一起共进晚餐当很多互联网企业意识到隐私对于用户的重要性时, 为了继续得到用户的信任, 他们采取了很多办法, 比如 google 承诺仅保留用户的搜索记录 9 个月, 浏览器厂商提供了无痕冲浪模式, 社交网站拒绝公共搜索引擎的爬虫进入, 并将提供出去的数据全部采取匿名方式处理等在这种复杂的环境里面, 很多人依然没有建立对于信息隐私的保护意识, 让自己一直处于被滋扰, 被精心设计, 被利用, 被监视的处境中可是, 我们能做的几乎微乎其微, 因为个人隐私数据已经无法由我们自己掌控了, 就像一首诗里说到的 : 如果你现在继续麻木, 那就别指望这麻木能抵挡得住被扒光那一刻的惊恐和绝望和大数据相关的技术云技术大数据常和云计算联系到一起, 因为实时的大型数据集分析需要分布式处理框架来向数十数百或甚至数万的电脑分配工作可以说, 云计算充当了工业革命时期的发动机的角色, 而大数据则是电云计算思想的起源是麦卡锡在上世纪 60 年代提出的 : 把计算能力作为一种像水和电一样的公用事业提供给用户如今, 在 Google Amazon Facebook 等一批互联网企业引领下, 一种行之有效的模式出现了 : 云计算提供基础架构平台, 大数据应用运行在这个平台上业内是这么形容两者的关系 : 没有大数据的信息积淀, 则云计算的计算能力再强大, 也难以找到用武之地 ; 没有云计算的处理能力, 则大数据的信息积淀再丰富, 也终究只是镜花水月那么大数据到底需要哪些云计算技术呢? 这里暂且列举一些, 比如虚拟化技术, 分布式处理技术, 海量数据的存储和管理技术, NoSQL 实时流数据处理智能分析技术( 类似模式识别以及自然语言理解 ) 等云计算和大数据之间的关系可以用下面的一张图来说明, 两者之间结合后会产生如下效应 : 可以提供更多基于海量业务数据的创新型服务 ; 通过云计算技术的不断发展降低大数据业务的创新成本如果将云计算与大数据进行一些比较, 最明显的区分在两个方面 : 第一, 在概念上两者有所不同, 云计算改变了 IT, 而大数据则改变了业务然而大数据必须有云作为基础架构, 才能得以顺畅运营第二, 大数据和云计算的目标受众不同, 云计算是 CIO 等关心的技术层, 是一个进阶的 IT 解决方案而大数据是 CEO 关注的是业务层的产品, 而大数据的决策者是业务层 113

120 大数据金融信息剪辑分布式处理技术分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来, 在控制系统的统一管理控制下, 协调地完成信息处理任务这就是分布式处理系统的定义以 Hadoop(Yahoo) 为例进行说明, Hadoop 是一个实现了 MapReduce 模式的能够对大量数据进行分布式处理的软件框架, 是以一种可靠高效可伸缩的方式进行处理的而 MapReduce 是 Google 提出的一种云计算的核心计算模式, 是一种分布式运算技术, 也是简化的分布式编程模式,MapReduce 模式的主要思想是将自动分割要执行的问题 ( 例如程序 ) 拆解成 map( 映射 ) 和 reduce( 化简 ) 的方式, 在数据被分割后通过 Map 函数的程序将数据映射成不同的区块, 分配给计算机机群处理达到分布式运算的效果, 在通过 Reduce 函数的程序将结果汇整, 从而输出开发者需要的结果再来看看 Hadoop 的特性, 第一, 它是可靠的, 因为它假设计算元素和存储会失败, 因此它维护多个工作数据副本, 确保能够针对失败的节点重新分布处理其次,Hadoop 是高效的, 因为它以并行的方式工作, 通过并行处理加快处理速度 Hadoop 还是可伸缩的, 能够处理 PB 级数据此外,Hadoop 依赖于社区服务器, 因此它的成本比较低, 任何人都可以使用你也可以这么理解 Hadoop 的构成, Hadoop=HDFS( 文件系统, 数据存储技术相关 )+HBase( 数据库 )+MapReduce( 数据处理 )+ Others Hadoop 用到的一些技术有 : HDFS: Hadoop 分布式文件系统 (Distributed File System) - HDFS (HadoopDistributed File System) MapReduce: 并行计算框架 HBase: 类似 Google BigTable 的分布式 NoSQL 列数据库 Hive: 数据仓库工具, 由 Facebook 贡献 Zookeeper: 分布式锁设施, 提供类似 Google Chubby 的功能, 由 Facebook 贡献 Avro: 新的数据序列化格式与传输工具, 将逐步取代 Hadoop 原有的 IPC 机制 Pig: 大数据分析平台, 为用户提供多种接口 Ambari:Hadoop 管理工具, 可以快捷的监控部署管理集群 Sqoop: 用于在 Hadoop 与传统的数据库间进行数据的传递说了这么多, 举个实际的例子, 虽然这个例子有些陈旧, 但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制 : 淘宝大数据如上图所示, 淘宝的海量数据产品技术架构分为五个层次, 从上至下来看它们分别是 : 数据源, 计算层, 存储层, 查询层和产品层数据来源层存放着淘宝各店的交易数据在数据源层产生的数据, 通过 DataX, DbSync 和 Timetunel 准实时的传输到下面第 2 点所述的云梯计算层在这个计算层内, 淘宝采用的是 Hadoop 集群, 这个集群, 我们暂且称之为云梯, 是计算层的主要组成部分在云梯上, 系统每天会对数据产品进行不同的 MapReduce 计算 114

121 大数据金融知识存储层在这一层, 淘宝采用了两个东西, 一个使 MyFox, 一个是 Prom MyFox 是基于 MySQL 的分布式关系型数据库的集群,Prom 是基于 Hadoop Hbase 技术的一个 NoSQL 的存储集群查询层在这一层中,Glider 是以 HTTP 协议对外提供 restful 方式的接口数据产品通过一个唯一的 URL 来获取到它想要的数据同时, 数据查询即是通过 MyFox 来查询的最后一层是产品层, 这个就不用解释了存储技术大数据可以抽象的分为大数据存储和大数据分析, 这两者的关系是 : 大数据存储的目的是支撑大数据分析到目前为止, 还是两种截然不同的计算机技术领域 : 大数据存储致力于研发可以扩展至 PB 甚至 EB 级别的数据存储平台 ; 大数据分析关注在最短时间内处理大量不同类型的数据集提到存储, 有一个着名的摩尔定律相信大家都听过 :18 个月集成电路的复杂性就增加一倍所以, 存储器的成本大约每个月就下降一半成本的不断下降也造就了大数据的可存储性比如,Google 大约管理着超过 50 万台服务器和 100 万块硬盘, 而且 Google 还在不断的扩大计算能力和存储能力, 其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的, 这大大降低了其服务成本, 因此可以将更多的资金投入到技术的研发当中以 Amazon 举例,Amazon S3 是一种面向 Internet 的存储服务该服务旨在让开发人员能更轻松的进行网络规模计算 Amazon S3 提供一个简明的 Web 服务界面, 用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据此服务让所有开发人员都能访问同一个具备高扩展性可靠性安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络再看看 S3 的设计指标 : 在特定年度内为数据元提供 % 的耐久性和 99.99% 的可用性, 并能够承受两个设施中的数据同时丢失 S3 很成功也确实卓有成效,S3 云的存储对象已达到万亿级别, 而且性能表现相当良好 S3 云已经拥万亿跨地域存储对象, 同时 AWS 的对象执行请求也达到百万的峰值数量目前全球范围内已经有数以十万计的企业在通过 AWS 运行自己的全部或者部分日常业务这些企业用户遍布 190 多个国家, 几乎世界上的每个角落都有 Amazon 用户的身影感知技术大数据的采集和感知技术的发展是紧密联系的以传感器技术, 指纹识别技术,RFID 技术, 坐标定位技术等为基础的感知能力提升同样是物联网发展的基石全世界的工业设备汽车电表上有着无数的数码传感器, 随时测量和传递着有关位置运动震动温度湿度乃至空气中化学物质的变化, 都会产生海量的数据信息而随着智能手机的普及, 感知技术可谓迎来了发展的高峰期, 除了地理位置信息被广泛的应用外, 一些新的感知手段也开始登上舞台, 比如, 最新的 iphone 5S 在 home 键内嵌指纹传感器, 新型手机可通过呼气直接检测燃烧脂肪量, 用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品, 微软正在研发可感知用户当前心情智能手机技术, 谷歌眼镜 InSight 新技术可通过衣着进行人物识别除此之外, 还有很多与感知相关的技术革 115

122 大数据金融信息剪辑新让我们耳目一新 : 比如, 牙齿传感器实时监控口腔活动及饮食状况, 婴儿穿戴设备可用大数据去养育宝宝,Intel 正研发 3D 笔记本摄像头可追踪眼球读懂情绪, 日本公司开发新型可监控用户心率的纺织材料, 业界正在尝试将生物测定技术引入支付领域等其实, 这些感知被逐渐捕获的过程就是就世界被数据化的过程, 一旦世界被完全数据化了, 那么世界的本质也就是信息了就像一句名言所说, 人类以前延续的是文明, 现在传承的是信息大数据的实践互联网的大数据互联网上的数据每年增长 50%, 每两年便将翻一番, 而目前世界上 90% 以上的数据是最近几年才产生的据 IDC 预测, 到 2020 年全球将总共拥有 35ZB 的数据量互联网是大数据发展的前哨阵地, 随着 WEB2.0 时代的发展, 人们似乎都习惯了将自己的生活通过网络进行数据化, 方便分享以及记录并回忆互联网上的大数据很难清晰的界定分类界限, 我们先看看 BAT 的大数据 : 百度拥有两种类型的大数据 : 用户搜索表征的需求数据 ; 爬虫和阿拉丁获取的公共 web 数据搜索巨头百度围绕数据而生它对网页数据的爬取网页内容的组织和解析, 通过语义分析对搜索需求的精准理解进而从海量数据中找准结果, 以及精准的搜索引擎关键字广告, 实质上就是一个数据的获取组织分析和挖掘的过程搜索引擎在大数据时代面临的挑战有 : 更多的暗网数据 ; 更多的 WEB 化但是没有结构化的数据 ; 更多的 WEB 化结构化但是封闭的数据阿里巴巴拥有交易数据和信用数据这两种数据更容易变现, 挖掘出商业价值除此之外阿里巴巴还通过投资等方式掌握了部分社交数据移动数据如微博和高德腾讯拥有用户关系数据和基于此产生的社交数据这些数据可以分析人们的生活和行为, 从里面挖掘出政治社会文化商业健康等领域的信息, 甚至预测未来在信息技术更为发达的美国, 除了行业知名的类似 Google,Facebook 外, 已经涌现了很多大数据类型的公司, 它们专门经营数据产品, 比如 : Metamarkets: 这家公司对 Twitter 支付签到和一些与互联网相关的问题进行了分析, 为客户提供了很好的数据分析支持 Tableau: 他们的精力主要集中于将海量数据以可视化的方式展现出来 Tableau 为数字媒体提供了一个新的展示数据的方式他们提供了一个免费工具, 任何人在没有编程知识背景的情况下都能制造出数据专用图表这个软件还能对数据进行分析, 并提供有价值的建议 ParAccel: 他们向美国执法机构提供了数据分析, 比如对个有犯罪前科的人进行跟踪, 从而向执法机构提供了参考性较高的犯罪预测他们是犯罪的预言者 QlikTech:QlikTech 旗下的 Qlikview 是一个商业智能领域的自主服务工具, 能够应用于科学研究和艺术等领域为了帮助开发者对这些数据进行分析,QlikTech 提供了对原始数据进行可视化处理等功能的工具 GoodData:GoodData 希望帮助客户从数据中挖掘财富这家创业公司主要面向商业用户和 IT 企业高管, 提供数据存储性能报告数据分析等工具 TellApart:TellApart 和电商公司进行合 116

123 大数据金融知识作, 他们会根据用户的浏览行为等数据进行分析, 通过锁定潜在买家方式提高电商企业的收入 DataSift:DataSift 主要收集并分析社交网络媒体上的数据, 并帮助品牌公司掌握突发新闻的舆论点, 并制定有针对性的营销方案这家公司还和 Twitter 有合作协议, 使得自己变成了行业中为数不多可以分析早期 tweet 的创业公司 Datahero: 公司的目标是将复杂的数据变得更加简单明了, 方便普通人去理解和想象举了很多例子, 这里简要归纳一下, 在互联网大数据的典型代表性包括 : 用户行为数据 ( 精准广告投放内容推荐行为习惯和喜好分析产品优化等 ) 用户消费数据 ( 精准营销信用记录分析活动促销理财等 ) 用户地理位置数据 (O2O 推广, 商家推荐, 交友推荐等 ) 互联网金融数据 (P2P, 小额贷款, 支付, 信用, 供应链金融等 ) 用户社交等 UGC 数据 ( 趋势分析流行元素分析受欢迎程度分析舆论监控分析社会问题分析等 ) 政府的大数据近期, 奥巴马政府宣布投资 2 亿美元拉动大数据相关产业发展, 将大数据战略上升为国家意志奥巴马政府将数据定义为未来的新石油, 并表示一个国家拥有数据的规模活性及解释运用的能力将成为综合国力的重要组成部分, 未来, 对数据的占有和控制甚至将成为陆权海权空权之外的另一种国家核心资产在国内, 政府各个部门都握有构成社会基础的原始数据, 比如, 气象数据, 金融数据, 信用数据, 电力数据, 煤气数据, 自来水数据, 道路交通数据, 客运数据, 安全刑事案件数据, 住房数据, 海关数据, 出入境数据, 旅游数据, 医疗数据, 教育数据, 环保数据等等这些数据在每个政府部门里面看起来是单一的, 静态的但是, 如果政府可以将这些数据关联起来, 并对这些数据进行有效的关联分析和统一管理, 这些数据必定将获得新生, 其价值是无法估量的具体来说, 现在城市都在走向智能和智慧, 比如, 智能电网智慧交通智慧医疗智慧环保智慧城市, 这些都依托于大数据, 可以说大数据是智慧的核心能源从国内整体投资规模来看, 到 2012 年底全国开建智慧城市的城市数超过 180 个, 通信网络和数据平台等基础设施建设投资规模接近 5000 亿元十二五期间智慧城市建设拉动的设备投资规模将达 1 万亿元人民币大数据为智慧城市的各个领域提供决策支持在城市规划方面, 通过对城市地理气象等自然信息和经济社会文化人口等人文社会信息的挖掘, 可以为城市规划提供决策, 强化城市管理服务的科学性和前瞻性在交通管理方面, 通过对道路交通信息的实时挖掘, 能有效缓解交通拥堵, 并快速响应突发状况, 为城市交通的良性运转提供科学的决策依据在舆情监控方面, 通过网络关键词搜索及语义智能分析, 能提高舆情分析的及时性全面性, 全面掌握社情民意, 提高公共服务能力, 应对网络突发的公共事件, 打击违法犯罪在安防与防灾领域, 通过大数据的挖掘, 可以及时发现人为或自然灾害恐怖事件, 提高应急处理能力和安全防范能力 117

124 大数据金融信息剪辑另外, 作为国家的管理者, 政府应该有勇气将手中的数据逐步开放, 供给更多有能力的机构组织或个人来分析并加以利用, 以加速造福人类比如, 美国政府就筹建了一个 data.gov 网站, 这是奥巴马任期内的一个重要举措 : 要求政府公开透明, 而核心就是实现政府机构的数据公开截止目前, 已经开放了有个 datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies; 87 galleries;295 Government APIs 企业的大数据企业的 CXO 们最关注的还是报表曲线的背后能有怎样的信息, 他该做怎样的决策, 其实这一切都需要通过数据来传递和支撑在理想的世界中, 大数据是巨大的杠杆, 可以改变公司的影响力, 带来竞争差异节省金钱增加利润愉悦买家奖赏忠诚用户将潜在客户转化为客户增加吸引力打败竞争对手开拓用户群并创造市场那么, 哪些传统企业最需要大数据服务呢? 抛砖引玉, 先举几个例子 :1) 对大量消费者提供产品或服务的企业 ( 精准营销 );2) 做小而美模式的中长尾企业 ( 服务转型 );3) 面临互联网压力之下必须转型的传统企业 ( 生死存亡 ) 对于企业的大数据, 还有一种预测 : 随着数据逐渐成为企业的一种资产, 数据产业会向传统企业的供应链模式发展, 最终形成数据供应链这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据在互联互通的互联网时代, 单一企业的内部数据与整个互联网数据比较起来只是沧海一粟 ;2) 能提供包括数据供应数据整合与加工数据应用等多环节服务的公司会有明显的综合竞争优势对于提供大数据服务的企业来说, 他们等待的是合作机会, 就像微软史密斯说的 : 给我提供一些数据, 我就能做一些改变如果给我提供所有数据, 我就能拯救世界然而, 一直做企业服务的巨头将优势不在, 不得不眼看新兴互联网企业加入战局, 开启残酷竞争模式为何会出现这种局面? 从 IT 产业的发展来看, 第一代 IT 巨头大多是 ToB 的, 比如 IBM Microsoft Oracle SAP HP 这类传统 IT 企业 ; 第二代 IT 巨头大多是 ToC 的, 比如 Yahoo Google Amazon Facebook 这类互联网企业大数据到来前, 这两类公司彼此之间基本是井水不犯河水 ; 但在当前这个大数据时代, 这两类公司已经开始直接竞争比如 Amazon 已经开始提供云模式的数据仓库服务, 直接抢占 IBM Oracle 的市场这个现象出现的本质原因是 : 在互联网巨头的带动下, 传统 IT 巨头的客户普遍开始从事电子商务业务, 正是由于客户进入了互联网, 所以传统 IT 巨头们不情愿地被拖入了互联网领域如果他们不进入互联网, 他们业务必将萎缩在进入互联网后, 他们又必须将云技术, 大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业以 IBM 举例, 上一个十年, 他们抛弃了 PC, 成功转向了软件和服务, 而这次将远离服务与咨询, 更多地专注于因大数据分析软件而带来的全新业务增长点 IBM 执行总裁罗睿兰认为, 数据将成为一切行业当中决定胜负的根本因素, 最终数据将成为人类至关重要的自然资源 IBM 积极的提出了大数据平台架构该平台的四大核心能力包括 Hadoop 系统流计算 (StreamComputing) 数据仓库 (Data Warehouse) 和信息整合与治理 118

125 大数据金融知识 (Information Integration and Governance) IBM 大数据另外一家亟待通过云和大数据战略而复苏的巨头公司 HP 也推出了自己的产品 : HAVEn, 一个可以自由扩展伸缩的大数据解决方案这个解决方案由 HP Autonomy HP Vertica HP ArcSight 和惠普运营管理 (HP OperationsManagement) 四大技术组成还支持 Hadoop 这样通用的技术 HAVEn 不是一个软件平台, 而是一个生态环境四大组成部分满足不同的应用场景需要,Autonomy 解决音视频识别的重要解决方案 ;Vertica 解决数据处理的速度和效率的方案 ;ArcSight 解决机器的记录信息处理, 帮助企业获得更高安全级别的管理 ; 运营管理解决的不仅仅是外部数据的处理, 而是包括了 IT 基础设施产生的数据个人的大数据个人的大数据这个概念很少有人提及, 简单来说, 就是与个人相关联的各种有价值数据信息被有效采集后, 可由本人授权提供第三方进行处理和使用, 并获得第三方提供的数据服务举个例子来说明会更清晰一些 : 未来, 每个用户可以在互联网上注册个人的数据中心, 以存储个人的大数据信息用户可确定哪些个人数据可被采集, 并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据, 比如, 牙齿监控数据, 心率数据, 体温数据, 视力数据, 记忆能力, 地理位置信息, 社会关系数据, 运动数据, 饮食数据, 购物数据等等用户可以将其中的牙齿监测数据授权给 XX 牙科诊所使用, 由他们监控和使用这些数据, 进而为用户制定有效的牙齿防治和维护计划 ; 也可以将个人的运动数据授权提供给某运动健身机构, 由他们监测自己的身体运动机能, 并有针对的制定和调整个人的运动计划 ; 还可以将个人的消费数据授权给金融理财机构, 由他们帮你制定合理的理财计划并对收益进行预测当然, 其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的, 比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态, 以预防自杀和犯罪的发生以个人为中心的大数据有这么一些特性 : 数据仅留存在个人中心, 其它第三方机构只被授权使用 ( 数据有一定的使用期限 ), 且必须接受用后即焚的监管采集个人数据应该明确分类, 除了国家立法明确要求接受监控的数据外, 其它类型数据都由用户自己决定是否被采集数据的使用将只能由用户进行授权, 数据中心可帮助监控个人数据的整个生命周期展望过于美好, 也许实现个人数据中心将遥遥无期, 也许这还不是解决个人数据隐私的最好方法, 也许业界对大数据的无限渴求会阻止数据个人中心的实现, 但是随着数据越来越多, 在缺乏监管之后, 必然会有一场激烈的博弈 : 到底是数据重要还是隐私重要 ; 是以商业为中心还是以个人为中心来源 : 119

126 大数据金融信息剪辑找不到数据?21 个你应该知道的大数据资源数据无处不在并且很多都是免费的在开始大数据分析之前, 公司不一定要建立自己的大规模数据仓库企业和政府将大量信息投入到公共领域的举措, 使得每个人都能够获得海量数据迄今为止, 从大蓝筹企业到极小型创业公司, 都可以使用比以往更多的数据下面描述的就是如今可以获得的, 一些好用同时免费的大数据来源 (1)Data.gov 美国政府去年承诺使所有政府数据都能在网上免费获得这个网站是第一阶段, 作为一个门户网站, 囊括了从气候到犯罪的一切惊人的信息 (2) 美国人口普查局一个关于美国公民生活的丰富信息, 包括人口数据, 地域数据以及教育 (3) 欧洲联盟数据开放门户如上所述, 但它是基于欧洲联盟机构的数据 (4)Data.gov.uk 来自英国政府的数据, 包括英国国家书目自 1950 以来所有的英国书籍以及出版物的元数据 (5) 中情局世界概况 the-world-factbook/ 267 个国家历史人口经济政府基础设施以及军事信息 (6)Healthdata.gov 年来美国的医疗保健数据, 包括索赔型医保数据, 流行病学和人口统计 (7)NHS 健康和社会保健信息中心来自英国国民健康服务的健康状况数据集 (8)Amazon 网络服务公共数据集巨型公共数据源, 包括 1000 个基因组工程, 试图建立最全面的人类遗传信息数据库和美国宇航局的卫星图像数据库 (9)Facebook Graph graph-api 120

127 大数据金融知识虽然 Facebook 用户个人资料中的很多信息是私有的, 但很多也不是 Facebook 提供 Graph API 作为查询大量信息的一种方式, 它的用户很乐意与世界分享 ( 或者说是不能隐藏, 因为他们还没有制定如何设置隐私功能 ) (10)Gapminder 世界卫生组织和世界银行的数据集合, 包括世界各地的经济医疗以及社会统计数据 (11)Google Trend 自 2004 年以来, 对所有关键字的搜索量 ( 作为总搜索的比例 ) 的数据统计 (12)Google 财经 40 年的股票市场数据, 并实时更新 (13)Google Books ngrams/books/datasetsv2.html 搜索和分析数以百万计的数字图书全文, 作为 Google 图书项目的一部分 (14) 国家气候数据中心 quick-links#loc-clim 从美国国家气候数据中心收集的环境气象以及气候数据集全球最大的天气数据存档 (15) 环境云通过全国性环境监控传感器网络 ( 包括 PM2.5 等各类空气质量指标土壤环境质量指标监测网络 ) 所采集的数据, 以及从权威数据源 ( 中国气象网中央气象台国家环保部数据中心美国全球地震信息中心等 ) 获取的各类环境数据, 配合代码示例和详尽的接口使用说明, 免费提供可靠丰富的气象环境灾害以及地理数据服务 (16)DBPedia 维基百科包含数以百万计的数据, 生活中每个事物的结构化和非结构化信息 DBpedia 的是一个用来分类的大型工程, 并创建了一个公共的, 免费发布的并允许任何人来分析这些数据的数据库 (17)Topsy 免费而全面的社交媒体数据是很难得到的毕竟这些数据是为那些大玩家 (Facebook,Twitter 等 ) 产生利润的, 所以他们不想轻易送人然而 Topsy 提供了一个可搜索回溯至 2006 年公共微博的数据库, 和现在一些用来分析会话的工具 (18)Likebutton 在全球范围内, 从你自己的网络中挖掘 Facebook 的公共数据, 来了解在某个时刻人们喜欢什么 (19)New York Times 纽约时报可搜索的新闻文章的索引档案, 可以追溯到 1851 年 (20)Freebase 一个关于人, 地点和事物的结构化数据的社区数据库, 记录数超过 45 万个 (21) 百万歌曲数据集 datasets/ 超过一百万首歌曲和音乐作品的元数据部分属于亚马逊网络服务来源 : 121

大数据金融信息剪辑除 Hadoop 外你还需要知道的 9 个大数据技术 Hadoop 是大数据领域最流行的技术, 但并非唯一还有很多其他技术可用于解决大数据问题除了 Apache Hadoop 外, 另外 9 个大数据技术也是必须要了解的 Apache Flink Apache SamzaGoogle Cloud Data Flow StreamSets Tensor Flow

128 大数据金融信息剪辑除 Hadoop 外你还需要知道的 9 个大数据技术 Hadoop 是大数据领域最流行的技术, 但并非唯一还有很多其他技术可用于解决大数据问题除了 Apache Hadoop 外, 另外 9 个大数据技术也是必须要了解的 Apache Flink Apache SamzaGoogle Cloud Data Flow StreamSets Tensor Flow Apache NiFi Druid LinkedIn WhereHows Microsoft Cognitive Services Apache Flink: 是一个高效分布式基于 Java 实现的通用大数据分析引擎, 它具有分布式 MapReduce 一类平台的高效性灵活性和扩展性以及并行数据库查询优化方案, 它支持批量和基于流的数据分析, 且提供了基于 Java 和 Scala 的 API 这是一种由社区驱动的分布式大数据分析开源框架, 类似于 Apache Hadoop 和 Apache Spark 它的引擎可借助数据流和内存中(in- memory) 处理与迭代操作改善性能目前 Apache Flink 已成为一个顶级项目 (Top Level Project,TLP), 于 2014 年 4 月被纳入 Apache 孵化器, 目前在全球范围内有很多贡献者 Flink 受到了 MPP 数据库技术 (Declaratives Query Optimizer Parallel in-memory out-of-core 算法 ) 和 Hadoop MapReduce 技术 (Massive scale out, User Defined functions, Schema on Read) 的启发, 有很多独特功能 (Streaming, Iterations, Dataflow, General API) 详细了解 Apache Samza: 是一个开源分布式的 122

大数据金融知识流处理框架, 它使用开源分布式消息处理系统 Apache Kafka 来实现消息服务, 并使用资源管理器 Apache Hadoop Yarn 实现容错处理处理器隔离安全性和资源管理该技术由 LinkedIn 开发, 最初目的是为了解决 Apache Kafka 在扩展能力方面存在的问题, 包含诸如 Simple API Managed state Fault

Dataflow:Dataflow 是一种原生的 Google Cloud 数据处理服务, 是一种构建管理和优化复杂数据流水线的方法, 用于构建移动应用, 调试追踪和监控产品级云应用它采用了 Google 内部的技术 Flume 和 MillWhell, 其中 Flume 用于数据的高效并行化处理, 而 MillWhell 则用于互联网级别的带有很好容错机制的流处理

129 大数据金融知识流处理框架, 它使用开源分布式消息处理系统 Apache Kafka 来实现消息服务, 并使用资源管理器 Apache Hadoop Yarn 实现容错处理处理器隔离安全性和资源管理该技术由 LinkedIn 开发, 最初目的是为了解决 Apache Kafka 在扩展能力方面存在的问题, 包含诸如 Simple API Managed state Fault Tolerant Durable messaging Scalable Extensible, 以及 Processor Isolation 等功能 Samza 的代码可作为 Yarn 作业运行, 还可以实施 StreamTask 接口, 借此定义 process() 调用 StreamTask 可以在任务实例内部运行, 其本身也位于一个 Yarn 容器内详细了解 Cloud Dataflow:Dataflow 是一种原生的 Google Cloud 数据处理服务, 是一种构建管理和优化复杂数据流水线的方法, 用于构建移动应用, 调试追踪和监控产品级云应用它采用了 Google 内部的技术 Flume 和 MillWhell, 其中 Flume 用于数据的高效并行化处理, 而 MillWhell 则用于互联网级别的带有很好容错机制的流处理该技术提供了简单的编程模型, 可用于批处理和流式数据的处理任务该技术提供的数据流管理服务可控制数据处理作业的执行, 数据处理作业可使用 Data Flow SDK(Apache Beam) 创建 Google Data Flow 为数据相关的任务提供了管理监视和安全能力 Sources 和 Sink 可在管线中抽象地执行读写操作, 管线封装而成的整个计算序列可以接受外部来源的某些输入数据, 通过对数据进行转换生成一定的输出数据了解详情 StreamSets:StreamSets 是一种专门针对传输中数据进行过优化的数据处理平台, 提供了可视化数据流创建模型, 通过开源的方式发行该技术可部署在内部环境或云中, 提供了丰富的监视和管理界面数据收集器可使用数据管线实时地流式传输并处理数据, 管线描述了数据从源头到最终目标的流动方式, 可包含来源目标, 以及处理程序数据收集器的生命周期可通过管理控制台进行控制了解详情 TensorFlow: 是继 DistBelief 之后的第二代机器学习系统 TensorFlow 源自 Google 旗下的 Google Brain 项目, 主要目标在于为 Google 全公 123

大数据金融信息剪辑司的不同产品和服务应用各种类型的神经网络机数值运算图谱中的节点代表数值运算边缘代器学习能力表负责在节点之间进行通信的多维数据阵列张支持分布式计算的TensorFlow能够使用户在量 Tensor 边缘还描述了节点之间的输入/输自己的机器学习基础结构中训练分布式模型该出关系 TensorFlow 这个名称蕴含了张量在系统以高性能的gRPC数据库为支撑

130 大数据金融信息剪辑司的不同产品和服务应用各种类型的神经网络机数值运算图谱中的节点代表数值运算边缘代器学习能力表负责在节点之间进行通信的多维数据阵列张支持分布式计算的TensorFlow能够使用户在量 Tensor 边缘还描述了节点之间的输入/输自己的机器学习基础结构中训练分布式模型该出关系 TensorFlow 这个名称蕴含了张量在系统以高性能的gRPC数据库为支撑与最近发布图谱上流动的含义了解详情的Google云机器学习系统互补使用户能够利用 Druid Druid是一个用于大数据实时查询和 Google云平台对TensorFlow模型进行训练并提分析的高容错高性能开源分布式系统旨在快供服务速处理大规模的数据并能够实现快速查询和分这是一种开源软件库可使用数据流图析诞生于2011年包含诸如驱动交互式数据应谱 data flow graph 进行数值运算这种技用程序多租户大量并发用户扩展能力每术已被包括DeepDream RankBrain Smart 天上万亿事件次秒级查询实时分析等功能 Replyused在内的各种Google项目所使用 Druid还包含一些特殊的重要功能例如低延迟数据摄入快速聚合任意切割能力高可用性近似计算与精确计算等创建Druid的最初意图主要是为了解决查询延迟问题当时试图使用Hadoop来实现交互式查询分析但是很难满足实时分析的需要而Druid提供了以交互方式访问数据的能力并权衡了查询的灵活性和性能而采取了特殊的存储格式该技术还提供了其他实用功能例如实时节点历史节点 Broker节点 Coordinator节点使用基于JSON查询语言的索引服务了解详情数据流图谱使用由节点 Node 和边缘 Apache NiFi Apache NiFi是一套强大可靠 Edge 组成的有向图 Directed graph 描述的数据处理和分发系统可用于对数据的流转和 124

大数据金融知识转换创建有向图借助该系统可以用图形界面创建监视控制数据流有丰富的配置选项可供该工具为数据发现提供了Web界面支使用可在运行时修改数据流动态创建数据分

Cognitive Services 该技术源自Project Oxford和Bing 提供了22种认知计算API 主要分类包括视觉语音语言知识以及搜索该技术已集成于Cortana

元数据搜索的企业编录 Enterprise catalog 这是一种开源技术提供了22种不同的认可以让您了解数据存储在哪里是如何保存到那知计算REST API 并为开发者提供了适用于里的该工具可提供协作

131 大数据金融知识转换创建有向图借助该系统可以用图形界面创建监视控制数据流有丰富的配置选项可供该工具为数据发现提供了Web界面支使用可在运行时修改数据流动态创建数据分持API的后端服务器负责控制元数据的爬网区此外还可以对数据在整个系统内的流动进行 Crawling 以及与其他系统的集成了解详情数据起源跟踪通过开发自定义组件还可轻松对其进行扩展 Microsoft Cognitive Services 该技术源自Project Oxford和Bing 提供了22种认知计算API 主要分类包括视觉语音语言知识以及搜索该技术已集成于Cortana Intelligence Suite Apache NiFi的运转离不开诸如FlowFile Processor 以及Connection等概念了解详情 LinkedIn WhereHows WhereHows提供带元数据搜索的企业编录 Enterprise catalog 这是一种开源技术提供了22种不同的认可以让您了解数据存储在哪里是如何保存到那知计算REST API 并为开发者提供了适用于里的该工具可提供协作数据血统分析等功 Windows IOS Android以及Python的SDK 能并可连接至多种数据源和提取加载和转换 ETL 工具来源 125

132 大数据金融信息剪辑中文文献 : 大数据背景下互联网金融对中小企业融资影响研究作者郑志来 ; 机构盐城师范学院商学院 ; 摘要互联网金融模式创新, 主要体现在大数据互联网金融公司第三方支付平台 P2P 互联网借贷平台众筹互联网融资平台和互联网金融门户平台互联网金融对中小企业融资影响主要体现在四方面 : 即对传统金融机构倒逼机制 ; 中小企业融资对象更加全面科学 ; 中小企业融资服务更有针对性 ; 中小企业的融资成本显著下降关键词大数据 ; 互联网金融 ; 中小企业 ; 融资 ; 所属期刊栏目互联网金融 (2014 年 11 期 ) 大数据互联网金融与信用资本 : 破解小微企业融资悖论作者黄子健 ; 王龑 ; A u t h o r H u a n g Zijian;Wang Yan;School of Finance,Xinjiang University of Finance and Economics; 机构新疆财经大学金融学院 ; 摘要通过构建互联网金融三部门信贷模型体系, 分析得到互联网金融模式凭借大数据创造的信用资本和信用抵押, 可以破解融资悖论, 消除信贷市场中的逆向选择和道德风险, 达到一个良性循环的共赢局面为保障互联网金融模式的有效应用, 进一步分析了其风险控制, 指出可以采取集约投保 + 集团承保的信贷保险模式最后, 结合上海公共信息平台的启示, 提出搭建一个信用信息信贷平台的设想关键词大数据 ; 互联网金融 ; 信用资本 ; 小微企业融资悖论 ; 基金新疆自治区研究生科研创新项目 (XJCX ) 126

133 文献传递建立产学研合作高端服务平台推动大数据金融产业创新发展作者唐浩增 ; 机构中国大数据金融产业创新战略联盟 ; 金电联行 ( 北京 ) 信息技术有限公司 ; 摘要 < 正 > 为贯彻落实国务院促进大数据发展行动纲要的精神, 发挥大数据在我国经济转型升级中的新引擎作用, 推动我国大数据金融产业的创新与发展, 在中国产学研合作促进会指导下, 由中国投资协会贵阳互联网金融特区管理委员会金电联行 ( 北京 ) 信息技术有限公司中国标准化研究院中央财经大学中国互联网经济研究院等 50 余家单位共同发起成立了 " 中国大数据金融产业创新战略联盟 "( 简称联盟 ) 关键词金融产业 ; 互联网经济 ; 中国标准化 ; 联行 ; 引擎作用 ; 信息技术 ; 现代经济 ; 著名研究机构 ; 金融机构体系 ; 联盟标准 ; 所属期刊栏目大数据 (2016 年 02 期 ) 打造大数据金融五大平台作者钟红涛 ; 徐福洲 ; 机构湖北省联社 ; 摘要 < 正 > 大数据时代, 农信社应有效整合来自各方面的海量数据, 为科学决策和转型发展提供强力支撑数据是银行支持精细化管理实现差异化服务加强业务创新提升风险分析能力的基础近年来, 随着云计算等大数据技术应用的日益深入, 互联网金融快速崛起, 给传统银行业的发展环境带来巨大变革农信社 ( 含农商行 ) 作为农村中小金融机构, 面对的客户群体小微散, 如何运用大数据技术推进经营转型加快业务发展, 布局大数据时代, 已成为农信社当前面临的重要课题关键词互联网产业 ; 经营转型 ; 差异化服务 ; 农商行 ; 风险分析 ; 经济资本管理 ; 中小金融机构 ; 信息技术 ; 操作风险 ; 内部评级 ; 所属期刊栏目封面专题 _ 农信大数据的掘金之路 _ 观潮 (2015 年 02 期 ) 127

134 大数据金融信息剪辑基于互联网金融平台的大数据挖掘研究作者董喆 ; 机构山东英才学院 ; 摘要十年前, 互联网和金融还是两个没有关系的领域今天互联网企业已经开始大举进军金融领域, 打破了传统金融寡头的垄断格局第三方支付移动支付众筹融资 P2P 网络信贷供应链融资服务互联网理财保险等多种互联网金融服务模式如雨后春笋般迅速成长起来根据银监会的数据,2008 年年, 国有大型银行的市场份额从 52% 下降到 42%,5 年里下降了 10%, 可以说互联网金融时代真正到来了马云在 2012 年网商大会上鲜明地指出互联网金融未来的战略是围绕平台金融大数据展开平台汇聚大数据, 大数据衍生金融, 金融反哺平台本文主要研究在互联网金融背景下, 我们该如何利用互联网带来的海量数据来帮助新形势下金融服务业创造更多的商业价值关键词互联网金融 ; 大数据 ; 融资 ; 所属期刊栏目财经纵横 (2014 年 22 期 ) 大数据金融对理财产品的几点重要影响作者朱树豪 ; 机构南京大学金陵学院 ; 摘要本文从大数据的兴起出发, 谈到大数据金融的产生, 继而结合目前金融机构以及互联网金融平台在理财产品创新方面的几点成果, 主要讨论了大数据金融对理财产品在交易成本产品推广以及创新理念三个方面的重要影响在交易成本方面, 我主要讨论了分布式金融服务系统 ; 在产品推广方面, 我突出了个性化信息推荐技术 ; 在创新理念方面, 我介绍了大数据对技术创新理论的巨大贡献, 大数据金融的两个主要创新模式平台金融和供应链金融关键词大数据 ; 大数据金融 ; 理财产品 ; 创新 ; 所属期刊栏目投资理财 (2016 年 16 期 ) 128

135 文献传递大数据背景下金融消费者信息权益保护浅析作者江小慧 ; 机构中国建设银行龙岩分行 ; 摘要商业银行天然具有数据属性, 大数据在为商业银行的经营管理提供充分的信息支持的同时, 也将大大增加商业银行客户信息泄露的风险大数据时代金融消费者信息权益保护工作面临着风险识别信息安全保护信息欺诈等方面的挑战, 为此商业银行要建立风险预警平台, 构筑支付防火墙, 完善数据运用机制, 加强公众教育宣传关键词大数据金融 ; 金融消费者信息保护 ; 商业银行 ; 所属期刊栏目金融实务 _ 金融消费者保护 (2016 年 01 期 ) 大数据金融时代中个人信用评估模型优化设计作者王蓓蓓 ; 胡迪 ; 舒鑫 ; 凡皓 ; 机构东南大学 ; 摘要大数据征信是现代金融发展的核心, 结合大数据理念建立和完善个人信用评估模型, 对于分析和把握信用风险意义重大因此, 本文针对大数据金融时代中个人信用评估模型的优化设计展开研究, 建立并优化了 BP 神经网络模型, 并就完善大数据时代中个人信用评估制度提出了意见和建议关键词大数据金融 ; 个人信用 ; BP 神经网络模型 ; 所属期刊栏目人力资源 (2016 年 09 期 ) 从哲学和管理角度探问大数据金融作者唐浩增 ; 机构中国大数据金融产业创新战略联盟 ; 摘要随着我国大数据金融产业技术升级换代快转化周期短的发展趋势, 大数据金融产业的整体核心竞争力, 已不是技术的单一成分了, 还要把文化理念相关资源专业能力经营模式组织管理等若干组成部分联接起来为此, 我从哲学和管理的角度, 辅以实际案例, 就如何在大数据金融产业创新战略联盟的大平台下, 促进大数据金融产业健康发展, 略谈管见关键词金融产业 ; 古希腊数学 ; 产业技术升级 ; 毕达哥拉斯 ; 组织管理 ; 信用评价 ; 金融业务 ; 互联网经济 ; 中国标准化 ; 联盟标准 ; 所属期刊栏目论坛 (2016 年 07 期 ) 129

136 大数据金融信息剪辑互联网金融模式研究以大数据金融为例作者郝恩成 ; 机构南昌大学经济管理学院 ; 摘要利用大数据的理念, 深入剖析了目前主流互联网金融模式, 研究认为大数据是互联网金融模式的灵魂, 互联网金融具有独特的优势, 它激活了长尾市场降低了交易成本实现了普惠金融和信息对称性等, 是未来金融发展的方向更多还原关键词互联网金融模式 ; 大数据 ; 大数据金融 ; 所属期刊栏目金融商务 (2016 年 06 期 ) 大数据时代我国平台金融的发展趋势研究作者彭明威 ; 机构武汉工程大学法商学院 ; 摘要近年来, 以云计算和大数据为基础结合金融衍生而来的 " 互联网金融 ", 倒逼着银行的传统运营模式改革, 同时众多互联网电商巨头纷纷乘势而上, 积极发展互联网平台金融由于平台金融在我国发展时间不长, 存在大数据金融人才匮乏驾驭大数据能力差等诸多问题, 伴随着大数据技术的成熟, 问题将会得到改善本文就政府如何推动平台金融的发展, 及探究平台金融发展趋势关键词平台金融 ; 大数据金融 ; 大数据 +; 互联网金融 ; 所属期刊栏目财金投资 (2015 年 11 期 ) 130

137 文献传递外文文献 : Big Data Analytics and Revision of the Common Rule Jacob Metcalf BIG DATA IS a major technical advance in terms of computing expense, speed, and capacity. But it is also an epistemic shift wherein data is seen as infinitely networkable, indefinitely reusable, and significantly divorced from the context of collection. 1,7 The statutory definitions of human subjects and research are not easily applicable to big data research involving sensitive human data. Many of the familiar norms and regulations of research ethics formulated to prior paradigms of research risks and harms, and thus the formal triggers for ethics review are miscalibrated. We need to reevaluate longstanding assumptions of research ethics in light of the emergence of big data analytics.6,10,13 JULY 2016 VOL. 59 NO. 7 COMMUNICATIONS OF THE ACM 131

138 大数据金融信息剪辑 Drug repositioning in SLE: crowd-sourcing, literaturemining and Big Data analysis AC Grammer1, MM Ryals1, SE Heuer1, RD Robl1, S Madamanchi1, LS Davis2, B Lauwerys3, MD Catalina1 and PE Lipsky1 1AMPEL BioSolutions and RILITE Foundation, University of Virginia Research Park, Charlottesville, VA, USA; 2Department of Internal Medicine, UTSW Medical Center at Dallas, Dallas, TX, USA; and 3Universite Catholique de Louvain, Brussels, Belgium Abstract: Lupus patients are in need of modern drugs to treat specific manifestations of their disease effectively and safely. In the past half century, only one new treatment has been approved by the US Food and Drug Administration (FDA) for systemic lupus erythematosus (SLE). In , the FDA approved 71 new drugs, only one of which targeted a rheumatic disease and none of which was approved for use in SLE. Repositioning/repurposing drugs approved for other diseases using multiple approaches is one possible means to find new treatment options for lupus patients. Big Data analysis approaches this challenge from an unbiased standpoint whereas literature mining and crowd sourcing for candidates assessed by the CoLTs (Combined Lupus Treatment Scoring) system provide a hypothesis-based approach to rank potential therapeutic candidates for possible clinical application. Both approaches mitigate risk since the candidates assessed have largely been extensively tested in clinical trials for other indications. The usefulness of a multi-pronged approach to drug repositioning in lupus is highlighted by orthogonal confirmation of hypothesis-based drug repositioning predictions by Big Data analysis of differentially expressed genes from lupus patient samples. The goal is to identify novel therapies that have the potential to affect disease processes specifically. Involvement of SLE patients and the scientists that study this disease in thinking about new drugs that may be effective in lupus though crowd-sourcing sites such as LRxL-STAT ( is important in stimulating the momentum needed to test these novel drug targets for efficacy in lupus rapidly in small, proof-of-concept trials conducted by LuCIN, the Lupus Clinical Investigators Network ( lucinstat). Lupus (2016) 25, Key words: LRxL-STAT; LuCIN; drug repurposing; drug repositioning; Stelara; ustekinumab; IL12; IL23; quinacrine; krill oil; HSCT; stem cells; meditation; mindfulness; ruxolitinib; tofacitinib; JAK; MEDI-7169; IL21; secukinumab; IL17 Lupus (2016) 25,

139 文献传递 How Does National Scientific Funding Support Emerging Interdisciplinary Research: A Comparison Study of Big Data Research in the US and China Ying Huang1, Yi Zhang1,2, Jan Youtie3, Alan L. Porter4, Xuefeng Wang1* 1 School of Management and Economics, Beijing Institute of Technology, Beijing, , China, 2 Centre for Quantum Computation and Intelligent Systems, Faculty of Engineering and Information Technology, University of Technology, Sydney, NSW 2007, Australia, 3 Enterprise Innovation Institute, Georgia Institute of Technology, Atlanta, GA, 30332, United States of America, 4 School of Public Policy, Georgia Institute of Technology, Atlanta, GA, 30332, United States of America Abstract How do funding agencies ramp-up their capabilities to support research in a rapidly emerging area? This paper addresses this question through a comparison of research proposals awarded by the US National Science Foundation (NSF) and the National Natural Science Foundation of China (NSFC) in the field of Big Data. Big data is characterized by its size and difficulties in capturing, curating, managing and processing it in reasonable periods of time. Although Big Data has its legacy in longstanding information technology research, the field grew very rapidly over a short period.we find that the extent of interdisciplinarity is a key aspect in how these funding agencies address the rise of Big Data. Our results show that both agencies have been able to marshal funding to support Big Data research in multiple areas, but the NSF relies to a greater extent on multi-program funding from different fields. We discuss how these interdisciplinary approaches reflect the research hot-spots and innovation pathways in these two countries. PLOS ONE DOI: /journal.pone May 24, /

140 大数据金融信息剪辑 Infrastructure planning and topology optimization for reliable mobile big data transmission under cloud radio access networks Xiang Hou, Bin Lin, Rongxi He* and Xudong Wang Abstract With the development of user-centered and environment sensing technology of 5G, large capacity and ubiquitous coverage and massive data collection and processing will bring new challenges in wireless networks. The cloud radio access network (C-RAN) has been envisioned to provide a new wireless architecture for reliable transmission of mobile big data. In this paper, we focus on network planning deployment issue based on the optical mixed diet (OMD) technology. Specifically, the ring and spur topology optimization (RSTO) problem under the C-RAN architecture is investigated. The RSTO problem is formulated as a generic integer linear program (ILP) which can optimally (i) minimize the network deploying cost; (ii) identify the locations of Remote Radio Units (RRUs) and optical add-drop multiplexers (OADMs); (iii) identify the association relations between RRUs and OADMs; and (iv) satisfy the mobile coverage requirements so as to allow the mobile big data to be transmitted through the RRUs. We propose a new heuristic algorithm based on C-RAN architecture. Numerical results validate the ILP formulation and show the performance benefits of the proposed algorithm in terms of efficiency and effectiveness against Gurobi, which is an ILP solver. In numerical studies, we also demonstrate the performance benefits of the incorporation of CoMP technology in terms of total deployment cost reduction. Keywords: Mobile big data, C-RAN, Integer linear program (ILP), Heuristic algorithm Hou et al. EURASIP Journal on Wireless Communications and Networking (2016) 2016:

文献传递新书推荐 : ISBN:978-7-111-53731-1 作者 :[ 美 ] 米歇尔钱伯斯, 托马斯 W. 迪斯莫尔著译者 : 韩光辉孙丽军等译定价 :69.

141 文献传递新书推荐 : ISBN: 作者 :[ 美 ] 米歇尔钱伯斯, 托马斯 W. 迪斯莫尔著译者 : 韩光辉孙丽军等译定价 :69.00 出版时间 :2016/07 内容简介 : 随着大数据时代的来临, 越来越多的企业期望通过对大数据进行深入分析来为其创造更大的商业价值大数据商业价值的实现依靠企业大数据战略人才组织技术的完美结合, 本书向读者勾画了一幅大数据全图, 任何企业都可以在本书的指导下实践大数据战略, 定制适合自己的大数据分析路线图, 从大数据中获得更多价值 135

大数据金融信息剪辑附件 1: 外文文献全文 Vviewpoints DOI:10.

142 大数据金融信息剪辑附件 1: 外文文献全文 Vviewpoints DOI: / Computing Ethics Big Data Analytics and Revision of the Common Rule Reconsidering traditional research ethics given the emergence of big data analytics. Jacob Metcalf IMAGE BY ANDREW OSTROVSKY BIG DATA IS a major technical advance in terms of computing expense, speed, and capacity. But it is also an epistemic shift wherein data is seen as infinitely networkable, indefinitely reusable, and significantly divorced from the context of collection. 1,7 The statutory definitions of human subjects and research are not easily applicable to big data research involving sensitive human data. Many of the familiar norms and regulations of research ethics formulated to prior paradigms of research risks and harms, and thus the formal triggers for ethics review are miscalibrated. We need to reevaluate longstanding assumptions of research ethics in light of the emergence of big data analytics. 6,10,13 The U.S. Department of Health and Human Services (HHS) released a Notice of Proposed Rule-Making (NPRM) in September 2015 regarding proposed major revisions (the first in three decades) to the research ethics regulations known as the Common Rule. a The proposed changes grapple with the consequences of big data, such as informed consent for biobanking and universal standards for privacy protection. The Common Rule a So named for its common application across signatory federal agencies. does not apply to industry research, and some big data science in universities might not fall under its purview, but the Common Rule addresses the burgeoning uses of big data by setting the tone and agenda for research ethics in many spheres. The NSF-supported Council for Big Data, Ethics and Society b has focused on the consequences these proposed changes for big data, including data science and analytics. 9 There is reason b See for concern that the rules as drafted in NPRM may muddle attempts to identify and promulgate responsible data science research practices. Is Biomedicine the Ethical Baseline? The Common Rule was instituted in It mandates federally funded research projects involving human subjects to receive prior, independent ethics review before commencing. Most projects go through Institutional Review Boards (IRB) 3 responsible for JULY 2016 VOL. 59 NO. 7 COMMUNICATIONS OF THE ACM

文献传递 viewpoints INTERACTIONS ACM s Interactions magazine explores critical relationships between people and technology, showcasing emerging innovations and industry leaders from around the world

Our readers represent a growing community of practice that is of increasing and vital global importance. To learn more about us, visit our award-winning website http://interactions.acm.

143 文献传递 viewpoints INTERACTIONS ACM s Interactions magazine explores critical relationships between people and technology, showcasing emerging innovations and industry leaders from around the world across important applications of design thinking and the broadening field of interaction design. Our readers represent a growing community of practice that is of increasing and vital global importance. To learn more about us, visit our award-winning website Follow us on Facebook and Twitter To subscribe: Association for Computing Machinery researchers due diligence in identifying and ameliorating potential physiological, psychological, and informational harms to human subjects. The Common Rule grew out of a regulatory process initiated by the 1974 National Research Act, a response to public scandals in medical and psychological research, including the Nuremberg Doctors Trial, the Tuskegee syphilis study, and Milgram experiment on obedience to authority figures. The Act led to a commission on humansubjects research ethics that produced the Belmont Report (1979). The Belmont authors insisted that certain core philosophical principles must guide research involving human subjects: respect for persons, beneficence, and justice. The HHS developed the specific regulations in the Common Rule as an instantiation of those principles. 12 Importantly, the Belmont authors understood that not all activities that produce knowledge or intervene in human lives are research, and not all research about humans is sensitive or personal enough to be about human subjects. To delimit human-subjects research within biomedicine, the Belmont commission considered the boundaries between biomedical and behavioral research and the accepted and routine practice of medicine. 12 This boundary reflects the ethical difficulties posed by unique social roles of physician-researchers who are responsible for both patient health and societal well-being fostered by research knowledge. This unique role creates ethical dilemmas that are often not reflected in other disciplines. Research defined by the Belmont Report is, an activity designed to test an hypothesis, permit conclusions to be drawn, and thereby to develop or contribute to generalizable knowledge. Practice is, interventions that are designed solely to enhance the well-being of an individual patient or client and that have a reasonable expectation of success. 12 Not surprisingly, the first draft of the Common Rule came under attack from social scientists for lumping together all forms of human-subjects research under a single set of regulations that reflect the peculiarities of biomedical research. 2 Not all research has the same risks and norms as biomedicine. A single set of rules might snuff out legitimate lines of inquiry, even those dedicated to social justice ends. The HHS responded by creating an Exempt category that allowed human-subjects research with minimal risk to receive expedited ethics review. Nevertheless, there has remained a low-simmering conflict between social scientists and IRBs. This sets the stage for debates over regulating research involving big data. For example, in her analysis of the Facebook emotional contagion controversy, Michelle Meyer argues that big data research, especially algorithmic A/B testing without clear temporal boundaries or hypotheses, clouds the distinction between practice and research. 8,11 Jacob Metcalf and Kate Crawford agree this mismatch exists, but argue that core norms of humansubjects research regulations can still be applied to big data research. 10 Big Data and the Common Rule Revisions The Common Rule has typically not been applied to the core disciplines of big data (computing, mathematics, and statistics) because these disciplines are assumed to be conducting research on systems, not people. Yet big data has brought these disciplines into much closer intellectual and economic contact with sensitive human data, opening discussion about how the Common Rule applies. The assumptions behind NPRM leaving big data science out of its purview are empirically suspect. Excluded A New Category Complaints about inconsistent application of the exempt category have prompted HHS to propose a new category of excluded that would automatically receive no ethical review due to inherently low risk to human subjects (.101(b)(2)). Of particular interest is exclusion of: research involving the collection or study of information that has been or will be acquired solely for non-research activities, or was acquired for research studies other than the proposed research study when the sources are publicly available, or the information is recorded by the investigator in such a manner that human subjects cannot be identified, directly or through identifiers linked to 32 COMMUNICATIONS OF THE ACM JULY 2016 VOL. 59 NO

144 大数据金融信息剪辑 viewpoints The contentious history of the Common Rule is due in part to its influence on the tone and agenda of research ethics even outside of its formal purview. the subjects, the investigator does not contact the subjects, and the investigator will not re-identify subjects or otherwise conduct an analysis that could lead to creating individually identifiable private information. (.101(b)(2)(ii)) 4 These types of research in the context of big data present different risk profiles depending on the contents and what is done with the dataset. Yet they are excluded based on the assumption that their status (public, private, preexisting, de-identified, and so forth) is an adequate proxy for risk. The proposal to create an excluded category is driven by frustrations of social and other scientists who use data already in the public sphere or in the hands of corporations to whom users turn over mountains of useful data. Notably, social scientists have pushed to define public datasets such that it includes datasets that can be purchased. 2 The power and peril of big data research is that large datasets can theoretically be correlated with other large datasets in novel contexts to produce unforeseeable insights. Algorithms might find unexpected correlations and generate predictions as a possible source of poorly understood harms. Exclusion would eliminate ethical review to address such risks. Public and private are used in the NPRM in ways that leave this regulatory gap open. Public modifies datasets, describing access or availability. Private modifies information or data describing a reasonable subject s expectations about sensitivity. Yet publicly available datasets containing private data are among the most interesting to researchers and most risky to subjects. For example, a recent study by Hauge et al. 5 used geographic profiling techniques and public datasets to (allegedly) identify the pseudonymous artist Banksy. The study underwent ethics review, and was (likely) permitted because it used public datasets, despite its intense focus on the private information of individual subjects. 5 This discrepancy is made possible by the anachronistic assumption that any informational harm has already been done by a public dataset. That the NPRM explicitly cites this assumption as a justification to a priori exclude increasingly prominent big data research methods is highly problematic. Perhaps academic researchers should have relaxed access to maintain parity with industry or further scientific knowledge. But the Common Rule should not allow that de facto under the guise of empirically weak claims about the risks posed by public datasets. The Common Rule might rightfully exclude big data research methods from its purview, but it should do so explicitly and not muddle attempts to moderate the risks posed by declaring public data inherently low risk. Exempt An Expanded Category The NPRM also proposes to expand the Exempt category (minimal review largely conducted through an online portal) to include secondary research using datasets containing identifiable information collected for non-research purposes. All such research would be exempt as long as subjects were given prior notice and the datasets are to be used only in the fashion identified by the requestor (.104(e)(2)). The NPRM does not propose to set a minimum bar for adequate notice. This can be reasonable given the high standard of informed consent is intended primarily for medical research, and can be an unreasonable burden in the social sciences. However, to default to end user license agreements (EULA) poses too low a bar. Setting new rules for the exempt category should not be a de facto settlement of this open debate. Explicit guidelines and processes for future inquiry and revised regulations are warranted. Conclusion The NPRM improves the Common Rule s application to big data research, but portions of the NPRM with consequences for big data research rest on dated assumptions. The contentious history of the Common Rule is due in part to its influence on the tone and agenda of research ethics even outside of its formal purview. This rare opportunity for significant revisions should not cement problematic assumptions into the discourse of ethics in big data research. References 1. boyd, d. and Crawford, K. Critical questions for big data. Information, Communication & Society 15, 5 (2012), Committee on Revisions to the Common Rule for the Protection of, Board on Behavioral, Cognitive, and Sensory Sciences, Committee on National Statistics, et al. Proposed Revisions to the Common Rule for the Protection of Human Subjects in the Behavioral and Social Sciences, 2014; read/18614/chapter/1. 3. Department of Health and Human Services Code of Federal Regulations Title 45 Public Welfare, Part 46 Protection of Human Subjects. 45 Code of Federal Regulations 46, 2009; humansubjects/guidance/45cfr46.html. 4. Department of Health and Human Services. Notice of Proposed Rule Making: Federal Policy for the Protection of Human Subjects. Federal Register, 2015; pdf/ pdf. 5. Hauge, M.V. et al. Tagging Banksy: Using geographic profiling to investigate a modern art mystery. Journal of Spatial Science (2016): King, J.L. Humans in computing: Growing responsibilities for researchers. Commun. 58, 3 (Mar. 2015), Kitchin, R. Big data, new epistemologies and paradigm shifts. Big Data & Society 1, 1 (2014). 8. Kramer, A., Guillory, J., and Hancock, J. Experimental evidence of massive-scale emotional contagion through social networks. In Proceedings of the National Academy of Sciences 111, 24 (2014), Metcalf, J. Letter on Proposed Changes to the Common Rule. Council for Big Data, Ethics, and Society (2016); letter-on-proposed-changes-to-the-common-rule/. 10. Metcalf, J. and Crawford, K. Where are human subjects in big data research? The emerging ethics divide. Big Data & Society 3, 1 (2016), Meyer, M.N. Two cheers for corporate experimentation: The a/b illusion and the virtues of data-driven innovation. Colorado Technology Law Journal 13, 273 (2015). 12. National Commission for the Protection of Human Subjects, of Biomedical and Behavioral Research and The National Commission for the Protection of Human Subjects (1979) The Belmont Report: Ethical Principles and Guidelines for the Protection of Human Subjects of Research; humansubjects/guidance/belmont.html. 13. Zwitter, A. Big data ethics. Big Data & Society 1, 2 (2014). Jacob Metcalf (jake.metcalf@gmail.com) is a Researcher at the Data & Society Research Institute, and Founding Partner at the ethics consulting firm Ethical Resolve. This work is supported in part by National Science Foundation award # See J. Metcalf Letter on Proposed Changes to the Common Rule. Council for Big Data, Ethics, and Society (2016) 9 for the public comment on revisions to the Common Rule published collectively by the Council for Big Data, Ethics and Society. This column represents only the author s opinion. Copyright held by author. JULY 2016 VOL. 59 NO. 7 COMMUNICATIONS OF THE ACM

145 文献传递 Copyright of Communications of the ACM is the property of Association for Computing Machinery and its content may not be copied or ed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or articles for individual use. 139

146 大数据金融信息剪辑 Lupus (2016) 25, SPECIAL ARTICLE Drug repositioning in SLE: crowd-sourcing, literature-mining and Big Data analysis AC Grammer 1, MM Ryals 1, SE Heuer 1, RD Robl 1, S Madamanchi 1, LS Davis 2, B Lauwerys 3, MD Catalina 1 and PE Lipsky 1 1 AMPEL BioSolutions and RILITE Foundation, University of Virginia Research Park, Charlottesville, VA, USA; 2 Department of Internal Medicine, UTSW Medical Center at Dallas, Dallas, TX, USA; and 3 Universite Catholique de Louvain, Brussels, Belgium Lupus patients are in need of modern drugs to treat specific manifestations of their disease effectively and safely. In the past half century, only one new treatment has been approved by the US Food and Drug Administration (FDA) for systemic lupus erythematosus (SLE). In , the FDA approved 71 new drugs, only one of which targeted a rheumatic disease and none of which was approved for use in SLE. Repositioning/repurposing drugs approved for other diseases using multiple approaches is one possible means to find new treatment options for lupus patients. Big Data analysis approaches this challenge from an unbiased standpoint whereas literature mining and crowd sourcing for candidates assessed by the CoLTs (Combined Lupus Treatment Scoring) system provide a hypothesis-based approach to rank potential therapeutic candidates for possible clinical application. Both approaches mitigate risk since the candidates assessed have largely been extensively tested in clinical trials for other indications. The usefulness of a multi-pronged approach to drug repositioning in lupus is highlighted by orthogonal confirmation of hypothesis-based drug repositioning predictions by Big Data analysis of differentially expressed genes from lupus patient samples. The goal is to identify novel therapies that have the potential to affect disease processes specifically. Involvement of SLE patients and the scientists that study this disease in thinking about new drugs that may be effective in lupus though crowd-sourcing sites such as LRxL-STAT ( is important in stimulating the momentum needed to test these novel drug targets for efficacy in lupus rapidly in small, proof-of-concept trials conducted by LuCIN, the Lupus Clinical Investigators Network ( lucinstat). Lupus (2016) 25, Key words: LRxL-STAT; LuCIN; drug repurposing; drug repositioning; Stelara; ustekinumab; IL12; IL23; quinacrine; krill oil; HSCT; stem cells; meditation; mindfulness; ruxolitinib; tofacitinib; JAK; MEDI-7169; IL21; secukinumab; IL17 Introduction Drug repurposing is not a new concept. However, using an evidence-based approach to examine drugs approved for one indication for their potential in systemic lupus erythematosus (SLE) is uncharted territory. Repositioning, rescue, reprofiling, retooling, and retasking are other commonly used terms for the process of utilizing a drug approved or tested for one condition for a completely different disease. 1 3 Lupus patients and the rheumatologists that care for them are unconsciously familiar with the concept of Correspondence to: Amrie C Grammer, AMPEL BioSolutions and RILITE Foundation, 1001 Research Park Boulevard, Suite 301 Charlottesville, VA 22911, USA amriegrammer@comcast.net repurposed drugs since SLE patients are routinely treated with drugs that were initially employed for other diseases such as hydroxychloroquine used for malaria, cyclophosphamide (CTX) used for cancer, mycophenolate approved for transplant rejection, and rituximab approved for lymphoma. Surprisingly, only four medications have been approved by the US Food and Drug Administration (FDA) for treatment of lupus patients (hydroxycholoroquine, aspirin, prednisone, and belimumab). Even as recently as 2013, deciphering which approved drugs might be appropriate for lupus patients was a daunting task. A variety of approaches are described in Figure 1. Traditionally, as occurred in the lupus field, drugs were repurposed because of opportune clinical observations and/or off-target properties. Biotech/Pharma companies often look! The Author(s), Reprints and permissions: /

文献传递 Figure 1 Crowd Sourcing Clinical Experience Literature Mining Drug Reposi oning Drug Proper es Gene cs Genomics Multi-pronged approaches to drug repositioning.

4,5 In the last few years, genome wide association studies (GWAS) began to identify potential disease-associated genetic perturbations that could serve as the basis of new target identification in

147 文献传递 Figure 1 Crowd Sourcing Clinical Experience Literature Mining Drug Reposi oning Drug Proper es Gene cs Genomics Multi-pronged approaches to drug repositioning. for drugs with similar structures or adverse events by rescreening against targets with related threedimensional structural elements when attempting to repurpose existing compounds. 4,5 In the last few years, genome wide association studies (GWAS) began to identify potential disease-associated genetic perturbations that could serve as the basis of new target identification in many diseases, 6 including SLE. 7 9 Advances in bioinformatics approaches including analysis of differential expression of mrna and mirna, as well as methylation status of promoter regions in patients compared to normals, 20,21 provide additional powerful tools to identify new targets of therapeutic intervention. There is an intense interest from Biotech/Pharma to try to rescue pipeline drugs that failed in an additional indication or did not achieve FDA approval. Rheumatologists are also interested in repositioning drugs since Biotech/Pharma, with one exception, has not been successful in bringing new drugs for SLE patients to market. Moreover, standard-of-care (SOC) lupus treatments have serious side effects, and lack the necessary precision to target lupus pathways specifically and thereby address signs and symptoms of the disease in individual patients. Emphasizing the potential value of drug repositioning in lupus is that fact that belimumab (Benlysta, anti-blys/baff) is the only drug approved for SLE in the last 50 years. These considerations stimulated a push in the spring of 2013 by the Alliance for Lupus Research (ALR) and the Lupus Research Institute (LRI) to launch a drug repositioning effort (www. linkedin.com/in/lrxlstat), LRxL (Lupus Treatment Identifying novel targets and drugs for SLE AC Grammer et al. List)-STAT (SLE Treatment Acceleration Trials). Despite best efforts by academics and the pharmaceutical/biotech industry, the pace of development of new therapies for lupus patients is painfully slow. Even in well-described diseases with a large market forces, bringing a new drug through the FDA-approval process takes years and $ billion with less than a 10% success rate. 22 Lupus remains a serious unmet medical need and the need for rethinking the approach to find new therapies for SLE patients is urgent. 23,24 The initial repositioning approach initiated by the ALR and LRI, now merged into one organization called the LRA (Lupus Research Alliance), was a combination of crowd-sourcing and literature mining. This generated a large number of drug candidates that were prioritized using a composite scoring system of drug attributes, the Combined Lupus Treatment Scoring (CoLTs) system. This system ranks compounds numerically based on scientific rationale, experience in lupus mice/human cells, previous clinical experience in autoimmunity, drug properties, and adverse event profile. 25,26 Parallel efforts with support from the John and Marcia Goldman Foundation resulted in the development of a novel comprehensive meta-analysis algorithm that interrogates data from more than 2000 lupus gene expression profiles from the periphery as well as synovium, skin and kidney. 27,28 Combining hypothesis-driven and nonbiased approaches permits a better understanding of the systemic autoimmune and inflammatory networks operate in lupus and is useful to identify novel drugs as well as pathways that might be targets of therapeutic interventions. LRxL-STAT: ranking potential treatments for SLE patients using CoLTs Repositioning drugs into lupus has the potential to deliver new treatments to patients more quickly than standard drug development programs because early pre-clinical work as well as dosing, formulation, side effects, drug metabolism/interaction and pharmacokinetic/dynamic issues have already been characterized leaving only demonstration of efficacy in lupus to be determined. The 2013 goal of the LRxL-STAT initiative was to examine all compounds approved by the FDA for any indication (approximately 1100 compounds for 6800 indications), narrow down the list (LRxL) to those that may be efficacious in lupus patients (157 compounds), and to rank potential lupus treatments 1151 Lupus 141

148 大数据金融信息剪辑 1152 Lupus Identifying novel targets and drugs for SLE AC Grammer et al. using the evidence-based scoring system CoLTs. Consideration of 71 new drugs approved by the FDA in generated an additional 10 candidates with an appropriate set of characteristics to consider for CoLT scoring. The LRxL was constructed with extensive input from the interested lupus community, including patients. Excluded from the literature search were all drugs widely used for SLE (whether approved or not) as well as drugs known to be in development for SLE by Biotech/Pharma. All data used were in the public domain and no drug combinations were addressed. To compare and contrast candidates for repositioning into SLE, a novel scoring method was developed called CoLTs to rank the identified drugs/ therapies comparatively by a number of essential characteristics, including scientific rationale, experience in lupus mice/human cells (pre-clinical), previous clinical experience in autoimmunity, drug properties and safety profile including adverse events. 29 Potential candidates were scored in each of five categories: small molecules, cellular therapies, complementary and alternative therapies as well as drugs in development (DiD). Of the 157 therapies initially screened, more than 20 had an appropriate set of characteristics to consider for testing in clinical trials for lupus, including drugs targeting cellular metabolism, kinases, the immune system, HDACs, complement as well as cellular therapies and nondrug interventions. Consideration of the drugs approved by the FDA in generated additional candidates with an appropriate set of characteristics to consider for CoLT scoring and potential testing in lupus clinical trials, 30,31 including inhibitors of PI3K, PDE4, PARP, and HDACs as well as biologics with specificity for IL5, IL6, IL13, IL17alpha, VEGFR2, integrin receptors, and CD38. Newly approved PD1 checkpoint inhibitors that might have deletion as well as agonistic properties were also considered. The objective of the CoLTs system was to develop a metric that could capture applicable information from the literature and yield a composite score that would plausibly suggest that a drug candidate might be successful in lupus clinical trials. Of significance, the CoLT score reflects the state of knowledge at the time the candidate was scored but was designed to be dynamic and incorporate new knowledge as it becomes available. The motivation to develop the CoLTs system was the need for an objective way to score candidates, taking into consideration both likely efficacy as well as expected adverse event profile in lupus patients. Although estimations of possible efficacy, including mechanism of action, experience in animal models, pathway abnormalities identified in lupus patients, and previous clinical experience in other autoimmune/inflammatory experience were all thought to be valuable and carefully scored, greater weight was given to the adverse event profile. The adverse event profile is of particular importance in SLE where treatments with drugs such as glucocorticoids and immunosuppressive agents increase risk of infections, which could limit the use of other immunomodulatory therapies. Finally, properties of the compounds, including route of administration, dosing, drug metabolism, and drug drug interactions, were also scored, since they can be essential determinants of success in a chronic disease often treated with multiple drugs. Multiple iterations of the scoring system were considered in order to find the best combination of characteristics that separated drug candidates with a greater likelihood of success from those with a less attractive set of characteristics. The CoLTs system was validated by scoring a number of SOC agents and seeking face validity from experienced clinicians. The outcome was the CoLT score that provides a useful means to prioritize treatment candidates for SLE but is a dynamic, flexible measurement that takes into account new information about a therapy as it becomes available. Initially, one hundred and fifty seven therapies were examined in detail by the LRxL-STAT initiative (99 small molecules, 41 biologics, 5 cellular therapies, and 12 CAM (complementary and alternative medicines; see for the complete listing). The initial goal was to evaluate the likelihood of success of repositioning FDA-approved drug in SLE so the evaluation list scored with CoLTs was focused on the 76 FDAapproved or GRAS (Generally Recognized as Safe) therapies that scored higher than commonly used SOC lupus medications (Table 1). Drugs that scored higher than SOC medications were considered to be high priority and worth considering for small, proof-of-concept trials (STAT, SLE Treatment Acceleration Trials) that will potentially be carried out by the Lupus Clinical Investigators Network (LuCIN, As described previously and reviewed here, CoLT scores were calculated based on a numerical ranking system of 16 to þ 11 (Figures 2 and 3). All data used for scoring is in the public domain. Ten categories were scored for each candidate. Rationale was scored from 0 to þ 3, a sliding scale from no role in lupus receiving a zero and demonstrated role in lupus pathogenesis receiving a þ 3. Pre-clinical experience (lupus mice), lupus cells in vitro, lupus abnormality, autoimmunity clinical experience, and lupus clinical experience 142

149 文献传递 Table 1 Identifying novel targets and drugs for SLE AC Grammer et al. LRxL-STAT identifies candidate drugs for repositioning into SLE 1153 FDA-approved biologics FDA-approved biologics (cont.) FDA-approved small molecules FDA-approved small molecules (cont.) Abatacept 8 Infliximab 4 Azathioprine (SOC) 5 N-Acetyl cysteine 4 Adalimumab 4 Natalizumab 4 Abacavir 1 Nelfinavir 2 Belimumab (SOC) 5 Ofatumumab 5 Apremilast 5 Nilotinib 0 Certolizumab Pegol 4 Pembrolizumab 2 Bortezomib 6 Orlistat 1 Eculizumab 7 Rituximab 4 Carfilzomib 4 Panzopanib 4 Etanercept 5 Tocilizumab 8 Crizotinib 4 Quinacrine 7 Golimumab 5 Ustekinumab 10 Dasatinib 1 Roflumilast 5 Dimethyl Fumarate 4 Romidepsin 4 Complementary small molecules (CAMs) Cellular therapies Dipyridamole 4 Rosiglitazone 1 Erlotinib 4 Ruxolinib 5 Creatinine 1 Allogeneic HSCT 1 Everolimus 3 Sirolimus 2 Curcumin 7 Autologous HSCT 5 Fingolimod 5 Sorafenib 3 Nicotinamide adenine dinucleotide 4 Mesenchymal SCT 2 Glatiramer acetate 2 Statins (SOC) 3 Omega-3 Fish Oil (Krill) 8 Tregs 4 Gefitinib 1 Sunitinib 1 Promethylation diet (choline, methionine, folic acid) 6 Hydroxychloroquine (SOC) 5 Tacrolimus 5 Resveratrol 6 Ibrutinib 4 Tamoxifen 2 Tetrahydrobiopterin 0 Idelalisib 1 Tenofovir 1 TwHF (Thunder God Vine) 7 Imatinib 4 Teriflunomide 7 Ergocalciferol (Vitamin D) 6 Irinotecan 1 Thalidomide 2 Lamivudine 3 Tofacitinib 3 Alternative medicine/therapies Lapatinib 0 Valproic Acid 0 Leflunomide 3 Vandetanib 7 Acupuncture 1 Lenalidomide 5 Vemurafenib 6 Meditation/mindfulness 5 Metformin 1 Vorinostat 6 Yoga 3 Zidovudine 2 categories were scored from 1 to þ 1; a candidate was given a score of 1 for no benefit or not verified/present, zero for not determined/equivocal, or þ 1 for positive evidence. Properties of each candidate were scored from 3 to þ 3, as detailed in Figure 2 based on route/frequency administration, characteristics, specificity, interactions with SOC medications. Since some drugs have been shown to induce lupus, this category was scored as 1 for induces lupus and zero for a drug that does not induce lupus. Metabolism of each compound was scored from 2 to zero. If a candidate utilizes p450 enzymes for metabolism and has greater than 20% excretion by the kidneys, the drug received a 2. If one condition was met, the drug received a 1. Zero was assigned if the drug was not heavily metabolized by liver cytochrome oxidases and excretion by the kidneys was less than 20%. Adverse events were heavily weighted as a component of the CoLT score, numerically ranging from 5 to zero. The following formula was used to calculate the Adverse Events CoLTs sub-score: [sum of AE severity][#aes] ¼ ToxProduct! converted to whole number scale. Adverse event (AE) severity scores (renal, liver, cardiovascular, infection, cytological, cancer, pulmonary, skin) from Medscape were used to calculate CoLTs adverse event sub-score. Most FDA-assigned Black Box Warning (BBW) automatically were scored as a 5. Of note, hypersensitivity adverse events were not scored. Using the renal category as an example, since lupus patients are especially susceptible to kidney side effects, compounds were given a 4 for increasing/ inducing renal impairment /failure as well as for an increasing risk of renal toxicity or glomerulonephritis. Each event of increasing the risk of hypokalemia or hypophosphatemia was given a 1. The CoLT scores of all LRxL-STAT repositioning candidates are shown in Table 1; in this table and below, CoLT scores are in superscript. Preclinical or clinical experience in autoimmune diseases was typically available in the literature for high priority candidates. SOC lupus medications Belimumab and Hydroxychloroquine (HCQ) received a CoLT score of 5 whereas Rituximab received a CoLT score of 4 (Figure 3). The top scoring candidates for repositioning in each category are bolded in Table 1 and are as follows: biologic, Stelara/ustekinumab 10 targeting the p40 subunit of IL12/23 (called IL12b); small molecule, the lysosomal neutralizer quinacrine; 7 cellular therapy, autologous hematopoietic stem cell Lupus 143

150 大数据金融信息剪辑 1154 Identifying novel targets and drugs for SLE AC Grammer et al. Rationale (0 to +3) None Possible Likely Demonstrated Role in lupus pathogenesis Lupus mice Done, no benefit ND/conflicting results Benefit (-1 to +1) Lupus cells in vitro Done, not verified ND/conflicting results Target identified (-1 to +1) Lupus Abnormality Studied, not present ND/conflicting results Target active/abnormal (-1 to +1) Autoimmunity Trial no effect/ ND/diff results Beneficial trial/ Clinical Experience (-1 to +1) conflicting results diff diseases Case report Lupus Clinical Experience Trial no effect/ ND/diff results Beneficial trial/ (-1 to +1) conflicting results diff diseases Case report -1 Drug Properties (-3 to +3) *DDI w SOC lupus drugs; *IV, chimeric, *SC, Hu or humanized, * for each nonspecific w many targets BID qday, highly specific Induces Lupus (-1 to 0) -1 Yes -1 Drug Metabolism (-2 to 0) P450 issues & p450 issues OR NO p450 issues & Adverse Events (-5 to 0) 0 0 No >20% kidney excretion >20% kidney excretion <20% kidney excretion Figure 2 Components of Combined Lupus Treatment Scoring (CoLTs) to rank potential candidates for repositioning in lupus. The CoLT score for each drug candidate was calculated based on a numerical scoring system of 16 to þ 11. Rationale was scored based on scientific evidence for a role in lupus pathogenesis (0, no role; 1, possible role; 2, likely role; 3, demonstrated role). Preclinical evidence was assessed in lupus mice ( 1, no benefit; 0, not determined (ND) or equivocal; 1, benefit) or in vitro with human cells ( 1, not verified; 0, ND or equivocal; 1, target identified). Lupus abnormality was assessed ( 1, studied but not present; 0, ND or studied with conflicting results; 1, target active or abnormal). Clinical experience was assessed in autoimmune disease or in lupus itself ( 1, trial no effect or conflicting results; 0, ND or different results in different diseases; 1, beneficial trial or case report). Properties: 1 was given for non-specificity with many targets or for each drug drug interaction (DDI) with SOC lupus drugs (corticosteroids, MMF, AZA, CTX, statins, ACE inhibitors); 0 if the drug is chimeric or administered IV or BID; for each of the following, 1 point was given: if the drug is Hu or humanized, administered SC, given once a day, specific for its target. Induces lupus? (0, no; 1, yes). Drug metabolism was assessed ( 2, p450 metabolism and >20% kidney excretion; 1, p450 metabolism OR > 20% kidney excretion; 0, no p450 issues or < 20% kidney excretion). The rationale is summarized in Table 2. transplantation; 5 CAM: omega-3 PUFA (krill oil) 8 and meditation/mindfulness 4. (CoLT scores are indicated by superscript). All results were vetted by a committee of experts organized by the ALR and LRI in the spring of 2013 that reviewed the details of the CoLT scores (W Paul, Committee Chair with members J. Browning, M. Crow, J. Craft, M. Collins, P. Isakson, M. Sykes, and V. Werth). The initial goal of scoring drugs approved by the FDA for a non-lupus indication with the hope of encouraging Biotech/Pharma to test efficacy in lupus patients was realized in the fall of Based on LRxL-STAT s high priority CoLT score, Janssen Pharmaceuticals decided to test efficacy of Stelara/ustekinumab in lupus, with a Phase IIa trial that began in the fall of 2015 (NCT ). A number of the academic lupus centers that comprise the Lupus Clinical Investigators Network (LuCIN, are participants in this trial of Stelara/ustekinumab in lupus patients. The LRxL-STAT initiative is a living entity that is a vibrant and keeps up-to-date with all drugs approved by the FDA. In addition, the CoLT scoring is a dynamic process that was designed to constantly incorporate new information as it becomes available. Of all of the drugs approved by the FDA in , a number have potential to be highpriority candidates for repositioning into SLE as their targets are identical to drugs with high CoLT scores. Newly approved Ninlaro/ixazomib Lupus 144

151 文献传递 Identifying novel targets and drugs for SLE AC Grammer et al Belimumab HCQ Rituximab Rationale (0 to +3) Lupus mice (-1 to +1) Lupus cells in vitro (-1 to +1) Lupus Abnormality (-1 to +1) Autoimmunity Clinical Experience (-1 to +1) Lupus Clinical Experience (-1 to +1) Drug Properties (-3 to +3) Induces Lupus (-1 to 0) Metabolism of Drug (-2 to 0) Adverse Events (-5 to 0) CoLTs Figure 3 Combined Lupus Treatment Scoring (CoLTs, 16 to 11) of lupus SOC and top-ranked drugs for repositioning in lupus (see Table 3). Table 2 Categories of CoLT scoring Rationale (0 to þ 3) None Possible Likely Demonstrated Role in lupus pathogenesis Lupus mice Done, no benefit ND/conflicting results Benefit ( 1 to þ 1) Lupus cells in vitro Done, not verified ND/conflicting results Target identified ( 1 to þ 1) Lupus abnormality Studied, not present ND/conflicting results Target active/abnormal ( 1 to þ 1) Autoimmunity clinical experience ( 1 to þ 1) Trial no effect/conflicting results ND/diff results diff diseases Beneficial trial/case report Lupus clinical experience ( 1 to þ 1) Trial no effect/conflicting results ND/diff results Beneficial trial/case report diff diseases Drug properties ( 3 to þ 3) *DDI w SOC lupus drugs; *IV, chimeric, *SC, Hu or humanized, *for each nonspecific w many targets BID qday, highly specific Induces lupus ( 1 to 0) Yes No 1 0 Drug metabolism ( 2 to 0) P450 issues & >20% kidney excretion p450 issues OR >20% kidney excretion NO p450 issues & <20% kidney excretion Adverse events ( 5 to 0) inhibits the proteasome in a similar manner as Velcade/bortezomib 6, resulting in intracellular build-up of ubiquitylated proteins followed by apoptosis. The IL6 antagonist Sylvant/siltuximab (anti-il6) affects the same pathway as Actemra/ tocilizumab 8 (anti-il6r) and exerts anti-inflammatory effects as well as interferes with the differentiation/maintenance of plasma cells. Similar to the LRxL-STAT candidate vorinostat 6, Beldodaq/belinostat, Farydak/panobinostat, and givinostat are Lupus 145

152 大数据金融信息剪辑 1156 Lupus Identifying novel targets and drugs for SLE AC Grammer et al. Table 3 Rationale for CoLTs of top-ranked drugs for repositioning in lupus Belimumab HCQ Rituximab Rationale (0 to þ 3) Lupus mice ( 1 to þ 1) Lupus cells in vitro ( 1 to þ 1) Lupus abnormality ( 1 to þ 1) Autoimmunity clinical experience ( 1 to þ 1) Lupus clinical experience ( 1 to þ 1) Drug properties ( 3 to þ 3) Induces lupus ( 1 to 0) Metabolism of drug ( 2 to 0) Adverse events ( 5 to 0) CoLTs inhibitors of class I HDACs but also inhibit class II HDACs; both classes of HDACi induce intracellular accumulation of acetylated histones followed by apoptosis. There are a number of newly approved biologics specific for lineage markers that delete lymphocytes in a variety of ways. Blinatumomab/Blincyto, a Dual-Affinity Re- Targeting (DART) antibody specific for CD3 and CD19 that was suggested to LRxL-STAT when it was in development, goes a step beyond rituximab 4 since it targets CD3 þ T cells as well as CD19 þ B cells, inducing CD3 þ T cells to kill targeted B cells. A newly approved biologic, daratumumab/darzalex, targets CD38 which is highly expressed on autoantibody secreting plasma cells but is also expressed on a variety of other cell types and deletes them by ADCC. A number of first-in-class drugs approved by the FDA in may also be efficacious for lupus patients. The PDE4 small molecule inhibitors Daliresp/roflumilast and Otezla/apremilast receive high priority CoLT scores, 6 and 5 respectively. Phosphodiesterase-4 inhibitors prevent breakdown of camp and are anti-inflammatory because camp inhibition lowers the activation state of transcription factors required for the transcription of inflammatory cytokines such as IL12/IL23p40 and IL17. A new biologic targeting one of the products of Th17 cells through its specificity for IL17a, called secukinumab/ Cosentyx receives a high CoLT score of 8. A number of the drugs approved in target proteins are relevant to the pathophysiology of lupus but do not score well on the CoLT scale because of other issues. Eligustat/Cerdelga that inhibits glucosylceramide synthase may have some potential in lupus cerebritis but its lack of clinical experience in autoimmunity, mixed evidence from lupus mice, utilization of P450 for metabolism and high usage of kidneys for excretion makes it a low priority candidate for lupus drug repositioning. Another interesting candidate targets Th2 cytokines, mepolizumab/nucala (IL5). The target of mepoliziumab/nucala, IL5, is a potential biomarker of lupus nephritis and is one of the predictive markers in cerebrospinal fluid (CSF) for lupus cerebritis. 33 More work will need to be done to investigate the potential for mepoliziumab/nucala to be repositioned into lupus. Although the integrin receptor antagonist vedolizumab/entyvio was initially attractive for repositioning into lupus, further investigation revealed that it primarily targets inflammation in the gut by preventing the a 4 b 7 integrin subunit from binding to MAdCAM1. The VEGFR2 target of ramucirumab/cyramza does not score well since the target has conflicting evidence in both the lupus mice and human lupus abnormality categories. 35 Nexavar/sorafenib, the previously approved small molecule antagonist of VEGFR2 as well as PDGFR and RAF, received a CoLT score of 3 due to AEs and toxicity. A variety of intracellular-signaling inhibitors were investigated as potential candidates for repositioning into lupus. Kinase inhibitors ceritinib/zykadia (targeting ALK), selumetinib (targeting MEK1,2), idelalisib/zydelig (targeting PI3K-delta), and osemertinib/tagrisso (receptor TyrK inhibitor) were less attractive as potential candidates for repositioning into lupus because of severe adverse events that result in negative CoLT scores similar to the kinase inhibitor Xalkori/crizotinib 4 (targeting ALK). The PARP (poly ADP-ribose polymerase) inhibitor olaparib/lynparza that interferes with the DNA repair process and thus potential mutations leading to autoantibody production has good rationale, but its severe adverse event profile in combination with its utilization of P450 for metabolism and high usage of kidneys for excretion makes it a low priority candidate for lupus drug repositioning. Finally, adverse event profiles as well as negative results in lupus mouse models do not suggest that the checkpoint inhibitors, pembrolizumab/keytruda (anti-pd1) and nivolumab/ Opdivo (anti-pd1l1) are good candidates for repositioning into lupus. However, agonistic antibodies directed against PD1 remain an attractive target as a means to inhibit the function of activated T cells and especially T FH cells Deleting anti-pd1 antibodies might also be worth considering in the future. Top priority drug 146

文献传递 Identifying novel targets and drugs for SLE AC Grammer et al. 1157 (a) Exptl. vs.

153 文献传递 Identifying novel targets and drugs for SLE AC Grammer et al (a) Exptl. vs. Control KD, overexpression, or s mula on Ac ve SLE pa ent or healthy control sample (b) Disease Signature Signature from Drug or in vitro manipulation Exptl. vs. Control LINCS L1000 SLE vs. HC Meta Analysis LINCS All Genes Mean RankPt Connec vity Score (-100 to 100) Figure 4 Gene expression approach to drug repositioning: predicting drug candidates using LINCS. Drug induced transcriptional modules in the LINCS database give insights into drug action as well as function(s) of groups of genes targeted by drugs. Signatures in the LINCS database generated by in vitro manipulation (deletion or overexpression) as well as drug incubation are compared to a disease signature (i.e., DE genes from peripheral B cells: SLE vs normal individuals). candidates considered by LRxL-STAT for repositioning into SLE are shown in Table 1. Bioinformatic confirmation of top ranked drugs for repositioning into lupus To confirm high priority drugs identified by CoLT scoring through the LRxL-STAT initiative by orthogonal methodology and to identify more drug repositioning candidates for lupus patients, a second approach commonly used is the perturbagen database developed by the Broad Institute and publically available at l1000/ called LINCS (Library of Integrated Network-Based Cellular Signatures) (Figure 4). The LINCScloud is a searchable database that emerged from cmap (connectivity MAP). The first version of cmap was developed by the Broad Institute in 2006 using the Affymetrix human genome U133 (hgu133) microarray platform and consisted of a repository of four human cell lines treated with 1300 drugs. Subsequently, the Broad Institute expanded the set to 7000 expression profiles and 13,000 compounds. A new technology called the L1000 platform was developed for the next major version of cmap that is located at lincscloud, using Luminex Flexmap 3D bead technology that contained far greater probe sets than the hgu133 arrays. The Broad s L1000 results are the publically available transcription response portion of LINCS, and currently contains representative information linking gene expression to perturbagen profiles, generated from more than 1.4 million gene expression profiles obtained from 25 major cell types that were antagonized by 20,413 chemical perturbagens and 22,119 knockout or overexpression genetic perturbagens. Whereas LRxL-STAT is an hypothesis-driven literature-search approach involving crowd sourcing through the LinkedIn site, intensive literature mining and evaluation with the objective CoLT scoring tool (Figure 5), LINCS connectivity scoring affords the opportunity for a non-biased and experimentally-based comparison of the experimentally observed gene expression changes induced by various drugs and gene perturbations (i.e., what genes are up and downregulated by a given perturbagen) with gene expression abnormalities in lupus identified by meta-analysis of gene expression profiles. As is standard practice to determine gene expression abnormalities, microarray data generated from Lupus 147

154 大数据金融信息剪辑 1158 Identifying novel targets and drugs for SLE AC Grammer et al. Figure 5 Hypothesis-driven literature mining approach to drug repositioning. Figure 6 Non-biased gene expression approach to drug repositioning. mrna isolated from the periphery or tissue biopsies obtained from active lupus patients (SLEDAI 6; mixture of Caucasian (EA), African-American (AA), and Hispanic patients) or normal individuals was analyzed to determine differentially expressed genes. 27,28 A meta-analysis of multiple SLE studies generated a proposed genomic signature of overexpressed and Lupus 148

155 文献传递 underexpressed genes in lupus patients. Using Big Data bioinformatics methodology to understand genes abnormally expressed in lupus patients regardless of racial background is a strong approach to identify new drug candidates for lupus in an unbiased manner (Figure 6). Big Data bioinformatics will be described in detail below and includes techniques to measure differential expression, functional categorization in vitro and in vivo, interactions/potential pathways of gene products as well as correlation of expression to clinical characteristics. In addition, the combination of the LRxL-STAT hypothesis-driven approach with a meta-analysis Big Data approach defines a strategic methodology to identify potential drug targets and repositioning candidates for lupus patients. An in-depth bioinformatics approach has the ability to identify new and hitherto unanticipated druggable targets or biologic pathways in SLE pathogenesis and connect them with the influences (both known and unexpected) of drugs in use or in development as well as biologic pathways delineated by drug or genetic perturbation in multiple cell types. This non-biased approach will not only identify novel molecular pathways of SLE pathogenesis, but also will find novel targets of drug action that could not have been deduced from standard experimental biological approaches. The goal is to maximize the number of therapeutics that can be investigated for efficacy in SLE patients, using drugs already FDA-approved as well as drugs at all stages of development. The unbiased approach to find new drug repositioning candidates for lupus patients utilizes an analysis of lupus gene expression profiles using the LIMMA package in the R programming language to find differentially expressed (DE) genes compared to normal individuals. Genes abnormally expressed in lupus patients are tested for correlation with clinical traits such as disease activity, autoantibodies and complement components (C3/C4) using the Weighted Gene Coexpression Network Analysis (WGCNA) algorithm. Specifically, genes clustered using these unsupervised techniques (LIMMA, WGCNA) are rationalized against known cellular pathways by querying the functional, interactional and pathway databases to reveal mechanisms underlying lupus pathology. Immunologically-relevant DE lupus genes are identified in a variety of ways, queries of the JAX mouse genome informatics database ( informatics.jax.org) as well as comparison to the a variety of functional databases including the Interferome (to identify genes controlled by IFN- Identifying novel targets and drugs for SLE AC Grammer et al. alpha/beta versus IFN-gamma; as well as sites to categorize genes based on GO and KEGG terms such as DAVID (Database for Annotation, Visualization and Integrated Discovery; gov/) and the older PANTHER (Protein ANalysis Through Evolutionary Relationships; pantherdb.org/) site. Whereas potential direct interactions between gene products are predicted by the Interactome ( and STRING (Search Tool for the Retrieval of Interacting Genes/Proteins; functional pathways are predicted by proprietary IPA (Ingenuity Pathway Analysis; ingenuity.com/). Cytoscape synthesizes information from all of these sources in one figure using a network data analysis, integration and visualization tool ( Since GO (Gene Ontology; org/) and KEGG (Kyoto Encylopedia of Genes and Genomes; terms used by DAVID to make categories do not fit immunological functions very well, a curated pathway analysis pipeline was generated for the LRxL-STAT program that is specific for autoimmunity (Biologically Informed Gene-Clustering, BIG-C ). 27,28 Future comparison of lupus DE genes to GWAS/SNP information (ENCODE; and to epigenetic data showing gene methylation status ( from lupus studies as they become available will reveal the interaction between genetic susceptibility, epigenetic regulation of gene expression and pharmacologic manipulation of gene expression in lupus patients. Meta-analysis of lupus B cell transcriptomic data contributes to the quest for drug repositioning candidates Examination of lupus gene expression data has tended to focus only on the most highly expressed genes, such as those constituting the type 1 IFN signature. By contrast, genes that are expressed in rarer cell populations such as circulating plasma cells have not been easily detected in previous studies because of a number of factors, including sparsity of the cell type of interest and low expression levels of cell unique genes, which makes it difficult to discern them from background noise. 40 However, since active SLE is thought to be characterized by polyclonal activation of B cells, more complete analysis of lupus B cell gene expression 1159 Lupus 149

Sphingolipid Metabolism 1% RNA Processing 4% RNA transla on 2% Increased in Lupus B Cells Ac n Cytoskeleton 1% Type I Interferon 7% Mitochondria ribosomal/other 9% Glycolysis, TCA, Ox Phos 4% ER to

156 大数据金融信息剪辑 1160 Identifying novel targets and drugs for SLE AC Grammer et al. (a) GSE up 456 up GSE up GSE down 304 down GSE down 760 GENES COMMON TO ACTIVE SLE B CELLS DE Limma Gene Analysis (b1) Transcrip on Factor 1% Fa y Acid / Sphingolipid Metabolism 1% RNA Processing 4% RNA transla on 2% Increased in Lupus B Cells Ac n Cytoskeleton 1% Type I Interferon 7% Mitochondria ribosomal/other 9% Glycolysis, TCA, Ox Phos 4% ER to Golgi Transport/Processing 7% Oxida ve Stress / Redox Transcripts 2% GTPase Ac vity 1% Ubiquityla on 4% Histones 2% Plasmablasts / Ig Produc on 21% Nucleo de Biosynthesis 1% Nuclear 1% Golgi 4% Migra on 3% Apoptosis 5% Cell Cycle / Prolifera on 8% Decrease Prolifera on 1% MHC I and Immunoproteasome 5% Unfolded Protein Response 2% DNA Repair 3% Cell surface 1% (b2) Regula on of Small GTPase Ac vity 4% Secreted Proteins 3% Ubiquityla on 5% Decreased in Lupus B Cells Cytoskeleton 6% Ion Channels 1% ER 5% Golgi Apparatus 7% Lysosome 2% Endosomal Recycling 4% Nuclear import 2% RNA processing 12% Mitochondria & Energy 6% Chroma n Remodeling 4% Apoptosis 1% Transcrip on Regula on 13% Prolifera on 3% Cell surface proteins 7% Cytosolic Biochemistry 3% Intracellular Signaling 11% Figure 7 Bioinformatic approach to target identification in SLE: B cells as an example. (a) Differentially expressed genes in active lupus B cells (SLEDAI 6). In each of two B cell experiments (GSE10325, 4588), the total number of genes that were up- or downregulated in lupus patients compared with normal individuals is represented as a Venn diagram. A total of 760 genes were Lupus 150

157 文献传递 Identifying novel targets and drugs for SLE AC Grammer et al (c1) CELL DEATH MITOCHONDRIAL RESPIRATION CELL PROLIFERATION RNA PROCESSING CELL STRESS AND DAMAGE CELLULAR MAINTENANCE and ACTIVATION PROTEASOME UBIQUITYLATION IFN- INDUCIBLE (c2) Figure 7 Continued. consistently different in lupus peripheral B cells compared with normal peripheral B cells (456 genes with higher expression and 304 genes with lower expression). (b) Pathways up- and down-regulated in active lupus B Cells by curated functional analysis (BIG- C ). (c) STRING visualization identifies gene product interactions that are grouped using k-mean clustering, and curated through literature mining. (d) WGCNA analysis of GSE10325 active lupus B cell gene expression correlated with SLEDAI, increasing antidsdna Ab levels and decreasing levels C3/C4 complement components. Black arrows indicate modules correlated with SLEDAI. Pink boxes indicate correlation with increasing anti-dsdna Ab and blue boxes indicate correlation with decreasing C3/C4 levels. (e) STRING visualization of GSE10325 active lupus B cell genes in WGCNA identified modules correlated with SLEDAI. (f) Cytoscape visualization of network interactions of the top 300 genes DE in active lupus B cells (GSE10325) that are in WGCNA modules positively correlated with SLEDAI. Edge width and transparency are weighted based on the final STRING combined score for each connection. Nodes are colored based on LIMMA log fold-change (LFC) comparison of SLE to normal samples; the Lupus 151

158 大数据金融信息剪辑 1162 Identifying novel targets and drugs for SLE AC Grammer et al. (d) (e) (f) Figure 7 Continued. scale is based up green representing downregulated genes and red representing upregulated genes (white indicates that there was no difference between SLE and normals for a given gene). Border width indicates the FDR-adjusted p value of the LIMMA LFC measurement. The size of labels and nodes indicates how well a gene is co-expressed, or connected, to other genes in its module (WGCNA intramodular connectivity kim). Node shape indicates STRING cluster type: Cell Division (circle, lime green), DNA damage response (rectangle, brown), Proteosome (diamond, dark green), ribosome (triangle, orange), mitochondrial respiration (pink, parallelogram), protein processing and Kreb s cycle (hexagon, purple), IFN-inducible (V-shape, red) and cell maintenance/ activation (octagon, yellow). profiles may be important in identifying new targets of therapeutic intervention. Therefore, meta-analysis was carried out on raw data from two publically available lupus B cell gene expression datasets (GSE10325 and GSE4588). Specifically, DE lupus genes were determined by LIMMA and SAM analysis of genes abnormally expressed in lupus B cells from active patients (SLEDAI 6) compared to normal individuals (Figure 7(a)). Importantly, these two datasets contain gene expression profiles from subjects with diverse ethnic backgrounds; representation of as many racial groups as possible is preferable for gene expression meta-analysis. Critical for any successful meta-analysis is a standard method to curate data in order to avoid erroneous identification of genes or failure to identify genomic signatures accurately, including a standardized approach to quality control (QC) as well as a standardized normalization procedure for gene expression data. 41 Only raw datasets (not authornormalized) were examined in order to carry out standardized analysis. After QC has identified and eliminated signal artifacts, batch effects and outlier identification, uninformative probes were culled from the dataset using Affy and BrainArray Chip Definition Files (CDFs) which are revised periodically using the latest BLAST results of the Affy probes against the human genome. 43 Only probes specific to a single gene target were included in the subsequent analysis. GCRMA (Guanine Cytosine Lupus 152

159 文献传递 adjusted Robust Multi-array Analysis), which normalizes for the background intensities of array data including optical noise and non-specific binding, was employed. LIMMA (Linear Models for MicroArray and rna-seq data) is a statistical suite that was used to assess significance of DE genes. 44 LIMMA permits the use of linear models to assess differential expression in the context of multifactorily designed experiments and provides the ability to analyze comparisons between many RNA targets simultaneously. Genes are filtered to remove those with expression levels near background and outliers (log 2 > 5 standard deviations away). LIMMA is applied first by performing empirical Bayesian fitting to borrow localized variance and estimate mean gene expression between cohorts. Multiple testing correction is performed to calculate FDR (false discovery rate) adjusted p values. A consensus intersection of genes is generated for all samples within a group such as prototypic lupus B cells. WGCNA is used to redefine groups of genes based on output from principal-component, eigendistance dimensional analysis (i.e., clustering arrays by SLEDAI, autoantibodies, complement components, etc.). 45 Since WGCNA is used as part of a larger meta-analysis approach, care is taken to make sure that groups of genes are defined by the majority of arrays and not just by the arrays from one or two patients. Sub-groups, or modules, of genes are used to reiterate the differential gene expression process described above. Consensus genes resulting from stringent metaanalysis undergo gene annotation enrichment analysis for grouping into major functional pathways using the BIG-C (Figure 7(b)). STRING uses a variety of publically available information to visualize groups of interacting gene products. For each connection, a score is generated based on the confidence of two nodes being connected; if two nodes have more than one type of connection, a combined score for additional connections is generated. For example, overexpressed DE genes in lupus B cells can be grouped into cellular proliferation/division/ death, mitochondrial respiration, oxidative stress, RNA processing, proteasome/ubiquitylation, cellular maintenance/activation using STRING ( string-db.org), a database of protein-protein interactions (Figure 7(c)). To ask the question whether particular groups of genes are correlated with clinical parameters, WGCNA of arrays from lupus B cells was also carried out, looking for associations with disease activity (SLEDAI) as well as serum levels of autoantibodies (anti-dsdna Ab) and complement components (C3/C4). WGCNA-sorted modules, or Identifying novel targets and drugs for SLE AC Grammer et al. groups of genes, are shown in dendrogram form in Figure 7(d) and annotated with Pearson correlation r and p values (significance, p < 0.05). Although one module positively correlated with SLEDAI (green) did not have significant correlation with increasing autoantibody levels or decreasing complement levels, it is interesting that there are also modules of genes that are both positively and negatively correlated with SLEDAI, autoantibodies and complement. The purple and red modules positively correlated with SLEDAI are also significantly positively correlated with autoantibodies and complement (autoantibodies, r ¼ 0.5 and 0.6; C3/C4, r ¼ 0.6 and 0.7); the brown and turquoise modules, which are negatively correlated with SLEDAI are also significantly negatively correlated with autoantibodies and complement (autoantibodies and C3/C4, r ¼ 0.7 and 0.5). The magenta and yellow modules are negatively correlated with both SLEDAI and anti-dsdna Ab but not with complement C3/C4. STRING visualization of groups of genes correlated with disease activity is shown in Figure 7(e). Interestingly, all functional categorizations of upregulated genes in active lupus B cells compared to normal B cells are correlated with disease activity with the exception of oxidative stress and cellular death. Moreover, the ribosomal category is the only group of downregulated genes that is correlated with disease activity, whereas the functional categories of fatty acid biosynthesis, histone demethylation, G-protein/small GTPase signaling, transcriptional regulation and general intracellular signaling are not correlated with disease activity. Interestingly, the magenta module that is negatively correlated with disease activity and anti-dsdna autoantibodies but not complement contains a large number of Zn-finger transcriptional regulators. Cytoscape visualizes network interactions of the top 300 genes DE in active lupus B cells that are in WGCNA modules positively correlated with SLEDAI (Figure 7(f)). Edge width and transparency are weighted based on the final STRING combined score for each connection. Nodes are colored based on LIMMA log fold-change (LFC) comparison of SLE to normal samples; the scale is based on green representing downregulated genes and red representing upregulated genes (white indicates that there was no difference between SLE and normals for a given gene). Border width indicates the FDRadjusted p value of the LIMMA LFC measurement. The size of labels and nodes indicates how well a gene is co-expressed, or connected, to other genes in its module (WGCNA intramodular 1163 Lupus 153

160 大数据金融信息剪辑 1164 Lupus Identifying novel targets and drugs for SLE AC Grammer et al. connectivity k IM ). Node shape indicates STRING cluster type: Cell Division (circle, lime green), DNA damage response (rectangle, brown), proteasome (diamond, dark green), ribosome (triangle, orange), mitochondrial respiration (pink, parallelogram), protein processing and Kreb s cycle (hexagon, purple), IFN-inducible (V-shape, red), and cell maintenance/activation (octagon, yellow). The meta-analysis approach outlined here takes into account the correlation to disease activity of both pathways and individual genes in its search for new drug targets for lupus patients, including candidates for potential repositioning. Despite the most thoughtful approach to microarray analysis, subtly expressed genes cannot always be detected, but whole pathway analysis, which has the potential to include these genes by known biological association, can accomplish this detection indirectly. Additionally, only a relative handful of pharmacological substances exist which specifically target an individual gene target, but querying the LINCS drug perturbagen repository for all upstream and downstream gene targets elucidates targets included within identified pathways. Once potential drugs and pathways are identified by LINCS as candidates for intervention in lupus, IPA and the MS (molecular signature)-scoring system are used to score pathways potentially affected by a given drug. This combination approach to scoring potential drug targets and pathways for their potential for repositioning into lupus is very strong since it combines information from experiments (LINCS) with a signaling database (IPA ) and with log-fold change information about the target and its signaling pathway (MS-scoring system ). IPA and the MS-scoring system use similar approaches to score potential targets. IPA generates pathways using IPA core analysis of an input gene list of fold-change values, using both direct and indirection interaction information. The MSscoring system was developed because many immunologically-relevant pathways are not in the IPA knowledge base. For example, ustekinumab which targets both the IL12 and IL23 signaling pathways is being tested in a Phase IIb trial of lupus patients based on its high CoLT score. Only the IL12 pathway is currently in the IPA knowledge base. For comparison, the consensus lupus B cell DE list was cross-referenced to LINCS and received ranks of 90 and 96 (out of 100) for respective knockdown of either the alpha or beta subunits of IL12, indicating that ustekinumab is potentially a good candidate for targeting lupus B cells. As comparators, standard-of-care drugs in lupus such as atorvastatin, dexamethasone, methotrexate, and hydrocortisone received respective LINCS ranks of 90, 59, 94, and 91 for the DE list from lupus B cells. Scoring by MS and IPA can both be used to characterize gene expression profiles from lupus B cells. The IL12 signaling pathway scored positively by MS-scoring (Figure 8) as well as by IPA (data not shown) for both lupus B cell datasets (GSE10325, GSE4588); lupus skin that scores positively by both IPA and MS was examined since ustekinumab has been claimed to benefit lupus skin disease in case reports. 46 Importantly, both lupus B cell datasets scored positively for the IL23 signaling pathway by MS-scoring. In this example, ustekinumab appears to be a promising approach to treat lupus, supporting the results of literature mining. Gene expression analysis obtained from synovium as well as lupus nephritis (class 3/4 glomerulus or tubuloinsterstitium) also indicated involvement of the IL-12/23 pathway by both IPA and MS. In summary, analysis of gene expression data employing the hypothesis-based method CoLTs (highest scoring biologic), the experimentally based LINCS system as well as the unbiased meta-analysis approach scored by either IPA or MS all suggested a potential role of ustekinumab as a treatment for SLE. Moreover, layering on information from WGCNA that defines groups of genes that are positively or negatively correlated to SLEDAI revealed that all genes whose products are involved in either IL12 or IL23 signaling are correlated to disease activity. Specifically, all detected genes whose products are involved in IL12 signaling are in SLEDAI- correlated modules with the exception of Tyk2 (turquoise) and MAPK14/p38 (magenta). All detected genes whose products are involved in IL23 signaling are in SLEDAI-positively correlated modules with the exception of CCR6/MIP1a-ligand and IL6 (yellow module) and STAT5a/b (brown module). Together, analysis of peripheral B cells or skin biopsies from lupus patients supported the conclusion from CoLT scoring that ustekinumab is a high-priority candidate for repositioning into lupus. Janssen s Phase IIb clinical trial of lupus patients (NCT ) will definitively determine the effectiveness of ustekinumab for SLE patients. Other high priority candidates for drug repositioning based on CoLT scoring include small molecules that target JAKs. MS-scoring of JAK inhibitors (Jakafi ruxolitinib 5, Xeljanz tofacitinib 3 ) is shown in Figure 9(a) (CoLT scores in superscript). For comparison, the consensus lupus B cell DE list was cross referenced to LINCS and received ranks of 95 and 87 (out of 100) for 154

161 文献传递 Identifying novel targets and drugs for SLE AC Grammer et al Figure 8 MS-scoring assessment of ustekinumab for repositioning into SLE. The MS-scoring system assigns a score to each member of a signaling pathway using the following parameters. If the fold-change of a gene suggests that the pathway is activated; for example, if transcripts of members of the signaling pathway are upregulated or negative regulators of the pathway are downregulated, then the gene is given a score of þ1. If the fold change of transcripts suggest inhibition of the pathway (either transcripts of members of the signaling pathway are downregulated or negative regulators of the pathway are upregulated) then the gene is given a score of 1. A score of zero is assigned if the gene has no fold-change. Individual scoring of each component of the IL12/23 signaling pathway by the MS-scoring system. Scores for each gene in the pathway are added up for each dataset and normalized into a percentage by dividing the raw score over the total number of genes that could be possibly detected on the microarray chip in the signaling pathway. The final %score indicates the activation state of the pathway and can range from 100 to 100. Significance was assessed by Fischer s exact test and overlap p values < 0.05 are indicated. respective knockdown of either JAK1 or JAK2, suggesting that JAK inhibitors are potentially good candidates for repositioning into lupus. Signaling pathways characteristic of the drug targets of ruxolitinib/tofacitinib scored highly by MS in data sets from lupus B cells as well as for the more traditional target of the kidney for ruxolitinib/tofacitinib. Of interest, a number of gene products critically involved in JAK signaling positively correlated to SLEDAI following WGCNA analysis of active lupus B cells (25/69, or 36%; Figure 9(b)). Moreover, JAK2 is abnormally overexpressed in active lupus B cells compared to normal B cells; by contrast, expression of JAK1 was not overexpressed in both B cell datasets. Moreover, JAK2 along with its associated signaling molecules STAT1, PI3K-p100c/PIK3CG, GRB2, SOS1, N- RAS, and CDKN1A/p21 are all in WGCNA modules positively correlated with SLEDAI (IPA representation with WGCNA overlap in Figure 9(b)). Except for N-RAS, all of these gene products are in modules that are positively correlated with antidsdna autoantibody and C3/C4 complement. New drug targets: identifying pathways abnormally expressed in SLE As an example of how the MS scoring system can be used to assess the suitability of Drugsin-Development as a repositioning candidates for lupus patients, MEDI-7169, a biologic specific for IL21 that plays roles in maintenance of CD8 cells and NK cells and is essential for plasma cell differentiation, 47 was examined by CoLTs and the signaling database scoring systems (MS ). Of note, neither IPA nor LINCS could be used to examine the suitability of the IL21R signaling pathway. IL21R signaling is not included in the IPA knowledge base and LINCS does not include perturbagen or in vitro knock-down experiments that examine the IL21R signaling pathway. The CoLT scoring system was modified to a scale of 4 to7 for drugs in development like the anti-il21 antibody since data regarding toxicology such as drug properties, metabolism and adverse events are often not publically available while a drug is in Lupus 155

162 大数据金融信息剪辑 1166 Identifying novel targets and drugs for SLE AC Grammer et al. (a) (b) Figure 9 Pathway analysis of the role for JAK inhibitors as repositioned drugs into SLE. (a) Individual scoring of each component of the JAK1/JAK2 signaling pathway by the MS-scoring system. Scores for each gene in the pathway are added up for each dataset and normalized into a percentage by dividing the raw score over the total number of genes that could be detected on the microarray chip in the signaling pathway. The final %score indicates the activation state of the pathway and can range from 100 to 100. Significance was assessed by overlap confidence intervals and overlap p values < 0.05 are indicated. (b) IPA representation of JAK signaling in active lupus B cells (GSE10325). Individual molecules that are in modules either positively or negatively correlated with SLEDAI as assessed by WGCNA analysis are respectively indicated by a red plus sign or a green minus sign. Lupus 156

163 文献传递 Identifying novel targets and drugs for SLE AC Grammer et al (a) (b) Figure 10 MS-scoring assessment of DiD (drugs in development) for repositioning into SLE. Scores for each gene in the pathway are added up for each dataset and normalized into a percentage by dividing the raw score over the total number of genes that could be detected on the microarray chip in the signaling pathway. The final %score indicates the activation state of the pathway and can range from 100 to 100. Significance was assessed by overlap confidence intervals and overlap p values < 0.05 are indicated. Individual scoring of each component of the IL21 (a) or IL17 (b) signaling pathway by the MS-scoring system to assess potential repositioning of MEDI-7169 (s) or secukinumab (b) into lupus. development. Of note, this modified CoLTs approach previously had been employed to evaluate the ROCK2-inhibitor KD-025, 29,48 and appears to be able to distinguish likely drug candidates. Lupus mice have been successfully treated by blocking IL MEDI-7169 received a very high modified CoLT score of 7 (DiD CoLT scale 4 to 7). Moreover, the IL21 signaling pathway scored positively by MS-scoring (Figure 10(a)) for both lupus B cell datasets (GSE10325, GSE4588). Both IRF4 and PRDM1/BLIMP1, that are MS components downstream of IL21 Lupus 157

164 大数据金融信息剪辑 1168 signaling and are transcription factors essential for differentiation of plasma cells, segregate into WGCNA modules (IRF4, green; PRDM1, red) positively correlated with SLEDAI; interestingly, PRDM1 is in the red module which is additionally positively correlated with anti-dsdna Ab as well as C3/C4 complement components. In this example, as was the case for ustekinumab, examination of the feasibility of MEDI-7169 as a potential drug repositioning candidate for lupus patients predicts its success as a B cell target as well as a target for a variety of tissues. Arrays from biopsies of the positive control lupus skin as well as synovium and kidney (class 3/4 glomerulus or tubuloinsterstitium) scored positively by MS for the IL21 signaling pathway targeted by MEDI Approved in 2015 by the FDA for treatment of psoriasis, secukinumab 8 is a biologic that targets IL17a and is promising as a high priority drug repositioning candidate for lupus due to its CoLT score. Unfortunately as with MEDI-7169, LINCS does not include any perturbagens that block the IL17R signaling pathway nor did LINCS do any in vitro experiments knocking down either IL17 or its receptor. Blocking IL17 has been reported to inhibit B cell differentiation to plasma cells, decrease the presence of Th17 cells in kidneys from lupus mice, and increase the number/function of regulatory T cells The IL17 signaling pathway scored well for lupus B cells, both by MS and IPA (Figure 10(b)). In this example, as was the case for ustekinumab, the feasibility of secukinumab as a potential drug repositioning candidate for lupus patients was evident from MS-scoring, especially in B cells and a variety of tissues. Interestingly, the DE profile from lupus PBMC, whole blood and synovium all score well by MS and also overexpress IL17Ra. Summary Identifying novel targets and drugs for SLE AC Grammer et al. Together, the bioinformatic results shown here, support many of the drug candidates scored by CoLTs using literature mining in addition to crowd-sourcing and ongoing focused discussions with experts in the lupus community. In addition, the unbiased meta-analysis approach outlined here utilizing differential gene expression analysis of mrna microarrays from the active lupus patients is a highly effective means to identify candidate FDA-approved drugs to move forward into small, focused proof-of-concept trials such as the Phase II ustekinumab SLE trial that began in the fall of Some high scoring drugs-in-development such as the ROCK2 inhibitor KD-025 can be repositioned directly into lupus patients from other autoimmune diseases, in this case from psoriasis. 49 Other high scoring drugs-in-development may be at the right stage to be advanced into animal models of lupus, into in vitro analysis with human lupus cells or directly into LuCIN-STAT clinical trials, depending on the amount of information available on each individual agent. The field of drug repositioning has emerged to the stage that potential candidates for a given disease such as lupus can be assessed by a variety of algorithms and scoring systems to determine the feasibility of each candidate. This review compared and contrasted a hypothesis-driven approach, literature mining with prioritization by the CoLT scoring system that emerged from the LRxL-STAT lupus drug repositioning initiative, with unbiased approaches that include the currently available meta-analysis of mrna expression data (incorporating pathway and functional categorization tools). Both approaches are dynamic and can be focused and updated in real-time as new information emerges with examples given for newly approved drugs and drugs-in-development. Examples of candidate lupus drugs identified by CoLTs and confirmed by meta-analysis include the anti-il12/23 p40 antibody ustekinumab 10 that was repositioned into a lupus Phase II clinical trial from psoriasis after high priority scoring by CoLTs. Moreover, newly approved drugs in targeting the proteasome, IL6 and HDACs could be rapidly scored based on older FDA-approved drugs that were scored in the inaugural 2013 LRxL-STAT CoLT scoring group. The example of the drug-indevelopment KD-025 7, a ROCK2 inhibitor that is being repositioned into lupus from psoriasis based on modified CoLT scoring was extended with the example of MEDI , an anti-il21 monoclonal that is being considered for lupus. A first-in-class drug approved in 2015, secukinumab 8, an anti- IL17a Ab, was reviewed as an example of the ongoing nature of drug repositioning, especially in context of hypothesis-based CoLT scoring as well as the unbiased gene expression multi-parameter scoring system that included IPA and MS. In summary, this review outlined the various hypothesis and unbiased methods of drug repositioning using lupus as an example disease and B cells as an example cell type to demonstrate approaches to target identification and drug positioning and repositioning that may yield new therapies for SLE. Lupus 158

165 文献传递 Declaration of Conflicting Interests The author(s) declared no potential conflicts of interest with respect to the research, authorship, and/or publication of this article. Funding The author(s) disclosed receipt of the following financial support for the research, authorship, and/or publication of this article: The authors received financial support from the ALR/LRI (now the LRA) for crowd-sourcing/literature mining and from the John and Marcia Goldman Foundation for BigData analysis of gene expression. References 1 Lan Langedijk J, Mantel-Teeuwisse AK, Slijkerman DS, Schutjens MH. Drug repositioning and repurposing: terminology and definitions in literature. Drug Discov Today 2015; 20: Ashburn TT, Thor KB. Drug repositioning: identifying and developing new uses for existing drugs. Nat Rev Drug Discov 2004; 3: Roundtable on Translating Genomic-Based Research for Health, Board on Health Sciences Policy, Institute of Medicine. Drug repurposing and repositioning: workshop summary. Washington, DC: National Academies Press, Minie M, Chopra G, Sethi G, et al. CANDO and the infinite drug discovery frontier. Drug Discov Today 2014; 19: Bisgin H, Liu Z, Kelly R, Fang H, Xu X, Tong W. Investigating drug repositioning opportunities in FDA drug labels through topic modeling. BMC Bioinformatics 2012; 13(Suppl 15): S6. 6 Hurle MR, Yang L, Xie Q, Rajpal DK, Sanseau P, Agarwal P. Computational drug repositioning: from data to therapeutics. Clin Pharmacol Ther 2013; 93: Relle M, Weinmann-Menke J, Scorletti E, Cavagna L, Schwarting A. Genetics and novel aspects of therapies in systemic lupus erythematosus. Autoimmun Rev 2015; 14: Deng Y, Tsao BP. Advances in lupus genetics and epigenetics. Curr Opin Rheumatol 2014; 26: Marion TN, Postlethwaite AE. Chance, genetics, and the heterogeneity of disease and pathogenesis in systemic lupus erythematosus. Semin Immunopathol 2014; 36: Kyogoku C, Smiljanovic B, Gru n JR, et al. Cell-specific type I IFN signatures in autoimmunity and viral infection: what makes the difference? PLoS One 2013; 8: e Smiljanovic B, Gru n JR, Biesen R, et al. The multifaceted balance of TNF-a and type I/II interferon responses in SLE and RA: how monocytes manage the impact of cytokines. J Mol Med 2012; 90: Kennedy WP, Maciuca R, Wolslegel K, et al. Association of the interferon signature metric with serological disease manifestations but not global activity scores in multiple cohorts of patients with SLE. Lupus Sci Med 2015; 2: e Lauwerys BR, Hachulla E, Spertini F, et al. Down-regulation of interferon signature in systemic lupus erythematosus patients by active immunization with interferon a-kinoid. Arthritis Rheum 2013; 65: Chiche L, Jourde-Chiche N, Whalen E, et al. Modular transcriptional repertoire analyses of adults with systemic lupus erythematosus reveal distinct type I and type II interferon signatures. Arthritis Rheumatol 2014; 66: Identifying novel targets and drugs for SLE AC Grammer et al. 15 Jabbari A, Suárez-Farin as M, Fuentes-Duculan J, et al. Dominant Th1 and minimal Th17 skewing in discoid lupus revealed by transcriptomic comparison with psoriasis. J Invest Dermatol 2014; 134: Berthier CC, Bethunaickan R, Gonzalez-Rivera T, et al. Crossspecies transcriptional network analysis defines shared inflammatory responses in murine and human lupus nephritis. J Immunol 2012; 189: Nzeusseu Toukap A, Galant C, Theate I, et al. Identification of distinct gene expression profiles in the synovium of patients with systemic lupus erythematosus. Arthritis Rheum 2007; 56: Rai G, Rai R, Saeidian AH, Rai M. Microarray to deep sequencing: transcriptome and mirna profiling to elucidate molecular pathways in systemic lupus erythematosus. Immunol Res 2016; 64: Costa-Reis P, Russo PA, Zhang Z, et al. The role of micrornas and human epidermal growth factor receptor 2 in proliferative lupus nephritis. Arthritis Rheumatol 2015; 67: Chung SA, Nititham J, Elboudwarej E, et al. Genome-wide assessment of differential DNA methylation associated with autoantibody production in systemic lupus erythematosus. PLoS One 2015; 10: e Wu H, Zhao M, Tan L, Lu Q. The key culprit in the pathogenesis of systemic lupus erythematosus: aberrant DNA methylation. Autoimmun Rev 2016; 15: Avorn J. The $2.6 billion pill: methodologic and policy considerations. N Engl J Med 2015; 372: National Institute of Arthritis and Musculoskeletal and Skin Diseases (NIAMS). Handout on Health: Systemic Lupus Erythematosus. Available at: Info/Lupus/default.asp (February 2015). 24 Aldridge C, Moddares M. Celebrating world lupus day: gaining ground with effective policy. Available at: html (May 2014). 25 Grammer AC, Ryals M, Lipsky PE. A comprehensive approach to identify approved drugs and treatments for repositioning as therapies for systemic lupus erythematosus. Arthritis Res Ther 2014; 16(Suppl 1): A Lipsky PE, Ryals M, Grammer AC. A novel strategy to identify and evaluate approved drugs and treatments for repositioning as therapies for systemic lupus erythematosus (SLE). Arthritis Rheumatol 2014; 66: S294 S Robl R, Catalina M, Heuer S, et al. Identification of novel pathway abnormalities in B cells from SLE patients. In: FOCIS 2015, San Diego, CA, June 2015, paper no. W55. Federation of Clinical Immunology Societies. 28 Robl R, Heuer S, Catalina M, et al. Meta-analysis of SLE gene expression data identifies novel abnormalities in lymphocytes from the circulation, kidney, skin or synovium that define systemic networks of autoimmunity. Keystone Syst Immunol 2016; Grammer AC, Ryals MM, Catalina MD, Lipsky PE. Repositioning drugs for SLE. In: Tsokos G, Buyon J, Koike T, Lahita R (eds), Repositioning drugs for SLE. Systemic Lupus Erythematosus 2016; 5th ed Munos B new drug approvals hit 66-year high. Available at: (January 2016). 31 Munos B new drug approvals hit 66-year high. Available at: (January 2016). 32 Alliance for Lupus Research. New lupus clinical trial to study ustekinumab. Available at: V4QmgTkrLgo (April 2015). 33 Lu R, Munroe M, Guthridge J, et al. IFN-c (Th 1 ), IL4 (Th 2 ), and IL5 (Th 2 ) are elevated in pre-clinical SLE and predict transition to classified disease prior to appearance of autoantibodies or clinical criteria. Arthritis Rheumatol 2014; 66: S708 S Ichinose K, Arima K, Ushigusa T, et al. Distinguishing the cerebrospinal fluid cytokine profile in neuropsychiatric systemic lupus 1169 Lupus 159

166 大数据金融信息剪辑 1170 Identifying novel targets and drugs for SLE AC Grammer et al. erythematosus from other autoimmune neurological diseases. Clin Immunol 2015; 157: Watanabe H, Mamelak AJ, Weiss E, et al. Anti-vascular endothelial growth factor receptor-2 antibody accelerates renal disease in the NZB/W F1 murine systemic lupus erythematosus model. Clin Cancer Res 2005; 11: Vazgiourakis VM, Zervou MI, Eliopoulos E, et al. Implication of VEGFR2 in systemic lupus erythematosus: a combined genetic and structural biological approach. Clin Exp Rheumatol 2013; 31: Li H, Pauza CD. CD25(þ) Bcl6(low) T follicular helper cells provide help to maturing B cells in germinal centers of human tonsil. Eur J Immunol 2015; 45: Ding Y, Li J, Yang P, et al. Interleukin-21 promotes germinal center reaction by skewing the follicular regulatory T cell to follicular helper T cell balance in autoimmune BXD2 mice. Arthritis Rheumatol 2014; 66: Feng X, Wang D, Chen J, et al. Inhibition of aberrant circulating Tfh cell proportions by corticosteroids in patients with systemic lupus erythematosus. PLoS One 2012; 7: e Lugar PL, Love C, Grammer AC, Dave SS, Lipsky PE. Molecular characterization of circulating plasma cells in patients with active systemic lupus erythematosus. PLoS One 2012; 7: e Campain A, Yang YH. Comparison study of microarray metaanalysis methods. BMC Bioinformatics 2010; 11: Ramasamy A, Mondry A, Holmes CC, Altman DG. Key issues in conducting a meta-analysis of gene expression microarray datasets. PLoS Med 2008; 5: e Brainarray chip definition files (CDFs). Open source. Available at: (2016). 44 Ritchie ME, Phipson B, Wu D, et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res 2015; 43: e Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 2008; 9: De Souza A, Ali-Shaw T, Strober BE, Franks AG Jr. Successful treatment of subacute lupus erythematosus with ustekinumab. Arch Dermatol 2011; 147: Gharibi T, Majidi J, Kazemi T, Dehghanzadeh R, Motallebnezhad M, Babaloo Z. Biological effects of IL-21 on different immune cells and its role in autoimmune diseases. Immunobiology 2016; 221: I. Santos. Kadmon Corporation s lupus treatment candidate KD025 designated top priority. Available at: /01/09/kadmon-corporations-lupus-treatment-candidatedesignated-top-priority/ (January 2016). 49 Vugmeyster Y, Guay H, Szklut P, et al. In vitro potency, pharmacokinetic profiles, and pharmacological activity of optimized anti- IL-21R antibodies in a mouse model of lupus. MAbs 2010; 2: Herber D, Brown TP, Liang S, Young DA, Collins M, Dunussi- Joannopoulos K. IL-21 has a pathogenic role in a lupus-prone mouse model and its blockade with IL-21R.Fc reduces disease progression. J Immunol 2007; 178: Yang X, Yang J, Chu Y, et al. T follicular helper cells mediate expansion of regulatory B cells via IL-21 in Lupus-prone MRL/lpr mice. PLoS One 2013; 8: e Rankin AL, Guay H, Herber D, et al. IL-21 receptor is required for the systemic accumulation of activated B and T lymphocytes in MRL/MpJ-Fas(lpr/lpr)/J mice. J Immunol 2012; 188: Hsu HC, Yang P, Wang J, et al. Interleukin 17-producing T helper cells and interleukin 17 orchestrate autoreactive germinal center development in autoimmune BXD2 mice. Nat Immunol 2008; 9: Amarilyo G, Lourenc o EV, Shi FD, La Cava A. IL-17 promotes murine lupus. J Immunol 2014; 193: Wen Z, Xu L, Xu W, et al. Interleukin-17 expression positively correlates with disease severity of lupus nephritis by increasing anti-double-stranded DNA antibody production in a lupus model induced by activated lymphocyte derived DNA. PLoS One 2013; 8: e Lupus 160

167 文献传递 Copyright of Lupus is the property of Sage Publications, Ltd. and its content may not be copied or ed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or articles for individual use. 161

大数据金融信息剪辑 RESEARCH ARTICLE How Does National Scientific Funding Support Emerging Interdisciplinary Research: A Comparison Study of Big Data Research in the US and China Ying Huang 1, Yi Zhang 1,2,

168 大数据金融信息剪辑 RESEARCH ARTICLE How Does National Scientific Funding Support Emerging Interdisciplinary Research: A Comparison Study of Big Data Research in the US and China Ying Huang 1, Yi Zhang 1,2, Jan Youtie 3, Alan L. Porter 4, Xuefeng Wang 1 * a School of Management and Economics, Beijing Institute of Technology, Beijing, , China, 2 Centre for Quantum Computation and Intelligent Systems, Faculty of Engineering and Information Technology, University of Technology, Sydney, NSW 2007, Australia, 3 Enterprise Innovation Institute, Georgia Institute of Technology, Atlanta, GA, 30332, United States of America, 4 School of Public Policy, Georgia Institute of Technology, Atlanta, GA, 30332, United States of America * wxf5122@gmail.com OPEN ACCESS Citation: Huang Y, Zhang Y, Youtie J, Porter AL, Wang X (2016) How Does National Scientific Funding Support Emerging Interdisciplinary Research: A Comparison Study of Big Data Research in the US and China. PLoS ONE 11(5): e doi: / journal.pone Editor: James Wilsdon, University of Sheffield, UNITED KINGDOM Received: August 11, 2015 Accepted: April 14, 2016 Published: May 24, 2016 Copyright: 2016 Huang et al. This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. Data Availability Statement: All relevant data are within the paper and its Supporting Information files. Funding: This research is supported by grants from the US National Science Foundation (award no ), the National High Technology Research and Development Program of China (grant no. 2014AA015105), the General Program of National Natural Science Foundation of China (grant no ). Besides, the authors are grateful for the scholarship provided by the China Scholarship Council (CSC Student ID ). The funders had no role in study design, data collection Abstract How do funding agencies ramp-up their capabilities to support research in a rapidly emerging area? This paper addresses this question through a comparison of research proposals awarded by the US National Science Foundation (NSF) and the National Natural Science Foundation of China (NSFC) in the field of Big Data. Big data is characterized by its size and difficulties in capturing, curating, managing and processing it in reasonable periods of time. Although Big Data has its legacy in longstanding information technology research, the field grew very rapidly over a short period. We find that the extent of interdisciplinarity is a key aspect in how these funding agencies address the rise of Big Data. Our results show that both agencies have been able to marshal funding to support Big Data research in multiple areas, but the NSF relies to a greater extent on multi-program funding from different fields. We discuss how these interdisciplinary approaches reflect the research hot-spots and innovation pathways in these two countries. Introduction Dramatic advances resulting from the rapid pace of technological developments and new interdisciplinary fields are on the horizon [1]. Science and engineering research continually evolves beyond the boundaries of single disciplines and offers employment opportunities that require not only depth of knowledge but also breadth of knowledge, integration, synthesis, and an array of skills. Interdisciplinary research (IDR), defined as work which integrates theories, methods, tools and/or concepts from multiple specialized knowledge bases, is often treated as proxy for research to advance fundamental understanding or to solve problems whose solutions are beyond the scope of a single discipline or area of research practice [2, 3]. Since IDR is increasingly prominent today, compiling reflections on its premises and issues could serve PLOS ONE DOI: /journal.pone May 24, /

169 文献传递 How Does Scientific Funding Support Interdisciplinary Research and analysis, decision to publish, or preparation of the manuscript. Competing Interests: The authors have declared that no competing interests exist. those engaged in R&D analysis, policy and management [4], and accelerate the process of scientific discoveries and societal problem solving. Interdisciplinarity has three distinct components that are typically taken into account: Variety, Balance and Disparity [5]. Shannon entropy [6] and Simpson [7] offered popular diversity indices in the ecological literature and more recently in the interdisciplinarity literature to capture both variety and balance of referenced disciplines. Furthermore, Rao [8] and Stirling [5] proposed disparity as the third dimension, and Rao-Stirling diversity was a composite measure of the three diversity components [5]. Further indicators, based on the above theoretical foundations, have been proposed to measure IDR, including network coherence [9], specialization scores [10], the integration score [11, 12], the diffusion score [13], and other improved indicators [14, 15]. However, most of bibliometric literatures on measuring IDR focuses on the outputs of science, or publications [16]. Less emphasis has been placed on inputs, such as research proposals, which typically contain broader information than research articles. Proposals reflect on academic individuals, networks, and evolutionary processes of science and directly indicate overarching research programs, which, if funded, can lead to multiple publications [17]. In general, research proposals are granted by national governments and aimed to support academic institutions and R&D departments to conduct basic research, the content of which focuses on new ideas, concepts, and potential innovative actions. Understanding of funding proposals could be considered as an express path to reveal how evolutionary R&D pathways work in given countries, regions, and research fields [18]. Scientific funding plays an essential role in individual scientific research, university discipline construction, and national innovation system patterns [19]. Previous research on scientific funding has focused on research investments [20], optimization design for peer review [21], and funding distribution [22]. In addition, evaluations of the social impact [23, 24] and performance [25, 26] of science funding reflect an evaluative perspective on funding research. As science increasingly deals with boundary-spanning problems, various policy and funding initiatives have been developed to encourage interdisciplinary research to push forward academic capability and accelerate scientific discovery. National scientific funding organizations specifically support research, including investigations of an interdisciplinary nature, through a variety of target methods [24]. As the two leading scientific funding organizations in the world, National Science Foundation (NSF) of the US and National Natural Science Foundation of China (NSFC) are noteworthy. NSFC, as the largest scientific funding agency in China, has made considerable efforts to promote basic and applied research [27]. NSFC not only supports cutting-edge ideas and projects in different disciplines, but also sponsors high-level strategic academic exchange platforms (e.g. Shuangqing Forum) to promote interdisciplinary studies and innovative cultures and create a favorable environment for research [28]. Dr. Wei Yang, the present president of NSFC, defined strengthening interdisciplinary interaction as one key mission of NSFC [29]. The US NSF supports research and education in non-medical fields of science and engineering, not only to produce leading edge research, but also to narrow the gap between science and society through the use of broader impacts criteria [30, 31]. NSF treats fostering IDR as its high priority and encourages researchers to conduct IDR research in novel and emerging areas extending beyond any particular current NSF programs to keep the US at the leading edge of discovery in a wide range of scientific areas [32]. We are especially interested in examining how these two agencies support research in a rapidly growing interdisciplinary domain. The domain of interest for this study is Big Data. In an increasingly complex economic and social environment, accessing vast amounts of data and information can help organizations and governments make better policies, predictions and decisions [33]. Big Data is the application of data technology to obtain valuable information from various types of extremely large data sets, which can come from social networks, images, PLOS ONE DOI: /journal.pone May 24, /

170 大数据金融信息剪辑 How Does Scientific Funding Support Interdisciplinary Research sensors, the web, or other unstructured sources [34]. Big Data has its legacy in information technology developments. However, its capacity and analytic capabilities promise to make an essential contribution in areas such as traffic management, logistics, health care, and education [35]. Big Data research can help further these scientific and societal benefits for governments, enterprises and academic institutions. Aiming to make the most of the fast-growing volume of digital data, the US government established a Big Data Research and Development Initiative program on March 29, 2012, which committed over $200 million in new funding through six agencies to extract knowledge and insights from large and complex collections of digital data [36]. The Chinese government has similarly targeted Big Data as a strategic area of research and development [37]. Since 2012, a large number of Big Data-related projects have been supported by the Ministry of Science and Technology, the National Development and Reform Commission, the Ministry of Industry and Information Technology, and other central governmental departments of China. Porter and his colleagues [38] figured out that Big Data scientific publications grew dramatically in 2013 and 2014, by more than four times the number of the papers published in They further reported that the leading countries based on author location were the US and China; these two countries accounted for more than half of all Big Data publications and nearly all of the top 30 author organizations. In this paper, we apply tech mining [i.e., text mining of science, technology & innovation (ST&I) information to generate useful intelligence] [39], network analysis, and interdisciplinary assessment methods to understand how NSF and NSFC have ramped-up their funding awards to address the rapid rise of Big Data research. Our particular focus is on research awards rather than scientific articles [40 43]. Our research addresses the following questions about how NSF and NSFC support research in rapidly emerging areas, based on a case study of the emergence of Big Data research: 1. How do NSF and NSFC differ in terms of the amount of funding resources allocated to Big Data research over time? 2. To what extent do NSF and NSFC fund similar or different subareas of Big Data research? 3. What are the disciplinary ranges and connections in Big Data funded proposals in the two organizations and how do they differ in the degree of interdisciplinarity of funding research? The remainder of this paper consists of four sections. Following this general introduction, the Methodology section describes the framework and methodology. The Results section presents comparative results of the research profiling and tech mining analyses. The Conclusion and Discussion section reviews our research, identifies research limitations, and indicates promising research opportunities to pursue in the future. Methodology Based on the aforementioned research questions, we retrieved a raw dataset of all funded research proposals relating to Big Data from the NSF official website ( and the NSFC s ISIS system (Internet-based Science Information System) ( ). The NSF website offers two different search types: (1) simple search: provides title, abstract, names, institutions, programs and other information associated with an award; and (2) consolidated advanced search: provides access to all fielded searches. In this paper, we chose the consolidated advanced search. PLOS ONE DOI: /journal.pone May 24, /

171 文献传递 How Does Scientific Funding Support Interdisciplinary Research The ISIS system was applied nationwide in 2003, and it has been well received and supports NSFC to implement managerial control to cope with China s rapidly growing research productivity [44]. In the ISIS system, users can retrieve the information by typing specific search terms in the query page, but only a few fields can be viewed: Awards Number, Disciplinary Application Code, Title, Principal Investigator, Affiliation, Sponsored Funds, Start Date and End Date. A key question is when to begin the search. First, we originally set the starting year at 2008, which is when a special issue of Nature, what Big Data sets mean for contemporary science [45], was published. However, there are no awards for the year 2008 in our retrieval of funded proposals. Thus, 2009 became our starting year. Second, we originally planned to use a topical search, which captures the occurrences of Big Data in titles, abstracts and keywords [46]. This approach worked for searching the NSF awards database. Ultimately, we obtained 921 records from NSF and 434 records from NSFC during the period of 2009 to However, because the NSFC data are in Chinese, we found that use of standard codes such as the NSFC s Disciplinary Application Code (DAC), was more effective than direct translation of topics during the analyzing process. We validated the DACs further by arranging native speakers to examine our approach and select NSFC funded proposal records to guarantee its comparability. We conducted a retrieval of publications from Web of Science ( webofknowledge.com/) to verify some conclusions and judgments about searching the funded proposal databases using an elementary search strategy of TS = Big Data. This approach resulted in 2815 records during the period of 2008 to 2015 (retrieved on January 8, 2016). We imported the data into the text-mining tool VantagePoint ( com/), and ascertained from the funding acknowledgements section of these papers that 272 publications were supported by NSFC, and 198 by NSF. They ranked as the top 2 national funding agencies, and occupied 22.48% and 16.36% respectively in all funded publications (1210 publications). All raw data of Big Data proposals funded by NSF and NSFC can be founded in S1 File. In addition to seeking to measure basic activity information, we also attempted to interpret the reasons and rules behind the activities of these two funding agencies. To this end we drew on the work of tech mining research [47, 48] to extract metadata for research profiling. We also introduced two indicators to measure the inequality of funding organization distribution and the degree of interdisciplinarity for a single granted project. The framework of this paper, comprising the data resources, research questions, and analytical methods, is diagramed below (Fig 1). Results Research Profling Analysis Fig 2 shows grant activity trends for Big Data supported by NSF and NSFC from 2009 to Looking at the counts of grant awards, both NSF and NSFC supported very limited Big Data research before For NSF, we can see an increase in 2012; a notable rise in both counts of Big Data awards and dollar amounts associated with these counts can be observed. For NSFC, the number of granted projects increased from only 1 record in 2009 to 61 records in 2013; these figures for NSF are 2 and 204. In regards to funds granted, NSF sponsored universities and other organizations with $45.82 million in 2012, 42 times more than NSFC did ($1.07 million dollars). NSF and NSFC both continued to increase funding, reaching $ million and $37.45 million in 2014, respectively. There is a slight downturn in NSFC award activity in 2015 which is not presented in the NSF award data. This downturn in NSFC award activity may not necessarily represent a decline in funding Big Data research in China. In China, nearly every PLOS ONE DOI: /journal.pone May 24, /

172 大数据金融信息剪辑 How Does Scientific Funding Support Interdisciplinary Research Fig 1. The Framework of Paper. doi: /journal.pone g001 province has its own science foundation (including Natural Science Foundation and Social Science Foundation). At the same time, several central departments also offer funding to support scientific research, such as the Ministry of Science and Technology of China, the Ministry of Education of China, and so on. While a parallel system exists for the US (through research funding by state governments, other federal agencies, and private non-profit organizations), the US system is not as extensive as is the case in China. Why was 2013 such a bellwether year for Big Data research proposals in both countries? We are not privy to all the reasons for this growth, but one factor is likely to be the White House s announcing the Big Data Research and Development Initiative in NSF subsequently announced its support of new research to extract knowledge and insights from large and complex collections of digital data, including developing new methods of deriving knowledge from data; constructing a new infrastructure to manage, curate and deliver data to communities; and forging new approaches for associated education and training [49]. Four specific programs were set up through the NSF s Computer and Information Science and Engineering Directorate Fig 2. Summary of Big Data Awards Supported by NSF and NSFC. Note: NSFC funds data are transformed by using the exchange rates in current year. doi: /journal.pone g002 PLOS ONE DOI: /journal.pone May 24, /

173 文献传递 How Does Scientific Funding Support Interdisciplinary Research Table 1. The Profile of Big Data- Related Shuangqing Forum. Workshop ID Topic Time Place Organizers 89th Challenging scientific problems in the fields of technologies and applications of Big Data 109th Big data and major basic problems on management and decisions March 26 27, th Multi-disciplinary methods for Big Data analysis and processing March 26 27, 2015 doi: /journal.pone t001 March 5 7, 2013 Shanghai NSFC, Tongji University Beijing Guangzhou NSFC NSFC, Sun Yat-sen University (CISE). One of the most important programs is the Critical Techniques and Technologies for Advancing Foundations and Applications of Big Data Science & Engineering (BIGDATA Program). Multiple NSF directorates and other federal agencies participated in this program. The research directions of NSFC are influenced by NSF to some extent. At the same time, NSFC began to organize the high-level Big Data-related Shuangqing Forum academic workshop in 2013 to focus on national strategic development. This workshop was repeated in subsequent years, which suggested NSFC s persistent value towards the Big Data area for strategic research investment (Table 1). These forums proposed several frontiers for crucial scientific problems and suggested policies and solutions associated with research on technologies and applications of Big Data [50]. Moreover, the topical focus progressed from an emphasis on problems in the Shanghai workshop in 2013 to methods two years later at the Guangzhou workshop. What type of projects resulted from these research investments? Table 2 indicates the proportion of granted projects by organization type in the US and China. Both NSF and NSFC tended to emphasize academic research, which accounted for 92.83% and 88.25% of the total number of funded proposals. This finding is not surprising given NSF and NSFC are the agencies with an orientation toward providing support for academic research [51]. At the same time, NSFC awards are less intensely focused on universities than are NSF s. This lesser focus lies in the importance of research institutes in the Chinese research and innovation system, particularly the Chinese Academy of Sciences. The Chinese Academy of Sciences is seen as the linchpin of China s drive to explore and harness high technology and the natural sciences for the benefit of China. Thus, it is not surprising that the Chinese Academy of Science would be prominent among institutions receiving awards from NSFC. About 11.29% of NSFC grants were granted to research institutes compared to only 2.28% for NSF. However, NSFC does not support research funding by individuals and corporations, so none of NSFC s funding went to Table 2. Grant Recipient Organizations: NSF and NSFC. Organization Type Academic University Numbers of NSF Awards % of Total NSF Big Data Awards Numbers of NSFC Awards % of Total NSFC Big Data Awards Research Institution Corporation Other Note: Academic University is the organization granting academic degrees in various subjects; Research Institution is an independent, nonprofit research institute; Corporation is a company or group of people authorized to purse profit-making rather than non-profit; Other includes individuals, hospitals and other research organizations. doi: /journal.pone t002 PLOS ONE DOI: /journal.pone May 24, /

174 大数据金融信息剪辑 How Does Scientific Funding Support Interdisciplinary Research the private sector. Nearly 4.23% of awards were conferred on individuals and corporations by NSF through grants, and cooperative agreements. We provided a further measure of the extent of concentration of the distribution of funding by NSF and NSFC. In this context, we applied a normalized Gini coefficient to measure the inequality of funding organization distribution, both in project counts and funding amounts. The Gini index was originally proposed to measure income inequality, but it also has been used to capture the inequality, unevenness, and imbalance of the distribution of references across involved disciplines. Higher Gini coefficients represent greater inequality, in this case, of scientific funding distribution across organizations. The normalized Gini coefficient can be calculated as [52]: X n G n ¼ i¼1 ðn 1Þ ð2i n 1ÞX i X n X i i¼1 ð1þ In the eq (1), n indicates the number of sponsored organizations and n>1, i is the ranking of n, and x i presents the number of projects or the amount of funds obtained by the i th organization. We applied this measure to the distribution of organizations receiving grants from the two agencies over the 2012-to-2015 period because the time after 2012 comprised the bulk of the grants. The results indicated different distributions for the number of grants (FundNum) and the amount of sponsored money (FundMoney) (Fig 3). In terms of the FundNum, NSF has a relatively lower Gini coefficient than does NSFC. NSFC s Gini coefficient was much lower in 2015 than in Furthermore, when one looks at the distribution of money, we can see that NSFC s Gini coefficient was slightly higher than NSF s in 2012, but coefficients associated with the two sponsors were relatively similar by NSF s coefficient associated with the distribution of money exhibited a slight decrease over the three years while NSFC s coefficient was decreasing more sharply. Fig 3. Gini Coefficient in Terms of the Number of Grants (FundNum) the Amount of Sponsored Money (FundMoney) of NSF and NSFC. doi: /journal.pone g003 PLOS ONE DOI: /journal.pone May 24, /

175 文献传递 How Does Scientific Funding Support Interdisciplinary Research Based on the Gini coefficient analysis, we can see that the Gini coefficients were very high in the early stages, in terms of granted numbers and funds, at both sponsoring agencies. It is inferred that in the beginning stage of emerging interdisciplinary research, relatively few organizations care about, or have considerable influence on, such newly-formed topics. From the overall trends of the Gini coefficient, the awards distribution became broader with the advance of Big Data studies, and the number of grants was more balanced between different organizations than the amount of sponsored money bestowed. Table 3. Disciplinary Composition of the Big Data Awards in NSF and NSFC. NSF Discipline Records % of Total NSF Big Data Awards Computer & Information Science & Engineering (CISE) Proposal Programmatic Concentration Analysis The extent to which funding is concentrated or spread among multiple disciplinary programs in a funding agency may well be an important factor in understanding the development of research in a rapidly emerging field. The NSF is organized into directorates that align with broad scientific disciplines: Biological Sciences (BIO), Computer & Information Science & Engineering (CISE), Education & Human Resources (EHR), Engineering (ENG), Geosciences (GEO), Mathematical & Physical Sciences (MPS), Social, Behavioral & Economic Sciences (SBE) and Other (non-disciplinary specific). Because MPS houses several markedly disparate disciplines, the MPS divisions (Astronomical Sciences, Chemistry, Material Sciences, Mathematics, and Physics) are often used instead [17]. In this paper, we treat the divisions under these directorates as different research areas and consider the NSF s detailed programs as a proxy for research fields. Similarly, in the NSFC, there are eight scientific departments: Mathematical and Physical Science (A), Chemical Sciences (B), Life Sciences (C), Earth Sciences (D), Engineering and Materials Sciences (E), Information Sciences (F), Management Sciences (G) and Medical Sciences (H) (The department of Medical Sciences in NSFC established in 2010). For each project, NSFC applicants must provide a DAC in order to select suitable peer reviewers and help classify the project in its evaluation. DAC is a three-level code indicating the detailed discipline to which an application belongs; it is composed of English characters and Arabic numerals. The English character is the code of a scientific department. The three levels of Arabic numerals denote research areas, research fields and research directions, respectively. The detailed research areas and their corresponding codes are shown in S1 Table. Although NSF and NSFC have different disciplinary categorizations, most of these categories can be matched. Table 3 indicates that the categories of Information Sciences and NSFC Discipline Records %of Total NSFC Big Data Awards Information Sciences (IS) Engineering (ENG) Management Sciences (MaS) Mathematical & Physical Sciences (MPS) Social, Behavioral & Economic Sciences (SBE) Engineering & Materials Sciences (EMS) Earth Sciences (ES) Education & Human Resources (EHR) Mathematical & Physical Sciences (MPS) Biological Sciences (BIO) Medical Sciences (MeS) Geosciences (GEO) Chemistry Sciences (CS) Other Life Sciences (LS) doi: /journal.pone t003 Other PLOS ONE DOI: /journal.pone May 24, /

176 大数据金融信息剪辑 How Does Scientific Funding Support Interdisciplinary Research Table 4. Research Areas and Main Research Fields of CISE in NSF. Research Areas and Main Research Fields Records % of Total NSF Big Data Awards Information & Intelligent Systems *Big Data Science & Engineering 60 - *Info Integration & Informatics 51 - *Information Technology Research 17 - Computing & Communication Foundations *Communication & Information Foundations 26 - *Algorithmic Foundations 21 - *Software & Hardware Foundation 18 - Computer & Network Systems *Computer Systems 31 - *Computing research infrastructure 10 - Advanced Cyberinfrastructure *Campus Cyberinfrastructure 37 - * indicates the research fields. doi: /journal.pone t004 Computer & Information Science & Engineering account for the largest number of proposed projects. Big Data has conventionally been considered as a part of information sciences since it is the process of mining potential information from voluminous amounts of structured, semistructured and/or unstructured data. Big Data also has a very close relationship with information and computer technologies, including data collection, storage, processing, and analysis/ visualization [53]. For NSF, the second ranking discipline is Engineering, but for NSFC, it is Management Sciences. This shows that US researchers cared more about practical applications in specialized engineering fields while Chinese scholars are more interested in strategic planning to improve decision-making in critical development areas, such as healthcare, social administration, environment protection and resource management. One factor underlying this difference is that China and US are at different stages of development, so Big Data is sometimes treated as a powerful tool to solve practical issues in the US but as a tool for management reform in China. In order to obtain insights into the specific research areas and their main research fields (more than 15 projects belong to a certain area) between Computer & Information Science & Engineering (CISE) of NSF and Information Sciences (IS) of NSFC, we organized them in Table 4 (for NSF) and Table 5 (for NSFC). For NSF, the main four research areas in CISE were Information & Intelligent Systems (189 records, 20.52%), Computing & Communication Foundations (114 records, 12.38%). Computer & Network Systems (107 records, 11.62%) and Advanced Cyberinfrastructure (101 records, 10.97%) and. The top research fields within these areas were Big Data Science & Engineering, Info Integration & Informatics, Campus Cyberinfrastructure and Computer Systems. Although we could not create a side-by-side comparison on research fields between NSF and NSFC, it was still possible to compare and contrast the top funding fields and hot-spots in Tables 4 and 5. As the comparison in topics relies heavily on the accuracy of the translations, we attempted to conduct this analysis for NSFC based on the DAC that included subject classification information, and then translated the main research fields corresponding to the DAC. The results indicate that NSFC primarily funds Big Data research out of the Computer Science area, which comprises nearly 39.17% of all Big Data awards. Another 10.83% of awards are conferred by the Automation area and 4.38% by the Electronics & Information System. Within PLOS ONE DOI: /journal.pone May 24, /

177 文献传递 How Does Scientific Funding Support Interdisciplinary Research Table 5. Research Areas and Main Research Fields of IS in NSFC. Research Areas and Main Research Fields Records % of Total NSFC Big Data Awards Computer Science *Computer Applications Technology 65 - *Computer Software 41 - *Computer Network 23 - *Computer Architecture 17 - Automation *Artificial Intelligence & Knowledge Engineering 18 - Electronics & Information System * indicates the research fields. doi: /journal.pone t005 the Computer Science area, NSFC has balanced the number of awards across several different scientific directions. Computer Applications Technology, Computer Software, Computer Network and Computer Architecture are important fields in the Computing Science research area. Additionally, other prominent research field is Artificial Intelligence & Knowledge Engineering (18 records) in the Automation area (47 records). When proposers apply for funding from the NSFC, they are required to provide project terms or keywords. As far as we know, keywords are not required for NSF proposals and are therefore not comparably available on the NSF website. To address the lack of investigator-provided keywords, we conducted Natural Language Processing (NLP) on the proposal title field. We used the title field, rather than the abstract field, because the terms in the title were more distinctive. We extracted phrases from the title by applying NLP with the support of the text-mining tool suite- VantagePoint. Phrases and terms retrieved in this way are large and "noisy," making them difficult to manually categorize. Using bibliometric and text mining techniques, this paper applied semi-automated "Term Clumping" to generate better term lists for achieving competitive technical intelligence [54]. For the NSFC awards information, we first extracted the title terms and uploaded them to the LTP-Cloud (Language Technology Platform Cloud) ( to process Chinese word segmentation. After obtaining a list of phrases, we imported these keywords into our own Chinese text analysis tools ItgInsight to help us conduct text cleaning. This process was comprised of four steps: (1) Common and basic term removal, e.g., instance, technology; (2) Fuzzy word matching (to combine terms with similar structures based on pattern commonality, such as stemming e.g., institute and institution, and combining singular and plural forms of English words, e.g., technology and technologies); (3) Extreme word removal [to remove very common (top 5%) and very rare (occurrence only in single records) terms]; (4) Combine term networks (to combine selected low-frequency phrases with the high-frequency phrases that appear in the same records, and sharing terms). We then translated the top 50 high-frequency Chinese phrases and invited some postgraduates with English language background or bachelor s degree to validate the translation. Before visualizing the semantic networks based on these keywords, we calculated the frequency of specific terms. The semantic networks of the 30 most frequently occurring terms in Big Data are shown in Fig 4 for NSF and Fig 5 for NSFC, which are mapped in the visualization and exploration software- Gephi ( The node size represents the frequency of a term in proposal titles, and the linkages among different terms are based on their co-occurrence in proposal titles. The color of the node is used to distinguish whether these nodes belong to the same cluster or not, and the cluster membership was obtained from the community detection algorithm [55]. PLOS ONE DOI: /journal.pone May 24, /

大数据金融信息剪辑 How Does Scientific Funding Support Interdisciplinary Research Fig 4. Semantic Network of 30 Most Frequently Occurring Terms in NSF Big Data Proposals. doi:10.1371/journal.pone.0154509.

some related branch subjects and keywords are social networks, social sciences, social media, mathematical sciences, mathematics, computer science, big data applications ; Health Big Data and

178 大数据金融信息剪辑 How Does Scientific Funding Support Interdisciplinary Research Fig 4. Semantic Network of 30 Most Frequently Occurring Terms in NSF Big Data Proposals. doi: /journal.pone g004 The 30 most frequently occurring terms in NSF granted proposals were clustered into four groups as follows (Fig 4): Green group represents the use of social network analysis in Big Data area; some related branch subjects and keywords are social networks, social sciences, social media, mathematical sciences, mathematics, computer science, big data applications ; Health Big Data and information science ; Purple group indicates some Big Data analytics techniques; keywords include: data mining, machine learning, architecture, big data analytics, data analysis, algorithms, decision making, healthcare and data collection ; Fig 5. Semantic Network of 30 Most Frequently Occurring Terms in NSFC Big Data Proposals. doi: /journal.pone g005 PLOS ONE DOI: /journal.pone May 24, / 20

179 文献传递 How Does Scientific Funding Support Interdisciplinary Research Blue group presents the problems and potential solutions in bioinformatics; key terms include: high-dimensional data, bioinformatics, genomics, big data problems and big data analysis ; Orange group displays public management factors in the context of Big Data through keywords such as big data management, complex systems, Internet, data analytics, analytics, government and data science. Following the above analytic logic, the 30 most frequently occurring terms in NSFC granted proposals were also clustered into four clusters (Fig 5): Orange cluster indicates the main theory and techniques in Big Data fields; the main phrases in this cluster are: algorithm, machine learning, computing, models, theory, knowledge and application ; Blue cluster layouts highlight technologies involved with Big Data analysis; related phrases include: optimization, processing, big data analytics, key technology, storage and distributed ; Green cluster presents the role of Big Data in complex environments through terms such as Internet, complex, activity, data analysis, modeling, prediction and risk ; Purple cluster illustrates the use of Big in management practice, through key terms such as information, data mining, management, intelligence, driven, decision making, knowledge, service, dynamic, mechanism and innovation. These results indicate that both NSF s and NSFC s proposals have considerable common research interests and foci on topics such as algorithms, Internet, data analysis, data mining, decision making and machine learning. At the same time, there are distinctions in that the US concentrates more on engineering and specialized applications while China shows more emphasis on Big Data theory and concepts in management-related domains. Based on the above proposal concentration analysis, we can see that the two countries share similar research topics for building up the Big Data field. However, since the two countries strategic goals and scientific development models may differ, the detailed concepts, techniques, and applications to which funding agencies pay attention are somewhat different. Proposal Interdisciplinarity Analysis IDR has become a significant thrust of NSF and other scientific agencies in recent years. Most bibliometric literatures on measuring IDR focus on examining the outputs of science publications [16]. Following this traditional evolution, we extracted the grant numbers from NSF s and NSFC s Big Data awards and retrieved the papers acknowledging them from the Web of Science. The results show that 428 publications were supported by NSF Big Data awards and 644 publications by NSFC (Retrieved on Jan 3, 2016). As an initial way to understand the disciplinary orientation of these publications, we analyzed the Web of Science Categories ( WCs ), which are assigned to journals based on a combination of cross-citation patterns and editorial judgment. WCs offer a standard in bibliometric analysis for representing disciplinary or field participation [4]. Table 6 shows the Top 10 WCs for Big Data publications supported by NSF and NSFC. Not surprisingly, most of the funded papers are in the Computer Science and Engineering, Electrical & Electronic areas. Multidisciplinary sciences and interdisciplinary studies are other foci in the funded papers. NSFC funded papers also pay attention to some management issues such as Operations Research & Management Science. PLOS ONE DOI: /journal.pone May 24, /

大数据金融信息剪辑 How Does Scientific Funding Support Interdisciplinary Research Table 6. Top 10 WCs for Big Data Publications Supported by NSF and NSF.

180 大数据金融信息剪辑 How Does Scientific Funding Support Interdisciplinary Research Table 6. Top 10 WCs for Big Data Publications Supported by NSF and NSF. WCs Records Supported by NSF WCs Records Supported by NSFC Engineering, Electrical & Electronic 118 Computer Science, Artificial Intelligence 174 Computer Science, Information Systems 65 Engineering, Electrical & Electronic 147 Statistics & Probability 50 Computer Science, Information Systems 130 Computer Science, Software Engineering 49 Telecommunications 71 Computer Science, Artificial Intelligence 46 Computer Science, Software Engineering 53 Computer Science, Hardware & 34 Computer Science, Interdisciplinary 51 Architecture Applications Computer Science, Theory & Methods 34 Computer Science, Theory & Methods 48 Telecommunications 31 Engineering, Multidisciplinary 41 Multidisciplinary Sciences 26 Mathematics, Interdisciplinary Applications 39 Mathematical & Computational Biology 25 Operations Research & Management Science 39 doi: /journal.pone t006 We are particularly interested in cross-field research knowledge transfer and overall discipline distribution. For such purposes the granularity of the WCs is effective i.e., some 224 WCs differentiate sub-fields, so we have applied science overlay mapping to visualize these differences [56] in Fig 6. and Fig 7. Again, not surprisingly, Big Data papers from NSF or NSFC funding are dominated by Computer Science, followed by Math Methods. But the pattern of widespread engagement is remarkable, suggesting that Big Data research is not bottled up in a Fig 6. Big Data Research across the Disciplines of Publications Supported by NSF. doi: /journal.pone g006 PLOS ONE DOI: /journal.pone May 24, /

展开

成立于 2013 年 1 月 19 日, 是由中国人民大学与上海重阳投资管理有限公司联合创办的一所现代化智库中国人民大学校长央行货币委员会委员金融学家陈雨露教授任院长中国人民大学重阳金融研究院以立足人大, 放眼世界 ; 把脉金融, 观览全局 ; 钻研学术, 关注现实 ; 建言国家, 服务大

金融改革与大数据金融重阳论坛 1 成立于 2013 年 1 月 19 日, 是由中国人民大学与上海重阳投资管理有限公司联合创办的一所现代化智库中国人民大学校长央行货币委员会委员金融学家陈雨露教授任院长中国人民大学重阳金融研究院以立足人大, 放眼世界 ; 把脉金融, 观览全局 ; 钻研学术, 关注现实 ; 建言国家, 服务大众为宗旨, 力求为国家发展培养和输送高级金融人才, 立志打造一个以

第4期 厚.indd

第4期厚.indd