Bilibili海量监测平台的演进之路

海海量量监测平台的演进之路路平台化数据化自主化全局性定位性 ç

的监测系统的演进经过如下几个阶段人肉堆积阶段监测系统的平台化建设监测数据的分析和统计研发和运维共同合作阶段站点可靠性建设 1. 人肉堆积阶段 - 采用比较原始的模式, 例例如系统监测采用 Zabbix, 网络监测采用 Cacti 等, 八仙过海海各显神通, 所有的数据都是一个个海海上孤岛 2. 平台化建设 - 当意识到以上问题时, 开始了了 B 站新一代监测系统的平台化建设, 首先是去 ZC, 把整个监测系统的技术栈统一到 Prometheus 3. 监测数据的分析和统计 - 当数据汇总以后, 很多之前割裂的信息达到空前的整合, 可以基于海海量量的监测数据进行行大数据分析, 例例如容量量评估等 4. 研发和运维共同合作阶段 - 把研发和运维有机的结合在一起, 因为统一了了技术栈, 而 Prometheus 的技术特性天生为研发帮助运维改进系统可靠性提供的有利利的保障, 可以用不不同开发语言来进行行埋点, 上报各种个性化的监测需求 5. 站点可控性建设 - 因为有了了强大监测系统, 便便可以洞洞悉整个站点, 使 SRE 成为可能 2

监测平台的纵向覆盖 3

监测平台的横向覆盖 2016 30% 在采用 Prometheus 来重构整个 B 站监测系统之前大约只能做到 30% 左右的横向覆盖, 因为高昂的系统接入成本让很多业务无法自已接入, 需要高度的定制化开发才行行, 所以横向覆盖有限 2018 90% 2017 年年下半年年对整个系统进行行了了重构, 统一了了技术栈, 各个业务系统可以使用比较通用的模式接入到监测平台, 从而使得接入成本大大降低, 目前的系统覆盖度大约有 90% 左右 ç 100% 愿景则是最终可以达到 100% 的横向监测覆盖 4

建设海海量量指标的监测平台我们需要什什么? 多样化的自主接入各个指标的灵活配置 01 接入的数据将不不再只局限于基础监测, 网络监测, 而且从不不同的角度来洞洞悉整个系统, 那么你就需要方便便可靠的监测数据采集系统 02 监测指标海海量量以后随之带来的则是配置问题, 不不同的监测指标有不不同的度量量值, 不不再是以前简单的逻辑运算, 会变得相当复杂监测指标的可视化告警的调用链, 洞洞悉全局 03 把海海量量的监测指标有几的结合起来, 针对某个系统来进行行集中的 Dashboard 展示, 或者是详尽的可视化的问题排查 04 为了了避免告警风暴暴, 让最有价值的告警信息出现在最关键的时刻, 需要各个指标之间能互相调用, 通过比较分析发出最准确的告警信息 5

BIILIBILI 基础监测指标数量量的成倍增长 30% 985% 迁移到 PROMETHEUS 后发生了了什什么 20 倍由于之前 Bilibili 的监测系统是采用的 Zabbix 和 Cacti 的方案, 其中 Zabbix 用来监测基础的系统信息, 例例如 CPU, 磁盘, 内存等,Cacti 用来监测网络带宽流量量等, 监测的指标数相当有限当更更换为 Prometheus 后, 因为有其强大的多语言 SDK 支持, 以及非侵入式的监测数据采集方案, 得以大量量的业务监测数据接入进来, 使得整个 Metric 度量量值指数级别增长

可视化的监测平台 7

可视化的监测平台 - 事件中心 8

可视化的监测平台 -METRIC 管理理 9

可视化的监测平台 10

可视化的监测平台 11

可视化的监测平台 12

可视化的监测平台 13

可视化的监测平台 - 数据统计 14

海海量量数据检索能力力不不管是基础监测, 还是研发侧埋点上报的度量量值, 都要有统一的数据结构用来存储, 我们这里里采用Prometheus 的时序数据库故障的发现能力力有了了海海量量的监测数据但是并不不能把关键的告警遗漏漏, 如何解决狼来了了的问题, 将数据有机的结合是平台建设的关键研发需要的运维监测系统使 SRE 的落地成为可能站点可靠性建设是一个漫长的过程, 光靠运维或者研发一方的各自努力力是不不行行的, 只有合作共赢, 一起推进才有可能高度自由化的系统作为平台建设方, 我们提供高度自由化的监测告警配置和可视化平台配置提供给整个研发部门使用 15

挡在新一代监测系统之前的几座大山 30% 配置复杂的问题 30% 平台的扩展能力力 30% 告警的智能化尽管配置很强大, 但因为太过于灵活, 有一定的学习成本, 如果有相对复杂的告警配置, 一般需要专业的工程师才能完成, 无法完全下放研发原生的 Prometheus 并没有一个很好的企业级解决方案, 并且不不支持集群化, 所以扩展和维护是一个很大的问题如何应对告警风暴暴, 对告警进行行智能收敛也是我们目前存在的问题, 目前采用打标签的方式, 未来需要引入机器器学习对内容进行行智能收敛 16

感受一下配置 18000 行行监测告警的痛苦之处 17

告警配置的自助化和完全下放 18

复杂告警配置的的可视化 19

复杂告警配置的的可视化 20

通过引入 PROMETHEUS 的企业级解决方案使得挡在我们面前的三座大山得以可以跨管理理能力力告警策略略可视化配置监控指标白名单大屏 exporter 自动发现监控指标可视化分布式存储告警发送告警 ack 时序存储 Prometheus 指标采集多机高可用代码级定制原生 Prometheus OpsMind + Prometheus 吞吐能力力 1000 万 / 秒数亿 / 秒分布式存储无支持按 metric + time 监控指标管理理无有数据查询 PromQL 可视化界面大屏 Grafana Grafana DataV 告警策略略 YAML 配置文件自助化配置告警微调不不支持支持告警合并不不支持支持容量量 * 数据保留留 3.5 月数据无限时长保留留原厂维保定制化开发无有工程强度 21

所以针对告警配置负责无法下放, 和 PROMETHEUS 的企业平台化, 目前我们通过与 OPSMIND 合作, 使得基于 PROMETHEUS 的企业级监测方案获得了了很大的提高, 成功缩减了了人力力成本, 提升了了平台的交付能力力, 同时也夯实了了监控系统的工程强度, 为后续基于监测数据做大数据分析和 AIOPS 的实施提前扫清了了障碍 1 亿 2 人 300 条 120 人次 1 分钟使用 11 台服务器器的分布式环境承载 1 亿条时序指标, 成功解决了了原有系统的性能和容量量问题将 2 名配置专员从日常的机械性工作中解放出来导入 10 万行行告警配置, 通过优化简化到 300 条主告警条件和数千条告警微调, 大大降低了了维护系统的劳动成本平台每天由需求方自助使用 120 人次, 成功由人力力型输出转为服务型输出需求响应时间由 1 小时缩短为低于 1 分钟, 需求方满意度大幅提升 22

整合方案采用无侵入的方案, 对系统本身几乎没有侵入性 Grafana API 级兼容 OPSMIND alert manager k8s 外部系统 remote_write remote_write remote_write CMDB Prometheus-1 Prometheus-2 exporters targets 23

海海量量监测平台的建设任重而道远 04 03 02 01 初级阶段入门阶段高级阶段智能阶段初级阶段入门阶段高级阶段智能阶段 B 站的运维建设起步较晚, 从 2015 年年开始只有第一名专职运维入职, 所以很长的一段时间都是运行行在监测平台的初级阶段通过整合所有监测系统, 例例如从同一技术架构, 抛弃原有的 Zabbix 和 Cacti 因为其缺乏灵活性, 而且当业务海海量量增长时整个系统已经不不堪重负, 对研发测的业务接入成本也很大, 引入了了 Prometheus 的监测方案来统一我们目前通过和 Opsmind 的合作也刚刚踏入这个阶段, 通过把复杂的告警配置完全下放, 自身专注于做平台化建设, 例例如海海量量 Prometheus 监测目标的管理理, 注重平台的高可用, 消除单点故障, 使整个监测系统成为 B 站运营体系里里的云之基石智能故障判断, 故障自愈则是运维系统的高级阶段, 机器器学习其实是运维故障处理理的一个很好的落地点, 只要做到所有的故障都有迹可循, 则智能运维将成为可能, 也是我们未来工作的重点 24

谢谢