最后更新:2020-03-23 12:47:57 手机定位技术交流文章
背景
随着交通服务的高速发展和即将到来的5G时代,服务支持系统的规模不断扩大,服务也在不断增加。服务、应用和系统运行性能指数数据继续以指数速度增长,每日账单量超过100亿缺乏实时准确的系统监控能力已成为运行维护工作的瓶颈。
江苏移动IT运维团队,以SRE理念为指导,结合实时监控“高并发写入”、“低查询延迟、高查询并发”、“轻量存储”等实际需求,深入研究时间序列数据库的特点和适用性,构建符合自身系统运维特点的性能管理平台,实现对100亿级账单处理流程的实时全景监控和分析
时序数据库选择
目前市场上流行的时序数据库产品包括普罗米修斯、石墨、InfluxDB、OpenTSDB等。我们比较了这些产品的使用范围、优缺点。

通过比较,我们发现普罗米修斯是最适合构建BOSS运维监控系统的一个普罗米修斯实例每秒可以获得数百万个样本,同时支持对收集的数据进行快速查询。普罗米修斯对采样数据进行压缩存储,16字节的采样数据平均只需要1.37字节的存储空间,大大减少了存储资源的占用。当查询实时数据时,平均磁盘输入/输出负载小于1%
性能管理平台架构设计
在本方案中,运维人员以普罗米修斯时间序列库为中心,实现对与应用相关的所有实时监控数据的收集、清理和存储,实时显示整个系统和各个环节、各个独立应用的处理性能、趋势预测和智能分析,准确把握系统运行的健康程度

图1系统架构
1。根据业务系统的部署,我们在两个中心的每个中心都部署了一组普罗米修斯集群。
2。对于系统、应用程序日志和Java应用程序,我们使用拉方法来收集索引数据。对于应用程序、服务和组件的性能指标数据,使用pushgateway临时存储数据,然后使用Prometheus收集数据。
3。为了确保实时采集和查询的高性能,采集Prometheus时间序列库保存短期的近期数据,同时将副本写入远程历史时间序列库中
4,可视化显示和实时警报通过负载平衡从Prometheus和历史数据库收集数据
改编改造
在部署和使用过程中,我们发现原普罗米修斯存在一些不足,所以我们进行了一些改编改造工作
1,高可用性的压缩:最初的Prometheus部署是单点部署,不足以确保数据可用性。因此,我们通过服务注册实现了普罗米修斯的高可用性。当集群启动时,每个节点尝试获取锁,成功获取锁的节点成为执行任务的主节点。如果主节点关闭,从节点获得锁成为主节点并接管服务。

图2高可用性
2的实现模式,优化数据存储模式:在普罗米修斯节点上保存短周期数据,用于报警实时触发和显示,引入InfluxDB进行实时传输,保存长周期历史数据,保证采集数据的连续性,为后续数据挖掘提供资源支持
3,自行开发改造的推送网关组件:在实际使用过程中,我们发现推送网关中的数据很有可能被重复收集到推广网关中,容易产生错误的性能数据和误报。为此,我们在Prometheus的收集方法中添加了一个安全机制,在从pushgateway中提取数据后主动删除数据,以确保数据收集的唯一性。
4,扩展集成数据显示模式:性能数据可视化显示最初使用Grafana的本机组件,但在使用过程中,发现插件配置不够灵活,无法显示各种形式的关联索引数据。因此,我们开发了可视化工具来实现多维指标(包括系统、应用和业务绩效)的个性化显示,并实时控制系统的健康状态。
5,更改时区:当原始普罗米修斯查询指标基于格林尼治时间(与北京时间相差8小时)时,页面上显示的指标趋势图。因此,我们修改了从源代码获取时间的方式,从本地系统获取时间,成功地解决了这个问题
索引收集范围
结合实际运行维护场景和要求,将整体索引收集分为两个方面。性能指标和业务指标:

实时显示
通过处理和聚合各种指标数据,生成BOSS系统健康的统一视图,涵盖各种应用性能、业务量、服务呼叫量和响应时间等。能够灵活多维实时显示指标数据,支持深入到具体应用和过程性能指标,实时快速掌握第一手运维监控数据,实现“运维监控一张图”,大大提高系统监控和分析效率,有效节约运维人力资源

图3实时全景图
趋势预测和异常检测
海量性能时间序列数据是运营和维护的宝贵数据资产。对基础数据进行有效的建模分析和规划,辅以合理的算法学习。对一些场景的智能分析和监控将大大提高操作和维护效率。目前已应用于以下运维场景:
1,性能预测:通过实时监控应用处理速度,对比分析历史数据,自动计算应用处理的最大速度,实时准确预测完成待处理账单所需的时间
2,服务趋势预测:通过对时间序列数据库中存储的大量系统和服务指标数据按日、周、月维度进行分析,加权序时平均、移动平均、加权移动平均、特殊统计等。,预测未来账单处理趋势和系统资源利用趋势,为系统容量管理提供合理依据
3,异常检测:通过环比分析、同比分析、均值变化分析、同一时间窗内数据的均值和标准差分析、局部数据波动分析、周期性特征分析等算法,及时发现业务处理异常

图4性能预测场景示意图
摘要和outlook
当前性能管理平台可以满足每秒100,000级监控指标的存储,支持100亿级账单处理流程的实时监控通过对这些海量数据的分析,可以实现对容量、性能和故障的准确定位和预测,并可以提前采取对策,避免问题的发生和蔓延。
该性能平台已成功应用于BOSS系统。未来,它将进一步总结经验,不断完善和升级,并将陆续推广到其他业务支撑领域和管理信息领域
作者、王娟、王新和舒天
来源,以及新的信息技术运营和维护愿景(编号:GH _ 44EBC 0CC 0179)
DBA Plus社区欢迎所有技术人员参与,他们的电子邮件地址是编辑@dbaplus.cn
。随着5G时代的到来,交通服务的快速发展正触及运营商运营和维护能力的瓶颈。如何构建一个满足自身运行和维护需求的平台?来参加Gdevops全球敏捷运营峰会北京站,了解两大运营商的个人经历:
两位老师将为我们带来精彩的主题演讲,帮助我们在以下领域站稳脚跟然后在2020年5月29日,我们将在北京

2 020 gdevops全球敏捷运营峰会-北京站-白鸽活动
本文由 在线网速测试 整理编辑,转载请注明出处。