本文通过对比分析下两者所做的事情为契机讨论监控系统或许该有的面貌,以及浅谈下监控系统发展的各个阶段。
我们提供的服务有:成都网站设计、成都做网站、微信公众号开发、网站优化、网站认证、武城ssl等。为上1000家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的武城网站制作公司
图片来自 Pexels
饿了么监控系统 EMonitor :是一款服务于饿了么所有技术部门的一站式监控系统,覆盖了系统监控、容器监控、网络监控、中间件监控、业务监控、接入层监控以及前端监控的数据存储与查询。
每日处理总数据量近 PB ,每日写入指标数据量百 T,每日指标查询量几千万,配置图表个数上万,看板个数上千。
CAT:是基于 Java 开发的实时应用监控平台,为美团点评提供了全面的实时监控告警服务。
CAT 做的事情(开源版)
首先要强调的是这里我们只能拿到 GitHub 上开源版 CAT 的最新版 3.0.0 ,所以是基于此进行对比。接下来说说 CAT 做了哪些事情?
①抽象出监控模型
抽象出 Transaction、Event、Heartbeat、Metric 4 种监控模型:
针对 Transaction 和 Event 都固定了两个维度, type 和 name ,并且针对 type 和 name 进行分钟级聚合成报表并展示曲线。
②采样链路
针对上述 Transaction、Event 的 type 和 name 分别有对应的分钟级的采样链路。
③自定义的 Metric 打点
目前支持 Counter 和 Timer 类型的打点,支持 tag ,单机内单个 Metric 的 tag 组合数限制 1000 。
并且有简单的监控看板,如下图所示:
④与其他组件集成
比如和 Mybatis 集成,在客户端开启相关的 sql 执行统计,并将该统计划分到 Transaction 统计看板中的 type=SQL 的一栏下。
⑤告警
可以针对上述的 Transaction、Event 等做一些简单的阈值告警。
饿了么 EMonitor 和 CAT 的对比
饿了么 EMonitor 借鉴了 CAT 的相关思想,同时又进行了改进。
①引入 Transaction、Event 的概念
针对 Transaction 和 Event 都固定了两个维度, type 和 name ,不同地方在于聚合用户发过来的数据。
CAT 的架构图如下所示:
CAT 的消费机需要做如下两件事情:
EMonitor 的架构图如下所示:
EMonitor 分两路对数据进行隔离处理:
最后将 10s 预聚合的数据写入到 LinDB 时序数据库(已开源,有兴趣的可以关注 star 下)中,以及 Kafka 中,让告警模块 watchdog 去消费 Kafka 做实时告警。
所以 EMonitor 和 CAT 的一个很大不同点就在于对指标的处理上, EMonitor 交给专业的时序数据库来做。
而 CAT 自己做聚合就显得功能非常受限,如下所示:
但是CAT也有自己的优势:
②采样链路
目前 CAT 和 EMonitor 都可以通过 type 和 name 来过滤采样链路,不同点在于:
CAT 的采样链路是分钟级别的, EMonitor 是 10s 级别的。
针对某一个 type 和 name ,CAT 目前无法轻松找想要的链路, EMonitor 可以轻松的找到某个时刻或者说某段时间内响应时间想要的链路(目前已经申请专利)。
EMonitor 的链路如下所示:
③自定义的 Metric 打点
EMonitor 支持 Counter、Timer、Histogram、Payload、Gauge 等等多种形式的打点方式,并且支持 tag :
也就是任意 Metric 打点都可以流经 EMonitor 进行处理了并输送到 LinDB 时序数据库中。
至此, EMonitor 就可以将任何监控指标统一在一起了,比如机器监控都可以通过 EMonitor 来保存了,这为一站式监控系统奠定了基础。
④自定义 Metric 看板
CAT 只有一个简易的 Metric 看板。EMonitor 针对 Metric 开发了一套可以媲美 Grafana 的指标看板。
相比 Grafana 的优势:
类 SQL 的配置查询指标方式如下所示:
看板整体如下所示:
移动端显示如下:
⑤与其他组件集成
目前 EMonitor 已经打通了 IaaS 层、 PaaS 层、应用层的所有链路和指标的监控,再也不用在多个监控系统中切换来切换去了。
如下所示:
以打通饿了么分库分表中间件 DAL 为例:
可以根据机房、执行状态、表、操作类型(比如 Insert、Update、Select 等)进行过滤查看:
再以打通饿了么 SOA 服务为例:
⑥告警
可以针对所有的监控指标配置如下告警方式:
浅谈监控系统的发展趋势
①日志监控阶段
本阶段实现方式:程序打日志,使用 ELK 来存储和查询程序的运行日志,ELK 也能简单显示指标曲线。
排障过程:一旦有问题,则去 ELK 中搜索可能的异常日志来进行分析排障。
②链路监控阶段
上一个阶段存在的问题:ELK 只是基于一行一行日志进行聚合或者搜索分析,日志之间没有上下文关联。很难知道一次请求耗时较长究竟耗时在哪个阶段。
本阶段实现方式:CAT 横空出世,通过建模抽象出 Transaction、Metric 等监控模型,将链路分析和简单的报表带入了大家的视野。
告警方式:针对报表可以进行阈值监控排障过程:一旦有告警,可以通过点击报表来详细定位到是哪个 type 或 name 有一定问题,顺便找到对应的链路,查看详细的信息。
③指标监控阶段
上一阶段存在的问题:CAT 对自定义指标支持的比较弱,也无法实现或者展现更加多样的查询聚合需求。
本阶段的实现方式:支持丰富的 Metric 指标,将链路上的一些报表数据也可以划分到指标中,交给专业的时序数据库来做指标的存储和查询,对接或者自研丰富的指标看板如 Grafana 。
告警方式:针对指标进行更加丰富的告警策略排障过程:一旦有告警,可能需要到各个系统上查看指标看板,粗略定位根因,再结合链路总和分析。
④平台打通整合阶段
上一阶段存在的问题:系统监控、中间件和业务监控、部分业务监控、链路监控与指标监控都各搞一套数据收集、预处理、存储、查询、展现、告警流程,各个系统处理数据格式、使用方式不统一。
本阶段的实现方式:打通从系统层面、容器层面、中间件层面、业务层面等等的可能的链路和指标监控,统一数据的处理流程,同时整合发布、变更、告警与监控曲线结合,成为一站式监控平台。
告警方式:可以统一的针对各个层面的监控数据做统一化的告警排障过程:只需要在一个监控系统中就可以查看到所有的监控曲线和链路信息。
目前我们 EMonitor 已完成这个阶段,将公司之前存在已久的 3 套独立的监控系统统一整合成现如今的一套监控系统。
⑤深度分析阶段
上一阶段存在的问题:
总之:之前的阶段都是去做一个监控平台,用户查询什么指标就展示相应的数据,监控平台并不去关心用户所存储数据的内容。
现在呢就需要转变思路,监控平台需要主动去帮用户分析里面所存储的数据内容。
本阶段的实现方式:所要做的就是把帮用户分析的过程抽象出来,为用户构建应用大盘和业务大盘,以及为大盘做相关的根因分析。
应用大盘:就是为当前应用构建上下游应用依赖的监控、当前应用所关联的机器监控、Redis、MQ、Database 等等监控,可以时刻为应用做体检,来主动暴露出问题,而不是等用户去一个个查指标而后发现问题。
业务大盘:就是根据业务来梳理或者利用链路来自动生产大盘,该大盘可以快速告诉用户是哪些业务环节出的问题。
根因分析:一个大盘有很多的环节,每个环节绑定有很多的指标,每次某个告警出来有可能需要详细的分析下每个环节的指标。
比如消费 Kafka 的延迟上升,有各种各样的原因都可能导致,每次告警排查都需要将分析流程再全部人为分析排查下,非常累,所以需要将定位根因的过程通过建模抽象下,来进行统一解决。
趋势报表分析:主动帮用户发现一些逐渐恶化的问题点,比如用户发布之后,接口耗时增加,很可能用户没有发现,虽然当前没有问题,但是很有可能在明天的高峰期就会暴露问题,这些都是已经实实在在发生的事故。
要想做主动分析,还深度依赖指标下钻分析,即某个指标调用量下降了,能主动分析出是哪些 tag 维度组合导致的下降,这是上述很多智能分析的基础,这一块也不简单。
告警方式:可以统一的针对各个层面的监控数据做统一化的告警排障过程:NOC 根据业务指标或者业务大盘快速得知是哪些业务或者应用先出了问题,应用的 owner 通过应用大盘的体检得知相关的变动信息。
比如是 Redis 波动、Database 波动、上下游应用的某个方法波动等等,来达到快速定位问题目的,或者通过对大盘执行根因分析来定位到根因。
再谈 Logging、Tracing、Metrics
三者关系如下图所示:
三者的确都不可或缺,相辅相成,但是我想说以下几点:
再结合 Tracing 中的应用依赖来做更深度全局分析,即 Metrics 和 Tracing 两者结合发挥出更多的可能性。
参考资料:
https://tech.meituan.com/2018/11/01/cat-in-depth-java-application-monitoring.html
作者:李刚
简介:网名乒乓狂魔,饿了么监控组研发专家,饿了么内部时序数据库 LinDB 项目负责人,目前致力于监控的智能分析领域。
本文名称:监控系统哪家强?EMonitor与CAT大比拼!
新闻来源:http://www.stwzsj.com/qtweb/news34/7134.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联