当前位置:网站首页>被产品经理怼了,线上出Bug为啥你不知道
被产品经理怼了,线上出Bug为啥你不知道
2020-11-06 01:18:00 【尹吉欢】
前言
前几天跟读者聊天,他说被产品经理给怼了。原因是线上出 Bug 了,最后是客户反馈才知道的。
我就问他:你们是不是没做监控?
读者:我们是刚成立的创业团队,目前最重要的就是堆功能,很多基础设施都没时间做。
正所谓有多大的碗吃多少的饭,不要盲目追求规模大,很牛的那种方案,合适的就可以。监控亦是如此,小方案只要够用,能解决问题,也是非常不错的选择。
下面给大家介绍一些常用的异常监控方式:
最小成本化
如果是刚成立的创业团队,可以用最小的实现成本来对系统的异常进行实时监控。所谓最小的实现成本,就是可以不用依赖任何三方的框架就可以实现。
可以采用手动埋点的方式将异常进行告警,这种方式最好是在全局异常处理的地方进行告警,才能统一管理。
如代码所示:
@ExceptionHandler(value = Exception.class)
@ResponseBody
public ResponseData<Object> defaultErrorHandler(HttpServletRequest req, Exception e) {
// 记录异常
// 钉钉或者短信告警
}
当我们的项目中有了全局异常处理,当底层报错的时候,异常都会进入到 ExceptionHandler 进行处理,在 ExceptionHandler 中我们可以通过 HttpServletRequest 来获取响应的请求信息和异常信息,然后进行告警。
异常告警信息
异常告警信息一定要详细,当线上出现异常后,第一时间要去修复这个问题。如果没有详细的信息根本就无法复现这个问题,就不好去定位和解决了。
告警信息需要有下面的内容:
告警服务:mobile-gateway
负责人:yinjihuan
请求地址:http://xxx.com/xxx/xxx?id=xxx
请求体:{ "name": "xxx" }
请求头:key=value
异常码:500
异常类型:RuntimeException
异常堆栈:java.lang.RuntimeException: com.xxx.exception.ApplicationException: 获取XXX信息失败!
最重要的就是请求参数了,有了参数才能复现错误。需要注意的是通过 HttpServletRequest 获取请求体的时候会报错,因为流只能读取一次。
等到了全局异常处理类的时候已经被读取过了,所以我们需要特殊处理一下,写个过滤器将请求体的值缓存起来,可以 org.springframework.web.util.ContentCachingRequestWrapper 对 HttpServletRequest 进行装饰,然后通过 ContentCachingRequestWrapper 获取请求体。
最小成本化+兼顾性能
手动埋点的方式对异常进行实时告警,然后直接发送短信等告警信息,这个过程是同步的,或多或少会加大响应的时间,不过请求进入到异常处理这里的话就证明这个请求已经失败了,影响不大。
虽然影响不大,但还是可以稍微优化一下。最常见的优化方式就是将同步转成异步操作,比如丢到单独的线程池中进行告警,丢到内存队列中,单独用一个线程去获取进行告警。
本地异步可能出现丢失的情况,对于这类监控的信息丢失几条问题也不大,如果不想丢失,可以使用外部的消息队列来存储告警信息,有单独的消费者进行消费,告警操作。
统一日志监控
最小化成本的方式,只需要稍微写几十行代码就可以搞定。不好的点在于每个项目中都要有这样一份代码,告警的逻辑也是耦合在了代码中。。
什么 EFK,ELK 相信大家都听过,将日志统一进行收集,集中管理。每个系统中在出错的时候需要往本地日志中写入异常信息即可,不需要单独对异常进行告警,告警的动作可以由单独的告警系统来做,告警系统根据收集过来的日志进行判断,是否需要告警,告警频次等。
统一日志监控需要搭建日志平台,成本相对来说高一点。当然也可以用开源的方案,也有商业的方案。
商业的可以用云服务,使用简单,快速接入,支持各种维度的告警规则,就是有点费钱。
如果只是想对异常进行监控,我推荐一款开源的错误追踪系统,Sentry 是一个开源的实时错误追踪系统,可以帮助开发者实时监控并修复异常问题,当然 Sentry 也有商业版。
APM 监控
apm(Application Performance Management) 除了对服务的调用链,性能进行详情的监控,同时对异常信息也有较好的监控。
常见的 apm 有 skywalking,pinpoint,cat 等,以 cat 来举例,problem 报表中展示的就是应用的错误信息,而且在 cat 的首页大盘中会按分钟展示各个应用的错误情况,如果有大量错误,大盘的颜色的就是红色,当你看到一片飘红的时候,那就是异常太多了。
当然 cat 也具备告警功能,靠人为的定时去看大盘不现实,当有错误后,及时的告警才有意义。想要详细了解 cat 的可以看下我这篇文章:https://mp.weixin.qq.com/s/3mqmySr2nv4Xpd6nZlfsVg
总结
做一个最小成本化的异常监控,估计也就一天搞定了。如果你不做,那就只能等着被怼啦。要控制不出 bug 几乎不可能,是程序就肯定会有 bug。我们需要做的就是在出 bug 的第一时间内及时发现这个 bug,然后消灭它。
码字不易,可以的话来个三连击,感谢!
关于作者: 尹吉欢,简单的技术爱好者,《Spring Cloud微服务-全栈技术与案例解析》, 《Spring Cloud微服务 入门 实战与进阶》作者, 公众号 猿天地 发起人。
我整理了一份很全的学习资料,感兴趣的可以微信搜索 「猿天地 」,回复关键字 「学习资料 」获取我整理好了的Spring Cloud,Spring Cloud Alibaba,Sharding-JDBC分库分表,任务调度框架XXL-JOB,MongoDB,爬虫等相关资料。
版权声明
本文为[尹吉欢]所创,转载请带上原文链接,感谢
http://cxytiandi.com/blog/detail/36504
边栏推荐
猜你喜欢
Anomaly detection method based on SVM
怎么理解Python迭代器与生成器?
恕我直言,我也是才知道ElasticSearch条件更新是这么玩的
Didi elasticsearch cluster cross version upgrade and platform reconfiguration
车的换道检测
Basic principle and application of iptables
面经手册 · 第12篇《面试官,ThreadLocal 你要这么问,我就挂了!》
安装Anaconda3 后,怎样使用 Python 2.7?
python过滤敏感词记录
谁说Cat不能做链路跟踪的,给我站出来
随机推荐
Elasticsearch 第六篇:聚合統計查詢
自然语言处理-搜索中常用的bm25
ThreadLocal原理大解析
谁说Cat不能做链路跟踪的,给我站出来
Leetcode's ransom letter
Serilog原始碼解析——使用方法
7.2.2 compressing static resources through gzipresourceresolver
微服務 - 如何解決鏈路追蹤問題
词嵌入教程
文本去重的技术方案讨论(一)
Dapr實現分散式有狀態服務的細節
接口压力测试:Siege压测安装、使用和说明
业内首发车道级导航背后——详解高精定位技术演进与场景应用
windows10 tensorflow(二)原理实战之回归分析,深度学习框架(梯度下降法求解回归参数)
简直骚操作,ThreadLocal还能当缓存用
Details of dapr implementing distributed stateful service
如何在Windows Server 2012及更高版本中將域控制器降級
微信小程序:防止多次点击跳转(函数节流)
[译] 5个Vuex插件,给你的下个VueJS项目
7.2.1 cache configuration of static resources