阿里云日志服务接入小计

上个月为了消灭阿里云后台的一个 Linux 系统漏洞告警,对服务器执行了一次 apt-get upgrade,顺便重启了一下。在恢复各种后端服务的时候,忘记启动 Solr Server,导致歌词查询服务一直不可用。当时也恰好没有对 Solr 做可用性监测,就这么挂了整整4天,手动启动后恢复正常。复盘后发现其实日志已经报的很明确了,只是没有监控到位,于是实时日志监控必须要安排上了。

早期项目上线时候也写过一些脚本来搜索日志中的特定关键字,比如“ERROR”,“EXCEPTION”等,但都不太完善,维护也困难,没太当回事。实际工作中,我们一般采用 ELK 三剑客 + 企业微信或者钉钉群推送来做通知。这一套搭建起来成本并不低,甚至会高于项目本身。

对比了一些第三方后,决定还是用阿里云 SLS 日志服务,主要是免费额度够用,结合之前的邮件、短信告警,接入还是比较简单,一步一步按向导走即可,这里有个小插曲,第一次按向导创建了一个 Logstore 后,在删除上级关联后成了游离 Logstore,无法再使用,工单后只能用 API 删除。

一套优秀的日志服务,无外乎都有以下几大块。

1. 数据采集

阿里云数据采集支持的数据源非常多,也有相对应的 SDK 提供,这里主要采用安装 Logtail Agent 来读取 Java logback 日志进行采集,对程序透明,无需停机,实时采集。阿里云的 Logtail 提供了管理后台来配置读取路径,解析格式等,非常方便,无需写配置文件。

2 ECS 安装 Logtail

对于已经使用了阿里 ECS 的主机,在配置向导中可以自己选择实例自动安装。

3 后台设置 Project、Logstore、Logtail

一个 Project 可对应多个 Logstore 日志存储,即对应多个项目,或者多个服务模块,可关联多个 Logtail 采集器,适合集群环境。

Project 是一个方便管理日志而定义的,例如我按地域节点划分了三个 Project,(microservice-log)深圳节点,(microservice-log-hk)香港节点,(bill-analysis)账单。Project 有地域限制,即同一个地域的机器才能放到同一个 Project 中。

Logstore 为实际的日志存储,采集的日志都存储在这里。默认会自己创建一个,按量付费,酌情使用 shard 和保存时间,避免超出免费额度。

Logtail 为采集程序,创建好 Logstore 会引导配置 Logtail,主要是配置下采集日志的路径和格式,这里我简单列举下正在使用的配置。

日志路径我配置为:/usr/local/applications/lyric8280/logs/∗∗/lyric.log

我之前设置的 SpringBoot 的日志在 jar 包目录的 logs 下,并按天产生一个新文件,旧文件打包,并在30天后删除,因此采集器配置就指向上述路径即可。“/∗∗/”可以表示任意目录,如果你的日志路径中有动态部分,可以放到这里。

设置采集模式:完全正则模式,由于日志中有换行和存在 Java stack 日志,需要关闭单行模式。

日志示例:2020-10-15 00:00:29.049 INFO 1672 — [Thread-5038] com.dorole.service.SolrSearchService : <手放开 李圣杰> Solr 总数:3

设置首行正则表达式:\d+-\d+-\d+\s\d+:\d+:\d+\.\d+\s.*

验证一下,成功匹配数:7,说明符合要求,这时候的日志还不是结构化的数据,勾选提取字段。

设置正则:(\d+-\d+-\d+\s\d+:\d+:\d+.\d+)\s+(\S+)\s(\d+)\s(\S+)\s(\[.*\])\s(\S+)\s+:\s(.*)

验证一下,就可以得到key,value了,对key进行命名后,就完成了结构化日志。

取消使用系统时间,设置时间转换格式:%Y-%m-%d %H:%M:%S

验证通过后,就完成了一个Logtail配置。这里推荐使用 https://regex101.com/ 在线debug正则。

4. 日志查询

日志查询还是比较习惯终端登录,less/tail查询,阿里的这个查询就我基本忽略了,主要是为了配合后面的监控,有兴趣的可以深入研究SQL查询语法,号称5条件内秒查10亿级数据。

5. 告警设置

告警其实就是一组特殊的查询,以时间范围内查出指定内容,执行某个任务。

例如,设置查询语句:level = ERROR | select logger, msg,时间区间一分钟(相对),频率间隔:1分钟,触发条件:$0.logger != ”。

即“ERROR”级别的日志一分钟内出现一次以上,则触发后续通知动作。通知按需设置即可,可携带变量,默认也够用了。

到此,基本就结束了,别忘记多测试下,确保没有配置错误。看似简单的需求,背后实现还是挺复杂的。

噢,对了,开通日志服务后有免费的账单分析服务,会新起一个 Project ,每日推送账单,还挺方便的,各种费用清清楚楚。

更多参考官方文档:https://help.aliyun.com/product/28958.html