-
新钛云服监控解决方案,为金融企业信息安全保驾护航!
近日,第二届外滩金融峰会召开,数字人民币被推向风口浪尖。从传统柜台服务,到网银、第三方支付,再到数字人民币……信息化金融时代逐渐向我们走来。
随着金融业服务方式的日益网络化、虚拟化,更多网络攻击、病毒侵扰、信息泄漏等安全问题突显。新形势下,金融相关企业如何保障信息安全?部署更先进的防范与监控系统,方能应对全新挑战。
本文将详述“新钛云服监控服务在某金融相关国有企业的成功案例”,供您参考。
企业故事
某金融相关国有企业,随着发展的需要,对自动化管理、监控以及安全等方面的要求与日俱增。金融行业本就对信息安全相当重视,为确保业务稳定运行,纵然国有企业环境限制较多,但客户并未降低标准,相反对各方面都提出了更高的需求。。
业务痛点
监控方面基础相对薄弱,需我司提供较完备的解决方案,并根据方案完成实施工作。其监控需求如下:
- 全网设备状态监控
- 各类应用服务运行状态监控
- 网络监控
- 监控可视化展示
除以上四大主要需求,另有个性化需求如:
- 告警时有告警图像闪烁
- 告警时有喇叭声音提示
- 能做告警自愈的就要做成告警自愈
- 员工上网流量的监控
解决方案
(一)全网设备状态监控
要求做到从基础设施的监控到业务监控到网络监控到日志监控全方位的覆盖。保障出现任何问题都能有相应的告警信息。
1、设备监控覆盖范围
设备监控实现自动化发现设备,通过主动发现或被动发现对设备进行监控。
设备监控覆盖以下范围:
- 服务器
- 客户终端
- 交换机(需要设备支持SNMP协议)
- 路由器(需要设备支持SNMP协议)
- 防火墙(需要设备支持SNMP协议)
2、设备监控
这里的设备主要指一些办公设备的监控,监控包含以下内容:
- 运行异常告警
- 设备数量变化提示
- 设备出大楼门口告警
(二)各类应用服务运行状态监控
应用服务根据客户的实际情况进行监控,包括并不仅限于以下列出的应用。
1、应用服务监控覆盖范围
应用服务监控覆盖范围如下:
- 数据库
- Web服务
- 中间件
2、 应用服务监控
应用服务监控功能如下:
- 运行异常告警
- 故障Web服务自动重启
故障Web服务重启后继续监控,1分钟后仍未恢复正常再次重启,两次重启后仍未恢复正常,则电话通知相关负责人处理。
- 安全产品客户端故障自动重新安装
安全产品客户端在监控确认故障且重启2次仍未恢复工作的情况下自动重新安装。重新安装如仍未恢复工作,则电话通知相关负责人处理。
- 磁盘空间报警删除事先指定可删除目录下的文件
大部分日志文件设置轮询删除,保留三个月到半年的日志量。在此基础上有磁盘告警出现才做指定可删除目录下文件的删除操作。
- 站点及服务接口监控
站点及服务的访问状态码和延时监控。对状态码大于等于500的值,延时超过3秒的访问要进行告警处理。同时站点是https协议的要有SSL证书的过期时间告警。
(三)网络监控
1、 网络监控覆盖范围
网络监控覆盖范围如下:
- 网络流量异常
2、 网络监控功能
网络监控功能如下:
- 网络流量异常告警
- 网络流量异常限流
通过上网行为管理设备对员工的上网进行管控,当发现员工上网流量异常后对员工进行限流措施。
参考使用设备:深信服员工上网管理
(四)日志的监控
日志监控除了可以对一些重要的日志信息进行告警之外,还可以提供日志查询及故障判断使用。是整个监控体系必不可少的一部分。
1、日志的查询
日志可以通过关键字加判断条件进行查询也可以按字段的条件进行查询,组合搭配非常方便。
2、日志的告警
一些关键指标的日志需要配置告警,否则会造成很严重的故障。如:JAVA应用内存溢出必须要马上告警。告警原理是通过日志消息中匹配指定字符串内容就告警。实际告警结果如下:
(五)可视化展示
可视化展示根据客户的需求进行定制。
1、可视化展示功能
可视化展示功能如下:
- 主要业务指标展示
- 硬件和服务大屏轮播
- 发生告警通过声音、图像或动画提示
- 可以提取详细的告警项信息
2、可视化大屏种类
- 基础设施的大屏
- 拓扑图大屏
可以直观的看到资源的状况,不同资源出现问题会以不同的颜色显示,绿色为正常,黄色为有问题但还能工作,红色为不可用。
- 站点监控大屏
可以看到站点的状态码和访问延时以及证书的过期时间。
- 业务监控大屏
直观的显示业务当前的指标信息,例如用当前疫情作为业务指标的案例:
(六)故障自愈
部分告警是可以做成故障自愈的,例如磁盘空间的告警,可以预先设置某个目录下的文件是可以删除的,在磁盘达到告警的阈值后进行自动的处理。
客户收益
通过以上监控体系的建设,给用户带来如下收益:
(一) 资产梳理
通过监控体系的建设,不仅可以做到整个环境的监控,同时能清楚的知道公司有哪些基础设施、重要的办公设备、网络设备和运行的业务等,这些资产信息可以通过脚本半自动的进行收集。
(二)对环境情况了如指掌
通过大屏做一些基础设施或业务负载的排名,能清楚的监测当前哪些基础设施或业务负载比较高,并以此来检查判断是否需要增加资源,或是修改业务代码或架构。
(三) 7*24小时的监控告警
通过整个监控体系,可减少人为的值班监控检查,一切都由监控服务去处理,只有在收到告警情况下,才需要人为处理,部分告警可以设置自动处理。这样做不仅减轻了运维人员的负担,还增加了处理的效率。
作者:秦鸣