原标题:从安全、监控与灾备说开去,谈运维管理防线建设

战学超

首先是网络安全相关。个人认为,网络安全的第一步是划分清楚网络区域,不同网络区域之间通过防火墙,网络区域内部通过交换机和IPTABLES等做严格的网络访问限制。除了使用到的端口对某些或是某区域内终端开放外,其它要严格控制访问权限,做到在网络层面最大程度的减少安全事件发生。

企业网络区域大概分为访客区、办公网、DMZ、内网这几个区域。这是对企业有自建数据中心的情况,很多企业将服务器大多托管至IDC机房,此时DMZ、内网可以理解为IDC机房网络。企业内部访问IDC机房网络或是访问自建数据中心的DMZ、内网需要通过防火墙做严格控制。

一般情况下,可以将办公网络分为IT部门区域和非IT部门区域。只允许IT部门区域的终端有权限访问DMZ、内网上的服务器,非IT部门的终端无权访问。为了严格保护内网中的生产数据,建议IT部门细分开发区、测试区。访客网络一般为企业的无线wifi,主要为公司访客提供网络服务,这个区域一般是不需要跟办公网、内网、DMZ等访问的,可以严格隔离,避免黑客或是攻击者通过访客网区域供给内网。

网络区域划分越详细,整个企业的网络安全也会越高,当然管理也会越复杂。另外一点需要注意的是,对于自建数据中心,接入DMZ、内网的除了多链路(联通、电信、移动个等)接入外,还需与办公网等分开,避免相互受影响。

网络区域划分和网络隔离,相当于为企业信息安全关上了一道大门,接下来通过安全软硬件进一步关闭内门、窗户,阻止信息的泄露。

终端管理要求必须安装防病毒软件,并且及时更新病毒库。定时进行终端计算机的扫描工作,避免办公区域内存在傀儡机、僵尸机等潜在威胁。另外部署WSUS(是Windows Server Update Services)服务器,以备及时下发升级系统。

例如前一阵的勒索病毒就是在掌握补丁包后,通过WSUS及时下发给所有终端PC机和Windows服务器,及时堵住漏洞以防病毒入侵。服务器端,Linux环境下,可以通过脚本、SaltStack等自动运维工具的方式,批量更新系统代码包、程序包,做到漏洞来临之前,及时快速自动地下发补丁包,堵住漏洞。

除了通过防病毒软件堵住一部分PC机的潜在威胁,还需及时建立起全公司范围内的信息安全管理规范和制度,并且定期进行信息安全培训,提高公司人员的安全意识,不给安全威胁以可乘之机。编写常见病毒入侵、挂马手段文档,结合实际案例供全公司人员学习,如可疑邮件不要点击、QQ等即时通讯工具发送的非正常信息不要打开等。

信息安全无小事,一台PC机的攻破,极有可能带来整个公司的网络瘫痪甚至数据丢失等,对人员的安全意识培训一定不能忽视。

IPS入侵防御系统(IPS: Intrusion Prevention System):

IPS是网络安全设施,是对防病毒软件和防火墙的补充。IPS能够监视网络或网络设备的网络资料传输行为,能够即时地中断、调整或隔离一些不正常或是具有伤害性的网络资料传输行为。

IDS入侵检测系统(Intrusion Detection Systems):

IDS是依照一定的安全策略,对网络、系统的运行状况进行监视,尽可能发现各种攻击企图、攻击行为或者攻击结果,以保证网络系统资源的机密性、完整性和可用性。IPS侧重防御,出现问题实时防御,IDS主要是检测,出现问题及时告警。

WAF网站应用防火墙(Web Application Firewall):

WAF主要工作在应用层,执行一系列针对HTTP/HTTPS的安全策略,对来自Web应用程序客户端的各类请求进行内容检测和验证,确保其安全性与合法性,对非法的请求予以实时阻断,从而对各类网站站点进行有效防护。WAF主要对Web应用安全提供防护,而IPS是对企业整个网络安全进行防护。IPS一般接在防火墙之后。二者类似于保安与保镖:IPS是企业安全体系的保安,WAF是企业Web应用的专业保镖,保护的侧重点不同。

如果说上述防火墙、IPS/IDS、WAF属于被动防御的话,那么漏洞扫描设备属于主动防御的设备。漏扫基于漏洞数据库,通过扫描等手段对指定的远程或者本地计算机系统的安全脆弱性进行检测,发现可利用漏洞的一种安全检测(渗透攻击)行为。漏扫一般会定期进行,不会实时扫描,因为对系统的性能影响相对大一些。通过漏扫,及时发现系统、网络等漏洞,及时安装补丁升级,防止漏洞被利用。

VPN很多时候可以跟SSL、HTTPS一起,二者主要是对数据链路层的加密,防止数据被抓包解析导致数据泄露。对于企业内部使用的系统,在需要公网环境下使用的时候,应避免将系统直接或是通过反向代理的方式放到公网上,尽量通过VPN的方式接入,保障内部系统的安全性。随着数据越来越重要,尤其是客户信息数据,在对外网提供服务的Web应用中,尽量走SSL协议,实现HTTPS,数据加密传输,避免敏感数据的泄露。

专业的安全设备往往需要一定数额的资金投入,但这是值得的。当下环境系统,数据的安全越来越凸显重要,数据的丢失和泄露极有可能为企业带来灾难性的威胁。当然也可以使用开源的安全设备进行防护,如比较成熟的OSSIM开源安全信息管理系统。

当然,有些设备是不能使用开源的,如防火墙。开源的安全设备更新换代也比较快,一些新的漏洞暴露出来后一般也会及时有补丁包出来,但是由于只有社区的支持,需要付出一定的学习成本。这是很值得的,因为在不断学习的过程中,自身对信息安全和攻防手段越来越熟悉,在构筑企业安全架构的时候也更得心应手。

是我,我们会在下一版本中将启动的配置写入到脚本中,希望能够给大家带来一定的帮助。

(登录云盘http://pan.baidu.com/s/1gfzkorL或点击文末【阅读原文】可下载本脚本。)

安全工具库主要是在日常企业安全运维的时候,常用的工具,如lsof隐蔽文件发现,SATAN系统弱点发现工具还包括内核升级脚本、OpenSSL升级脚本等。

企业必须建立自己的不安全信息源,做到系统漏洞、病毒等实时获取信息并且对于官方或是社区补丁能够及时获取到。在讲不安全信息源之前,首先大概总结一下常见的安全威胁:扫描、木马、Dos/DDoS、病毒、IP欺骗、ARP欺骗、网络钓鱼、僵尸网络、跨站脚本攻击、缓冲区溢出攻击、SQL注入、密码暴力破解等等方式,这里不逐一深入分享。但是我们可以根据不安全威胁的种类建立信息源收集渠道,做到对国内外安全漏洞等不安全信息及时获取,及时升级补救。

通过监控及时获取服务器系统负载、可疑文件、重要文件修改历史、网络流量等从网络、文件、系统等方面判断系统是否正在遭受威胁。

目前我们主要从以下几个方面判断系统是否正在遭受攻击:

通过以上几个方面,结合Zabbix和自编脚本,进行系统及时的判断甄别,避免对系统和数据造成更大的损失。

所谓留一手,就是系统安全遭受威胁而又无法及时解决的时候,可以利用备份信息和恢复脚本快速的组建新的系统和服务恢复数据,进行正常服务的提供。

任何应用、数据库等都必须建立健全备份恢复制度,并且定期进行演练确保备份是准确可用的。在系统遭受威胁、勒索的时候,而又难以解决,正好利用备份集进行恢复,为系统提供持续服务。

监控、灾备与安全共同构成运维管理平台的三大主题,相互配合,共同为企业的IT系统提供安全稳定的保障。

不安全事件的处理流程一般遵循以下流程:第一步,隔离感染遭受威胁的主机。进行网络的安全隔离,以防止感染其它服务器或是IT设备。

进行隔离之后,需要进一步排查,排查主要部分:排查感染主机感染源或是病毒并且就传播方式进行判定;排查同一网段是否有其他潜在的主机遭受感染。

排查完毕后,确定感染主机的确切数量,接下来进行寻找补丁库,及时打补丁,升级系统,恢复主机至正常。在短时间内无法确认主机源又不好解决,找不到补丁库时,应该采用备份集对感染主机上的服务和数据进行恢复,为系统提供持续的服务。对于被感染的主机,在不确定感染方式和影响范围的情况下,一般采用直接格机重装的方式,彻底消除危险,然后重新进行系统安装和重新上线。

必须在企业内部建立完善的不安全事件处理流程,包括事前防范、事中处理、事后汇报、总结的方式,不断完善企业内部的安全管理规范和流程,做到提前防范、遇事不慌。

58到家高级技术总监 ||| 京东金融运维负责人

当当网架构总监 ||| 饿了么技术总监

前亚马逊中国区新炬网络执行副总裁

青岛航空高级架构师 ||| 爱钱进团队负责人

京东资深架构师 ||| 滴滴出行云架构师

责任编辑: