一个勉强支撑 50 万用户访问的教育网站,因为领导的一个通知,这短短的半个月愣是暴增至 200 万,然后我们就是不停的加班加服务器,数据库扩容,部署多节点,慌慌张张搞的头晕。
平台基本组成如下:
目前没有一个全面的监控系统,所以无法得知平台的负载能力,未来还得加多少机器,各位 v 友分享下对高流量网站的对策。
1
jingniao 2017-12-22 21:38:58 +08:00 via Android
一套通用的开源系统监控,搭起来应该不算麻烦吧,先用起来啊,不太清楚你说的没有“全面的监控”指的是什么,如有理解错误,请无视吧
这是我的想法,未经验证 |
2
jieqiuming OP @jingniao 感謝分享,我说的全面监控是全面了解各服务器的负载情况、资源占用情况等。
|
3
Nioty 2017-12-22 21:59:26 +08:00 via Android
Zabbix 这类的工具
|
4
Lax 2017-12-22 23:39:15 +08:00
虽然都叫监控系统,还是有很多不同的类型。
具体来说,满足不同的需求,如; 需要知道资源方面的使用情况,比如机器的内存、CPU、网络带宽; 需要知道服务 /接口的性能状态,那么就要进行一些主动或被动检测; 需要知道业务流程的执行效果,需要有一系列日志的分析工具和规则; 其它还有安全监控、配置监控等。 整套建立起来需要有工程的管理方法,不然容易搞得不全面而最终做无用功,就像木桶不能留短板。运维的价值不是加机器重启机器那么简单 |
5
defunct9 2017-12-23 13:10:43 +08:00 via iPhone
nagios
|
6
southwolf 2017-12-23 14:27:17 +08:00
Open Falcon 或者 Prometheus 吧
|
7
imstand 2017-12-23 14:44:06 +08:00
上云吧
|
8
jieqiuming OP @imstand 服务器部署在客户那边 不能上云
|
9
win10shit 2017-12-23 16:34:29 +08:00
200 万在现在来说很小,可能要考虑找人重新开发一套系统了
|
10
yigemeirenyongde 2017-12-23 18:59:59 +08:00
楼主,我看你咋那么眼熟
|