停机时间意味着什么?停机时间怎么了?对于刚进入it行业的人来说,很多名词都是陌生的。在服务器端,我们经常听到停机的消息,也经常在网站上看到一些停机的新闻。停机时间意味着什么?下面总结一下。
停机时间意味着什么
一:宕机怎么读
停机时间被称为“”,我们也可以将其视为停机时间。
二:宕机是什么意思
在电脑里,我们用dowm表示停机转换成汉字就是停机,也可以理解为死机,服务器不能正常工作,包括服务器死机的所有原因。
在正常情况下,服务器可能会因计算机主机故障而崩溃,或者服务器可能有问题,或者数据库可能会死锁。当dns失败时,通常会说它崩溃了,但不是说它停机了。停机意味着一个大型网站出现故障,被叫停。比如百度最近也经历了一次宕机,导致百度网站部分区域无法访问。停机是普遍现象。每天都有各种停机事件,但都只是小企业网站,我们很少关注。
三:防止宕机的方法
我们可以建立一个停机警报框架来监控可能停机的网站。一般我们可以每15分钟设置一次诊断,这样就减少了停机的概率。
这就是停机时间的全部含义。如果你想了解更多关于服务器的信息,请关注聚名网.
宕机什么意思 服务器出现宕机怎么解决?
相信很多用户会听到或提到电脑停机或服务器停机,很多用户也不太明白停机的含义。那么服务器宕机意味着什么呢?以下小e分享电脑停机的阅读和意义。
宕机怎么读?
我相信很多人不知道“当”这个词怎么发音,所以他们不知道它是什么意思。“停机”的拼音发音是:dng ji。
服务器宕机是什么意思?
停机属于计算机术语,指计算机或服务器不能正常工作。口语中我们简单的叫停机,翻译成汉字就是“停机时间”,但大多数人叫“死机”/“死机”,不规范但通俗。
当服务器出现故障时,很少会立即想到问题的原因。我们将基本上从以下步骤开始:
一、尽可能搞清楚问题的前因后果
不要一下子就粘在服务器前面,你需要知道你对这个服务器了解多少,以及失败的细节。否则,你可能什么也没有瞄准
必须澄清的问题是:
故障的表现是什么?没反应?报错?
故障是什么时候发现的?
故障可再现吗?
是否有定期发生(例如,每小时一次)
整个平台最近一次更新是什么(代码,服务器等。)?
受故障影响的特定用户组是什么(登录、注销、在某个地区……)?
可以找到基础设施(物理和逻辑)文档吗?
有监控平台吗?(比如munin,zabbix,nagios,new relic…什么都行)
有日志可以查看吗?(比如loggly,airbrake,graylog….)
后两者是最方便的信息来源,但不要期望太高。基本上两个都不会有。我只能继续摸索。
二、有谁在?
$ w
$最后12
使用这两个命令查看谁在线,谁访问过。这不是关键步骤,但最好不要在其他用户工作时调试系统。俗话说,一山不容二虎。(厨房里没有厨师就够了。)
三、之前发生了什么?
$ history 1
检查之前在服务器上执行的命令。看着总是对的。添加关于谁登录的信息应该很有用。此外,作为一名管理员,你应该注意不要利用自己的权力侵犯他人的隐私。
只是提醒您,您可能需要更新histtimeformat环境变量,以显示这些命令是何时执行的。是的,否则仅仅看到一堆不知道什么时候执行的命令就会让人抓狂。
四、现在在运行的进程是啥?
$ pstree -a
$ ps aux12
这是为了查看现有流程。ps aux的结果比较乱,pstree -a的结果简单明了,可以看到运行过程和相关用户。
五、监听的网络服务
$ netstat -ntlp
$ netstat -nulp
$ netstat -nxlp123
我通常分别运行这三个命令,我不想一次看到所有服务的列表。netstat -nalp没问题。但是,我绝对不会用数字选项(我肤浅的观点:ip地址看起来更方便)。
找到所有正在运行的服务,并检查它们是否应该运行。看看每个监听端口。在netstat中,服务列表中的pid与ps aux进程列表中的pid相同。
如果服务器上同时运行着几个java或者erlang进程,那么通过pid找到每个进程是非常重要的。
通常情况下,我们建议每台服务器少运行一点服务,如果需要,我们可以增加更多的服务器。如果你看到一台服务器上有30或40个监听端口打开,做一个记录,空闲时清理一下,然后重新组织服务器。
六、cpu 和内存
$免费-m
$正常运行时间
$ top
$ htop1234
注意以下问题:
有没有多余的内存?服务器是内存和硬盘互换吗?
还有cpu剩下吗?服务器有多少核?是不是有些cpu内核过载了?
服务器最大的负载来自哪里?平均负荷是多少?
七、硬件
$ lspci
$ dmidecode
$ ethtool123
很多服务器还是裸机,可以看看:
找raid卡(带bbu备用电池?),cpu和备用内存插槽。根据这些条件,我们可以大致了解硬件问题的来源以及性能提升的方法。
网卡设置好了吗?是否在半双工状态下运行?速度是10mbps吗?有没有tx/rx错误?
八、io 性能
$ ios tat-kx 2 $ vmstat 2 10 $ mpstat 2 10 $ dstattop-iotop-bio 1234
这些命令对于调试后端性能非常有用。
检查磁盘使用情况:服务器硬盘是否已满?
交换切换模式(si/so)是否开启?
谁占用cpu:系统进程?用户流程?虚拟机?
dstat是我的最爱。你可以看看是谁在用它做io:mysql是不是把系统资源都吃光了?还是你的php进程?
九、挂载点和文件系统
$ mount
$ cat /etc/fstab
$ vgs
$ pvs
$ lvs
$ df -h
$ lsof d/*小心不要弄死你的盒子*/1234567
安装了多少个文件系统?
是否有专用于某项服务的文件系统?(比如mysql?)
文件系统的挂载选项是什么:noatime?默认?文件系统是否已重新装载到只读模式?
还有磁盘空间吗?
有没有大文件被删除但没有清空?
如果磁盘空间有问题,您还有空间扩展分区吗?
$ sysctl-a | grep…$ cat/proc/中断
$ cat /proc/net/ip_conntrack /*在繁忙的服务器上可能需要一些时间*/
$ netstat
$ ss -s12345
你的中断请求是平均分配给cpu,还是会因为大量的网络中断请求或者raid请求导致某个cpu内核过载?
swap交换有哪些设置?对于工作站,swappinness设置为60,但是对于服务器来说太糟糕了:您最好不要让服务器交换,否则读写磁盘会锁定交换过程。
conntrack_max设置是否足够大以处理您的服务器的流量?
不同状态(time_wait,…)tcp的tcp连接时间设置是怎样的?
如果要显示所有已有的连接,netstat会比较慢,可以先用ss看看整体情况。
也可以看看linux tcp调优,了解一些网络性能调优的要点。
十、系统日志和内核消息
$ dmesg
$ less /var/log/messages
y"$ less /var/log/secure
$ less /var/log/auth1234
例如,检查错误和警告消息,看它是否是由过多的连接引起的。
查找硬件错误或文件系统错误。
及时分析这些错误事件是否可以与之前发现的疑点进行对比。
十一、定时任务
$ ls /etc/cron* cat
$ user in $(cat/etc/passwd | cut-f1-d :);do crontab-l-u $ user;done12
是否有计划任务运行过于频繁?
是否有用户提交了隐藏的预定任务?
发生故障时,是否正在执行备份任务?
十二、应用系统日志
这里有很多东西需要分析,但恐怕你作为一个操作人员,没有时间仔细研究。注意那些明显的问题,比如典型的lamp(linux apache mysql perl)应用环境中的:
apache nginx查找访问和错误日志,直接查找5xx错误,看看是否有limit_zone错误。
mysql在mysql.log中查找错误消息,查看是否有任何结构损坏的表,是否有innodb修复进程正在运行,以及是否有磁盘/索引/查询问题。
php-fpm;如果设置了php-slow log,直接找错误消息(php,mysql,memcache,…);如果没有,快速设置。
清漆;检查varnishlog和varnishstat中的命中率,查看配置信息中是否缺少任何规则,以便最终用户可以直接攻击您的后端。
高可用性-代理;后端的状态如何?健康检查成功吗?前端队列大小还是后端队列大小达到最大?
结论
经过这5分钟,你应该对以下情况有了更好的了解:服务器上运行的是什么?此故障似乎与输入输出/硬件/网络或系统配置有关(错误代码、系统内核调整等)。这个断层有没有一些熟悉的特征?例如,不当使用数据库索引或过多的apache守护程序。
你甚至可以找到真正的故障源。就算还没找到,现在也有条件深挖。继续努力!