排除器

IDC从业十多年在数据机房遇到的未解之谜

发布时间:2022/9/5 12:33:33   
白驳风 http://news.39.net/bjzkhbzy/171129/5885336.html

在如今高速发展的互联网时代,特别是IT行业干久了一定有很多人对一些诡异的问题刻骨铭心,刚入行时,有攻城狮前辈讲过,学计算机就不要总问为什么。十几年走过来,现在算是深有体会。

哪怕在高科技唯物主义思想集中的地方,机器密布,网线复杂的云计算IDC机房也会出现一些至今无法用科学解释的现象。

我们在IDC运维工作的通常最费解的现场就是:平时一点事情没有,系统正常,数据库正常,存储正常,但一到放假过年,必定出问题。网络中断,被攻击不稳定,反正就是一放假准有问题。休息值班日一定总有故障,基本就是每逢重要日子必出大故障。基本遵循那个万能定律,千万别说自己从没怎么怎么样,比如我这一年从没感过冒,那么没几天你一定会感冒。机房也是这样,千万不能张口说今天好平静很安逸之类的话……

这些年我在机房亲身经历过不少多令人费解的事件,要讲完简直可以写一本传奇小说的连载了,有些实在想不起来了,我就挑其中几件写出来。

1..交换机上插好的网线头自动弹出来。

年的夏天,公司有部分机组搬迁,大概40多台服务器的任务,很简单,无非是机柜布线,机器迁移上架打标签而已的事。以前都是用的手工网线钳压制作的双绞线,这种网线的好处是长短距离灵活控制,不会在机柜里有一丝多余的长度占用位置,弊端就是手工压制网线头,有时候会压的不标准,造成网线头有时候会插不紧,而且经常也出现头子质量稳定性问题,遇见过线压的不紧,网络传输不稳定,甚至出现网线头从设备插槽里弹出来的事情。

用成品网线的好处就是网线质量好,但是长度固定,有时候容易窝出来一堆多余的占位置,再就是成本高。但是这次搬新机柜,为了省事,公司全部采购了成本网线,看着很扎实的,而且又好看,摸着也舒服。

搬迁前就是这么个样子,后来换了成品网线后就好看顺溜多了。

但是就是遇到了一个非常神奇的事情,在部署好设备后,所有交换机上网线都插紧了,网络也通了然后我们去放心的离开,然后到了晚上22点左右。,突然发现同一机柜2个服务器不通了。就是如图上蓝色网线有2个口。

我们远程登录交换机上看网口状态,发现是up的,那说明物理连接OK,但是网不通,我们猜测估计是服务器宕机了,假死状态,通电,但只是网不通,当然也很奇怪,两个服务器怎么同时宕机?

被迫无奈,只好起身去机房查看,我们看到了平生最诡异的事情,这个交换机上有两个网口直接是弹出来了一部分,就尼玛虚接状态,灯也不是亮的。。

那么问题来了,第一,肉眼都看到虚接,部分在外面,为什么交换机看状态是UP的?

第二,成品网线在我们认知里都是卡的死扣的很,为什么会弹出来。好吧,也许是我们工作疏忽,重新插入一遍,好了,网络通了,赶紧溜之大吉……

结果第二天差不多又是晚上这个时候,又出现了依旧是两个服务器不通的情况,结果竟然还是同样的问题。Orz。千真万确,确定机房也没人去故意动他。

排除交换机配置,网线口的质量,就差哪个远程摄像头盯着看怎么弹出来的了。没的时间耗,最后把两个网线插到了交换机上其他口子上,遂安宁。至今无法合理解释这一巧合。

2.拷贝复制好的数据自动消失

公司数据每周都会手动配备网站数据,包括有些客户的虚拟空间的网站。虽然设置了自动备份,但是有次客户备份好的数据,居然消失了。我记得很清楚,是年7月14日备份的,数据备份丢失了,数据没了就没了吧,这个时候,有个客户找来了。网站打不开,我们技术哥哥收到消息,马上检查,检查发现,网站文件没有了,备份的数据也被删除.这可怎么办。

还好我们的网站数据有异地备份,一个月一次,总算帮客户的网站恢复。但是现在想想,查系统日志记录,一点记录都没有,系统也没被入侵和安全问题。

复制好的数据是怎么自动消失呢?也许只有天知道。

3.交换机配置自动变,多出VLAN号,并且保存了不生效。

XX市IDC机房华为S系列交换机,无论如何配置,就是保存后不生效,端口配置明明是trunk模式,但只要一save后再show,发现自动上变成了hybird和加上了pvid号,指天发誓,千真万确。

后来咨询了厂家,寻求了很多行业大佬都说没遇到过。真是日了狗了。

最后升级了固件,换了端口,怎么折腾都不行,只能将就着使用,对业务影响不大,用其他模式跑数据撑着。大约等了一周左右,偶然想起这个事,登陆上去一看,竟然不知道怎么自动好了,自动好了,非常神奇。

4.连续一周半夜的时候服务器主板上蜂鸣器报警,后来机房运维主管过来摸了一下好了。

我们在实际中遇到过一台服务器设备总是不停宕机,换机位就好了。而同样机位换别的服务器就不宕机服务器设备的朝向摆放对稳定性有影响,基本可以归结为静电。

年的5月7日,我值班去机房巡视,说着奇怪的事情;每次都要到机房来中转维护,事情就发生在夏季;那天天依旧是电闪雷鸣,平时最怕打雷闪电的天气,刚进机房我就看到黑乎乎的房间里闪亮这红色刺眼的灯光,而且发出刺耳的机器报警声,加上电闪雷鸣的多多少少有点渗人,我急忙打开灯缓解一下内心的紧张,随后走到发出刺耳报警声的地方查看,原来又是这台机器,听之前的同事提起过,这台服务器每逢半夜就报警,这种情况已经持续一周了,始终找不到原因,就在这时手机响了,是主管毕老师打来的,(这里说一下,我们主管很厉害的。任何技术问题在他手里,分分钟就搞定了)询问一下今天机房巡查的情况,我就把这台机器的情况向主管说了一下,主管听后也很诧异,竟然一周都是如此,然后就说等他一下。

过了半小时毕老师来了,问了我一下具体情况,然后就跟我一起开机检查什么原因,但是当他刚碰到机子的时候,机器像吃了药一样,突然不报警了,顿时我一脸懵逼的看着他,他看出了我的疑问,说我只是碰了它一下,我还是不敢相信,就追问你到底做了什么,还是身上带了什么高科技呀,他说啥也没带,一身正气、自身气场强大吧。外面的雨越下越大哦,主管就说机器好了就行,这么大的暴雨我们先回去吧,随后就跟着主管离开了机房各自回家了。

回家我就想了一下这个问题,今天为何毕老师过来摸一下,机器就会好了呢,回想一下在公司的时候也有过类似的事情,例如某同事的远程打不开了,主管却一下子就打开了,是机器怕牛逼的运维工程师老司机?不得而知,这样的事情很常见,也许这就是气场吧。

5.换个IP地址就好了。

值班的时候QQ和

转载请注明:http://www.aideyishus.com/lkgx/1578.html

------分隔线----------------------------