实战教程:如何建立双机热备系统
笔者是一名医院的网管,而医院的软件系统要求能够做到一周7×24小时工作,对于整个系统的核心服务器来说如果死机后果是灾难性的。所以采用网络服务器容错技术来保障计算机系统的可靠性是件大事!我们采用的是双机热备技术!相对于其它更高成本的容错技术来说,这是最经济且卓有成效的技术。
硬件准备
1.安装前检查
服务器01、02两台(面板有标示),阵列柜1台,双机互联线1根(蓝色),阵列柜电源线2根,服务器电源线2根,SCSI数据连接线2根。
2.阵列柜安装事项
先连接SCSI数据线,一头接阵列柜后方数据接口,一头接服务器上方非集成接口(服务器接口有两个,一个是主板集成,一个是非集成,非集成的在服务器背部上方),再分别将电源线两根接阵列柜后方风扇口一侧,扣好搭扣。
3.网卡连接注意事项
蓝色网线是双机互联用的,一头插在01服务器非集成网卡上(位置在服务器背部上方),另一头插在02服务器上(位置同上)。业务用的网线一头插在服务器集成网卡上(位置在服务器中下方,两台都一样),另外一头插在交换机上,01、02都是这样安装,安装后效果如图1。
图1
4.开机顺序
先开阵列柜,直到看到上面出现英文提示“Startup Completed”后再开服务器01,直到出现登录窗口再开服务器02,到服务器02出现登录窗口后,双机开机过程结束。
关机:先关服务器02,直到电源完全关闭。再关服务器01,直到电源完全关闭,最后按阵列柜电源开关,则阵列柜关闭。
切记:
1.不能双机同时读写文件到阵列柜相同分区,否则可能会造成文件或分区损坏。
2.先保证服务器关机后方可关闭阵列柜,不然会造成阵列柜内数据丢失。
3.一定要配置UPS,严防停电事故发生。
小知识 什么是双机容错?
双机容错是通过双机容错软件在两台服务器之间建立一种容错机制,当其中一台服务器出现故障而不能胜任工作时,自动切换到另一台服务器。客户端不知道也不用知道目前是由哪一个服务器在做相应的工作。由于医院的软件是基于Windows 2000 Server+SQL实现的,所以双机容错系统的处理核心是通过互相监控的NT服务程序来实现的,双机容错系统是完全独立于NT的应用软件和硬件设备。
软件使用
双机容错的核心是双机热备软件通过互相监控来实现热备的效果。我们采用的软件是美国ROSE数据公司的ROSE HA。ROSE HA可及时地进行错误隔绝、恢复,保证服务器在出现意外及有计划的停机情况下均能为客户提供连续有效的服务。将ROSE HA软件同时安装在两台服务器上,用于监视系统的状态,协调两台服务器的工作,维护系统的可用性。
将软件分别安装在01和02服务器上,并输入正确的授权号。它的安装很简单,一路“Next”即可,安装完成后请注意,要将它的服务改为随系统启动。
注意:双机热备要求双机须超级用户密码相同,因此超级用户密码为都为123。
服务器01为主机,服务器02为从机,当01出现中断或意外不能工作时,双机热备软件会自动切换到另一台服务器即02,直到服务器01恢复,软件会自动切换回01机。
1.状态显示说明
主界面中,两台PC机呈亮色,表示双机开启,中间绿线表示双机心路线(即蓝色网线)通讯正常,红色表示线路有故障或双机中有一台无响应!双机中屏幕有ZZZ标示的为从机,屏幕中有图标的是主机(图2)。主机工作时能看到阵列柜分区,即G、H盘。从机不能看到这两个分区。
图2
2.资源界面说明
图3所示server01(01机)和server02(02机)两边现在已经建立好了相应的同步资源,它们是IP地址、服务器名、NT服务、共享文件和磁盘卷。现在分别列出相关信息:资源工作状况说明,呈现亮色的为主机资源,绿色的为从机资源,×××惊叹号的表示该资源有异常(如主机死机,从机就会显示此信息)。灰色表示资源刚建立但未激活。原则上两边的资源名称和数量是相同的,阵列柜资源必须全部包含在内。
图3
其中server表示虚拟服务器,它是由双机热备软件自动产生的PC机。
server的特性基本与主机相同,如输入\server\c$,可以访问的是server01的C盘,但它使用自己的IP地址,共享目录也是自己的,如\server\test能够访问的前提是server01和server02都创建了test目录共享,且两个共享是指向同一个目录,如G:\test,而不能建立在各自的独有盘符中,要建立在公用盘符(一般是阵列柜)上。当双机的共享都建立成功后,再使用双机软件创建一个虚拟共享资源如\server\test即可。
开设用户名为管理用账号“toway”,密码“toway”,如果新账号要求在server01中进行,它是主域控制器。数据库用户名system / twsa2004_comein. (注意后面有小数点)。
出现意外时的处理方法
1.双机配置时
双机热备程序已经备份了注册表文件,分别对应在各自机器的 administrator\我的文档中文件名为01.reg和02.reg,恢复时先停止双机服务,步骤为:进双机软件,点击快捷菜单中的红×××标,依次点→Tools→Restore cluster configur01tion,选中相应的备份文件即可。
2.资源丢失,如阵列柜盘符消失
先停止双机服务,再分别在双机中使用磁盘管理器加入相应盘符,保证双机盘符相同再重启双机服务,点击失效的资源(一般呈灰色),右键选择“bring in cluster”,稍后即会恢复正常。
3.切换服务器的主从顺序
点击需要停止机器名,进入菜单选择resource→server f01ilover。
4.意外停电事故的处理
如果遇到意外停电事故,可能会产生阵列柜分区丢失,双机不能正常工作的情况。请按下面的方式处理:
1)先停止双机服务。
2)使用磁盘管理器加入相应盘符,看此时是哪个盘符丢失,直接点击盘符在右键菜单中选择“更改驱动器名和路径”,分配原来正确的路径即可。
3)重启服务器01,在我的电脑中查看阵列柜盘符是否已经出现,里面的内容是否还有。由于相关的备份内容已经全部拷贝到01机的E、F盘中,主要是mssql、server和toway等3个关键目录。如果损坏严重,可以用备份进行拷贝来恢复。不过最好是重启后仔细观察,不要轻易进行拷贝恢复,因为可能会丢失一些数据!
一般来说,G 盘存放mssql(SQL安装路径)、server(程序共享路径)、towayhis(数据库日志)等文件夹,H 盘放数据库的目录和towayhis (数据库文件)文件夹。
重启服务器01后,将服务器02也重启一遍,查看阵列柜分区是否正常。
4)如果一切正常就可以启动双机程序,把服务恢复。检查资源窗口中的状态是否正常,如果呈现灰色,一般是阵列柜的盘符,可以手工启动它,启动方法是右键点击盘符选择“bring in”即可。
提示:双机程序可以手工切换指定谁为主机,默认是01,如果想改为02,在资源界面中选中01机,再点击快捷菜单中“?”左边的第一个按钮即可。切换后原来的01机资源呈现绿色 ,02机资源呈现亮色,即表示切换成功!