IBM
服务器
System X 系列
PC机系列
服务器命名规则
常用技术
ServeRaid技术
IBM 服务器管理技术
内存技术
IBM PC Server OS安装
IBM ServerGuide
IBM Dynamic System Analysis
PC Server常用软件
ServeRaid Manager
常见配置
BIOS配置
RAID卡配置
高级管理模块配置
内存配置
常见故障诊断和解决办法
状态确定
故障定位
POST诊断法
蜂鸣声
指示灯
诊断程序诊断
F2运行诊断程序
查看测试日志
硬盘故障
raid卡故障
内存故障
电源故障
风扇故障
CPU/VRM故障
主板故障
BladeCenter 刀片系列
服务器命名规则
System p(p系列小型机)
开放
power构架
System z(z系列大型机)
半封闭
PowerBlade 服务器
Storage 存储产品
光纤存储
HACMP
配置HACMP的规划和考虑
硬件规划
节点的配置要求
至少2个 pseries 服务器作为cluster的节点(安装并运行HACMP,每个节点的AIX 版本和HACMP的版本要完全一致)
内置硬盘:预留一定的硬盘空间满足HACMP的安装要求
I/O插槽:要满足网卡、HBA卡(阵列和带库要分开)、串口卡
建议至少一种non-IP 网络,通常采用RS232网络,如果某些节点集成串口无法作心跳,要配#2943 8口异步卡,节点间要配串口线
一个共享磁盘阵列(7133/FastT/ESS等)
网络的配置要求(IP和Non-IP网络)
确定用户的IP网络类型
确定用户的IP网络资源分配
准备以太网交换机的端口
在交换机上划分VLAN
分配IP地址
确定采用的IPAT的方式
确定用户的Non-IP网络(心跳)
串口方式
IP网络方式
磁盘心跳(Heartbeat via disk)
SSA、SCSI方式
存储设备的配置要求
确定存储设备的连接类型
SCSI
SSA
FC
了解用户需求划分存储资源
划分RAID
创建逻辑盘
确定VG的类型
Non-concurrent
Concurrent
Enhanced concurrent
软件的规划
操作系统的版本和补丁要求
HACMP的版本和补丁要求
补丁中心:http://www-912.ibm.com/eserver/support/fixes/fcgui.jsp
应用程序的兼容性
HACMP的资源组的规划(了解就行)
资源组(Resource Group)定义
Cascading resource group
资源移动按照一个从高到低的优先级顺序,当发生失败节点重新加入(reintegration)时,资源会返回到优先级更高的节点缺省,资源会在优先级最高的节点上启动资源(Resources):
Service IP Labels/Addresses
Volume Groups
Filesystems
Application Servers
接管过程
Rotating resource group
资源移动按照一定顺序,一个接一个呈rotation 当节点失败 ,第一个备(standby)节点会获得失败节点的资源组 一个失败节点重新加入cluster,将会作为备(standby)节点,不会重新获得原来的资源组资源(Resources)
Service IP Labels/Addresses
Volume Groups
Filesystems
Application Servers
接管过程
Concurrent resource group
所有的节点共享且可并发访问数据,应用在所有节点上并行运行,有Lock Manager 协调各节点对数据的访问,一个节点失败,会降低集群整体处理性能,但不会发生接管。资源(Resources)
Concurrent Volume Groups
Application Servers
Custom resource group
HACMP5.1 增加的新类型 ,通过参数设置 ,可以精确定义有关资源组的 startup,failover 和fallback行为的策略。资源(Resources)
Service IP Labels/Addresses
Volume Groups
Use forced varyon of volume groups, if necessary [false]
Filesystems
Application Servers
局限性
Custom RGs 只支持 IPAT-via-Aliasing service IP addresses/labels
HACMP的安装和配置
需要安装的组件
操作系统的补丁
HACMP软件
HACMP软件的补丁
软件的安装方法
NIM
光盘安装
本地硬盘安装
验证安装
配置前准备工作
配置IP地址
编辑/etc/hosts文件
编辑/usr/es/sbin/cluster/etc/rhosts 文件
编写应用程序的启动/停止脚本
创建共享的vg和文件系统
配置串口设备
配置
HACMP的Standard配置过程
添加Cluster和节点
配置Cluster资源
创建Cluster资源组
同步HACMP的配置
HACMP的Extended配置过程
添加心跳
定制Cluster资源
名词解释
BIOS程序
RAID卡驱动
RAID卡firmware
BMC(华为自主研发)
功能概述
通过系统的串口进行访问
故障日志记录和SNMP警报发送
访问系统事件日志和传感器状况
控制开关机
独立于系统电源或工作状态的支持
功能简介
远程控制
通过实现KVM(keyboard video and mouse) sol(serial over lan),虚拟媒体功能实现服务器控制
告警管理
实时接收FRU上报的告警信息,并根据信息进行相应的处理
状态检测
实时监控FRU(field replaceable unit)的各种运行状态
设备信息管理
提供设备版本信息 型号和资产信息查询功能
支持IPMItool工具
支持IPMItool工具发送的命令操作,实现远程管理
支持web界面管理
支持集中账号管理
将账号集中存储在Active Directory服务器 并定向认证,实现域账号登录管理
原理概述(BMC的物理接口)
组成
虚拟媒体
虚拟设备
软驱设备
光驱设备
制作镜像文件
将软盘或者光盘的内容制作成镜像文件并保存在硬盘上
KVMoverIP
用户在客户端利用本地的键盘 显示器 鼠标对远程的设备进行监视和控制 达到实时操作异地设备的管理方式
web模块
调用IPMI的命令以可视化界面的形式对BMC的日常管理 并且web模块集成了KVM over IP和虚拟媒体的功能模块
BMC命令行模块
命令行说明
命令行登录
命令行常用命令
常用设置命令
实现对IPMI模块的调用和操作
IPMI模块
系统的实时监控:在检测到故障的情况下可实现告警的上报 告警的指示和启动系统的自我保护
系统的远程控制:通过命令行和web实现远程上下电 复位业务系统等管理需求
IPMI智能平台管理接口(intelligent Platform Management Interface)
工作原理
IPMI不依赖服务器的处理器,BIOS或操作系统,是一个单独在系统内运行的无代理管理子系统
IPMI提供了一种于厂商无关的远程查看启动,操作系统加载器或紧急管理控制台来诊断和维修故障的标准方式
IPMI增强的认证功能能够实现远程安全操作
SNMP协议管理接口
UID指示灯
定位指示灯
HLY指示灯
健康状态指示灯
MMC
I/O框上的一个MMC模块,通过IPMB总线和服务器刀片上的BMC通信
功能
监控设备的位置信息和工作状态,实现设备的及时管理
检测和控制风扇模块的转速
检测电源模块的在位状态和电源工作正常信号
查询电源模块输出功率和告警信息
PDU配电单元
直流PDU
交流PDU
SOL(Serial over Lan)
SPCN
rack indicator port
机架指示器端口
service processor cable connector
服务处理器电缆连接器
HACMP
HBA卡
IPAT
服务器基础
服务器分类
服务器逻辑架构
管理软件
虚拟KVM
BMC(见“名词解释”)
IPMI(见“名词解释”)
SNMP(见“名词解释”)
关键部件
cpu
分类
RISC(精简指令集)
PowerPC
SPARC
志强
CISC(复杂指令集)
X86
IA-32
EM64T
AMD64
EPIC(显示并行指令集)
IA-64安腾处理器
组成
内存
类型
规格识别方法
配置规则
从每个通道离cpu最远端依次插,实现性能最优
查看运行时的容量,电压和频率
硬盘
RAID卡
保护原理
PCIE
发展
BIOS(基本输入输出系统)
固化到计算机内主板上的一个ROM芯片上的程序
功能
系统设置信息
开机自检
基本输入输出
系统自启程序
BIOS过程
上电开机
1.CPU加载BIOS
2.硬件初始化
3.POST开机硬件自检
4.加载引导项
5.处理系统指令
CMOS和RTV
CMOS
保存BIOS参数存储件
RTC
提供一个精度较高的实时时间计数器,由电池供电
对接存储技术
存储主要协议
SCSI
FC(Fiber Channel)
SAS
ISCSI
NAS(Network Attached Storage)
FC SAN
IP SAN
对接网络技术
以太网
网卡绑定
应用
负载均衡
冗余备份
绑定模式
登录和配置
服务器BIOS设置
BIOS配置
查询BMC IP地址
配置服务器管理网口IP
管理服务器软件配置
BMC
web
串口
Telnet
服务器RAID规划和基本配置步骤
通过BIOS
LSISAS2208
配置流程
界面
LSISAS2308
界面
通过远程管理软件
通过service cd
通过softRAID(可能华为专有)
界面
操作系统安装方法
service cd
光盘安装
步骤
PXE安装
介绍
BIOS的PXE设置
网卡的PXE设置
连接存储和网络
在服务器上操作的步骤
开局验收流程介绍
概述
日常维护和故障处理
日常维护
维护准备
硬件
软件(华为)
基础知识
日常巡检
本地巡检
远程巡检
软件升级(华为)
IMana web升级
命令行升级
故障处理
诊断流程
故障信息收集方法
信息收集表格
关注方向
服务器发生故障时,需要收集下面几类信息进行故障诊断
1.基本故障信息(客户信息,设备型号和配置,故障现象)
2.服务器硬件日志(远程管理或者串口收集)-硬件层面
3.业务层日志(操作系统,业务软件)-软件层面
1.cpu,内存,RAID卡等硬件配置信息(包括型号和数量)
2.节点服务器的健康状态(cpu温度,风扇转速,电源功耗,硬盘状态)
3.节点服务器历史事件日志(用于分析故障时间点前后的服务器状态)
4.最后一屏((用于查看服务器宕机时的画面信息)
5.开机自检码(用于分析不开机 不上电问题)
故障定位方法
部件更换流程和注意事项
日常问题求助渠道
心跳检测技术
实现方法
磁盘心跳
网线(TCP/IP)
TRUNK
文件系统
Windows
FAT32、NTFS
Linux
ext3、jfs、xfs、Reiserfs
其他
ZFS、HFS、VMFS、UFFS、GFS
华为
RH系列机架服务器
RH2485 v2逻辑架构图
RH5885 v2-4逻辑架构图
RH2288 v3逻辑架构
服务器存储
存储介质
磁带机
磁带库
虚拟磁带库
机械磁盘
组成
接口
IDE/ATA
SCSI
SATA
SAS
FC
接口比较
原理
马达带动磁盘然后磁头在磁盘表面以二进制的形式读写数据,读取的数据存储在硬盘的flash芯片中,最后传到程序中运行
主要参数
容量
转速:盘片转动圈数/分钟(rpm)
平均访问时间:寻道时间、潜伏时间
数据传输率:外部和内部
SSD磁盘
数据备份系统
组成
客户端
服务端
存储单元
管理软件
备份类型
全备份
增量备份
差量备份
存储技术
RAID
基本概念
重构
热备(hotspare)
全局式
专用式
逻辑卷
RAID与LUN的关系
RAID0
数据条带化 无校验
RAID1
数据镜像 无校验
RAID3
数据条带化读写 校验信息存储于专用磁盘
RAID5
数据条带化 校验信息分布式存放
RAID6
数据条带化 校验信息分布存放
RAID0+1
先做RAID0 后做RAID1 同时提供数据条带化和镜像
RAID1+0
先做RAID1 后做RAID0
RAID5+0
先做RAID5 后做RAID0 能有效提高RAID5性能
实现方式
硬件
软件
综述
容灾与备份(略)
存储网络
类型
DAS(Direct Attached starage)
NAS(Nerwork Attached Storage)
SAN(Starage Area Network)
HP
刀片