服务器,即可。
31、为主机应用Host Profiles提示compliance错误故障状态:
为主机应用Host Profiles失败,提示如下错误:
01.Specification state absent from host: device '<datastore>' state needs to be set to 'on'
02.Host state doesn't match specification: device '<datastore>' needs to be reset
03.Specification state absent from host: device '<datastore>' Path Selection Policy needs to be set to 'VMW_PSP_FIXED'
04.Host state doesn't match specification: device '<datastore>' Path Selection Policy needs to be set to default for claiming SATP
故障分析:
这是由于PSA组件导致的;
解决方案:
1、右击Host Profiles后点击Enable/Disable Profiles配置选项;
2、展开“Storage Configuration”选项,展开“Pluggable Storage Architecture”这个uxanxiang;
3、去掉“PSA Device Configuration”;
4、展开“Native Muti-Pathing(NMP)”这个选项后,接着展开“PSP and SATP configuration for NMP devi”选项;
5、去掉“PSP configuration for”这个选项后点击OK即可。
33、分析、解决IOPS导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题故障状态:
1、虚拟机性能较低;
2、在执行备份时磁盘延时很厉害;
3、虚拟磁盘vmdk延时较大;
故障分析:
这种问题基本都是由于虚拟机没有足够的IO Per Second(IOPS),或者IOPS低于30;
解决方案:
在解决问题前,首先要解决以下两个问题:
问题1:什么是IOPS?
IOPS全称为Input/Output Per Second,它是衡量一个磁盘(虚拟磁盘和物理磁盘)、存储的基本也是十分重要的标准。不同的磁盘、存储有着不同的IOPS。IOPS的高低直接会影响着系统的性能。当前,VMware虚拟化环境中最大的瓶颈也就在于这个IOPS。针对数据密集型业务的数据库业务和流媒体业务,由于它们的IOPS很大,所以在虚拟化环境中部署它们一定要充分考量它们的负载,也就是IOPS大小,结合实际的存储性能来查看是否符合业务标准。
问题2:如何计算IOPS?
如何计算每台虚拟机的IOPS?
要想计算每个虚拟机的总的IOPS数量,首先就要确认磁盘类型以及它们的IOPS是多少。处于RAID阵列里面的每个盘的IO有利于增长整体存储的可用IOPS。而位于这个存储上面的单台虚拟机的IOPS,则可以通过将这个存储的总IOPS除掉虚拟机数量即可基本得到单台虚拟机的IOPS。
现实案例:
假定有6颗10000RPM的磁盘,那么它们的总的可用IOPS大约为150x6=900。如果LUN上面运行的虚拟机数量为50个,则单台虚拟机的IOPS为900/50=18 IOPS。如果以这个为标准,则意味着虚拟机的性能相对底下。如果想要满足虚拟机的基本IOPS需求,那么应该为900/30=30,也就是说同一个Volume里IOPS为30(最低要求)虚拟机需要数量控制在30台以下。
备注:备份存储会消耗更多的IOPS,同时也会给Volume带来更多额外的符合。如果是这样,则需要用额外手段解决备份时的额外资源消耗(可以通过I/O meter软件来测试IOPS)
34、丢失或锁定文档导致虚拟机无法Power On故障状态:
1、虚拟机无法开启;
2、尝试开启虚拟机时,看到类似如下错误信息:
•Unable to open Swap File;
•Unable to access a file since it is locked;
•Unable to access Virtual machine configuration;
3、在/var/log/vmkernel文件里可以看到类似如下信息:
WARNING: World: VM xxxx: xxx: Failed to open swap file <path>ock was not free
WARNING: World: VM xxxx: xxx: Failed to initialize swap file <path>
4、当尝试开启虚拟机的console控制台时,可能会收到如下错误信息:
Error connecting to <path><virtual machine>.vmx because the VMX is not started
5、在开启虚拟机时,卡在95%位置无响应;
6、从模板部署一台新的VM之后无法开启虚拟机;
7、虚拟机在vCenter Server和ESXi/ESX主机之间报告控制台电源状态冲突;
故障分析:
导致这个问题的因素可能很多,但是众多问题中,都穿插或包含着文件损坏或文件被锁定等问题的可能。虚拟机常用的文件包括:
•*.vswp
•*-flat.vmdk
•*-delta.vmdk
•*.vmx
•*.log
解决方案:
首先需要确认哪些文件处于锁定状态:
1、利用vSphere Client登录ESXi/ESX主机、vCenter Server主机;
2、在Datastore里找到想要开启但是无法开启的虚拟机所在位置;
3、尝试开启虚拟机,如果无法开启且console显示错误,先查阅vmware.log日志文件的相关信息来确认问题;
4、利用SSH或COS选用root权限登录到ESXi/ESX主机之后执行下面的命令查看虚拟机的完整路径:
#vmware-cmd -l
系统将输出类似如下信息来显示注册到ESXi/ESX主机的虚拟机:
/vmfs/volumes/<UUID>/<虚拟机目录>/<虚拟机名>.vmx
5、执行下列命令切入到这个虚拟机所在的目录:
#cd /vmfs/voluems/<UUID>/<虚拟机目录>
6、然后查阅vmware.log日志,在文件的尾部查看什么原因导致这个问题后再针对性的分析。
准确定位并删除掉锁定文件
由于虚拟机可以在主机之间移动,如果虚拟机注册到的主机保持对文件的锁定状态,那么,这个锁定文件可以有效保障ESXi/ESX主机对虚拟机文件的控制权和有效保护虚拟系统。主机由Service Console接口的MAC来确定。lock由VMkernel或Service Console负责维护;
备注:ESXi服务器没有Service Console所以,lock由VMkernel单独负责维护;
首先要确定VMkernel可能锁定的文件:
1、执行下面的命令来报告锁定目录所在的MAC地址:
#vmkfstools -D /vmfs/volumes/<UUID>/<虚拟机目录>/<锁定状态文件>
2、由于负责锁定.vmdk文件的主机会将MAC地址写入到vmkernel日志里面,那么可以用下面的命令查阅:
#tail /var/log/vmkernel
35、Storage vMotion失败:looking for lines staring with "CBTMotion"故障状态:
1、执行Storage vMotion失败;
2、系统提示如下错误信息:
01.A general system error occurred: Storage VMotion failed to copy one or more of the VM's disks. Please consult the VM's log for more details, looking for lines starting with "CBTMotion-".
复制代码3、/var/log/vmware/hostd.log文件里有类似如下信息:
01.Failed with error 340983807: Storage VMotion failed to copy one or more of the VM's disks. Please consult the VM's log for more details, looking for lines starting with "CBTMotion".
复制代码故障分析
可能由于虚拟机的硬件版本号过老导致;
解决方案:
关掉虚拟机后右击uxniji选择Upgrade Virtual Machine Hardware即可。
36、添加LUN时提示HostDatastoreSystem.QueryVmfsDatastoreCreateOptions故障状态:
系统能够扫描到Devices LUN,但是在添加过程中却提示如下错误信息:HostDatastoreSystem.QueryVmfsDatastoreCreateOptions ,如图所示:
故障分析:
这样的问题一般都是由于LUN的尺寸过大导致,一般来说,VMware ESXi/ESX Server标准支持最大的LUN尺寸为2TB-512Byte,但是由于国内很多技术人员对这个-512Byte并不太在意,所以习惯型的讲成2TB,这就导致很多用户在使用时,直接分配了2TB的空间,这就可能导致了上述问题;
解决方案:
针对这样的问题,建议如下:
1、如果已经分好了2TB的LUN,建议调整为1.88TB左右后再尝试添加;
2、新LUN规划用户则请严格参照官方文档的参数设计,建议是1.88TB左右为一个LUN生成Datastore
37、vCenter Converter推送Agent出错:Converter Agent installer/uninstaller Failed 故障状态:
1、利用vCenter Converter推送Agent到Windows Server 2003服务器上时,失败;
2、系统提示类是如下错误信息:
01.Converter Agent installer/uninstaller failed on 'xxxxxxxxx'.
3、VMware vCenter Converter的日志文件converter-server.log里面有类似如下错误提示:
01.[#6] [2011-01-21 10:50:55.976 04080 info 'App'] [agentManager,83] [AgentManager] Install Agent on 192.168.10.10
02.[#6] [2011-01-21 10:51:16.976 04080 error 'App'] [agentManager,95] [AgentManager] Install Agent failed: converter.fault.AgentDeploymentFault
03.[#7] [2011-01-21 11:18:37.289 03976 info 'App'] Reusing existing VIM connection to 192.168.30.150
04.[#7] [2011-01-21 11:18:37.476 03976 error 'App'] Found dangling SSL error: [0] error:00000001:lib(0):func(0):reason(1)
05.[#7] [2011-01-21 11:19:00.945 02756 info 'App'] [agentManager,83] [AgentManager] Install Agent on 192.168.10.10
06.[#7] [2011-01-21 11:19:21.961 02756 error 'App'] [agentManager,95] [AgentManager] Install Agent failed: converter.fault.AgentDeploymentFault
7.[#7] [2011-01-21 11:19:32.445 03976 info 'App'] [diagnosticManager,357] Generating Converter.Server log bundle.
故障分析:
以下几种情况可能导致这样的问题:
1、445端口没能打开;
2、曾经手动安装过Agent后卸载;
3、Windows服务管理其中的server服务没有启动导致的IPC$连接失败;
4、防火墙阻绝;
解决方案
1、确认445端口或NetBIOS协议能正常使用;
2、建议在Converter时关闭防火墙;
3、如果依然有问题,尝试用Converter Standardalone版本迁移或采用ConverterCD进行冷克隆。
38、解决在vSphere 5.0里开启HA时,提示:Datastore Heartbeating不足的问题故障状态:
为ESXi 5.0+vCenter 5.0配置HA时,提示如下信息:
故障分析:
这是由于vSphere 5.0里的HA部分已经重写,并且新增了Datastore Heartbeating用于网络Partition心跳检测支持;
解决方案:
有2个选择,一个是加多存储用于心跳检测,这也是正确的选择,就不多讲,另一个就是忽略掉这个问题,方法如下:
1、vSphere Client登录到vCenter Server 5.0后,右击HA Cluster,点击Edit,然后找到高级选项设定:
2、再如上图所示的内容中,添加下参数:
das.ignoreinsufficienthbdatastore
备注:缺省情况下,这个参数的值是false的。
39、通过vSphere Client登陆ESXi主机提示“正在更新”的问题
故障状态:
通过vSphere Client登陆VCenter Server4.1正常,登陆ESXi主机提示如下图:
故障分析:
需要通过‘vSphereclient.vmware.com’来更新Client说明客户端存在问题,由于登陆VCenter Server4.1不存在任何问题,所以基本确定版本的问题。查看ESXi版本和vSphere Client,发现Client的版本低于ESXi版本。
解决方案:
由于Client所在网络无法上Internet,所以无法更新Client客户端,可以通过安装高版本的Client来解决此问题。
40、红旗32位Linux进入系统时提示”udevu”无法继续进入系统的问题故障状态:进入系统后,出现下图的界面,之后无法向下运行,必须按Ctrl+C才能继续向下运行
故障分析:由于系统安装时候是完整的,光盘镜像包是完整的,安装的时候不存在任何问题。考虑到物理机上不存在这种问题,怀疑虚拟机虚拟驱动的问题,安装新的VMware-tools问题依旧。
解决方案:考虑到红旗Linux比较新,去官方下载11月份最新的VMware-tools,问题解决 (下载地址:http://packages.vmware.com/tools/esx)
60、在view桌面中,Win7下安装出现软件出现“系统管理员设置了系统策略,禁止进行此安装”的提示解决方案:
1、打开“开始->控制面板->管理工具->本地安全策略”->点击“软件限制策略”,如果提示“没有定义软件限制策略”,那么就右键“创建软件限制策略”->创建后,双击右侧“强制”,选择“除本地管理员以外的所有用户”,确定
2、windows开始菜单,运行里面输入gpedit.msc打开组策略,
在“计算机配置”→管理模板→windows组件→windows installer,右边 第一项就是禁用windows installer。把它改成 “未配置”后者“已禁用”就可以了。
3、删除HKEY_CLASSES_ROOT\Installer\Products\4080110900063D11C8EF10054038389C注册表项目。(建议使用此法,能解决大多数你出现的情况,在运行栏里输入regedit进入注册表,按照以上路径找到项目删除就可以了)
61、持续较高的 CPU 使用情况的解决方案故障状态:
CPU 使用情况中的临时高峰表示 CPU 资源的使用情况最佳。持续较高的 CPU 使用情况可能表示存在问题。
您可以使用 vSphere Client CPU 性能图表监控主机、群集、资源池、虚拟机和 vApp 的 CPU 使用情况。
问题
n 主机 CPU 使用情况一直很高。 CPU 使用情况值较高时会增加主机上虚拟机的就绪时间和处理器列队。
n 虚拟机 CPU 使用情况超过 90% ,且 CPU 就绪值超过 20% 。应用程序性能将受到影响。
原因
主机可能缺少满足要求所需的 CPU 资源。
解决方案:
n 验证是否在主机的每台虚拟机上均安装了 VMware Tools 。
n 将主机上或资源池中其他虚拟机的 CPU 使用情况与此虚拟机的 CPU 使用情况值进行比较。 主机的虚拟机
视图上的堆栈条形图显示主机上所有虚拟机的 CPU 使用情况。
n 确定虚拟机就绪时间过长是否由其 CPU 使用情况时间达到 CPU 限制设置所致。 如果出现这种情况, 请增
加虚拟机上的 CPU 限制。
n 增加 CPU 份额以给予虚拟机更多机会运行。 如果主机系统受到 CPU 约束, 则主机上的总就绪时间可能仍
维持在相同级别。如果主机就绪时间没有减少,则为高优先级虚拟机设置 CPU 预留,保证它们收到所需
要的 CPU 周期。
n 增加分配给虚拟机的内存量。此操作会减少所缓存应用程序的磁盘和 / 或网络活动。这可能会降低磁盘
I/O ,并减少主机对虚拟化硬件的需求。具有较少资源分配的虚拟机通常可累积更多的 CPU 就绪时间。
n 将虚拟机上的虚拟 CPU 数量减少到执行工作负载所需要的数量。例如,四路虚拟机上的单线程应用程序
只能从单个 vCPU 中受益。 而管理程序还需维护三个空闲 vCPU , 占用本可用来处理其他工作的 CPU 周期。
n 如果主机不在 DRS 群集中,则将它添加到一个群集中。如果主机在 DRS 群集中,则增加主机数,并将一
个或多个虚拟机迁移到新主机上。
n 如有必要,请在主机上升级物理 CPU 或内核。
n 使用最新版本的管理程序软件并启用 CPU 节省功能(例如 TCP 分段卸载、较大内存页面和巨型帧)。
63、vMotion虚拟机失败:A general system error occurred:Failed to flush checkpoint故障状态:
1、尝试vMotion一台虚拟机失败,提示如下错误信息:
A general system error occurred:Failed to flush checkpointt data!
2、此时故障虚拟机的设定如下:
•分辨率大于 1280x1024或小于第二个屏幕的分辨率;
•显卡驱动选用了WDDM;
•虚拟机的硬件版本号为8;
3、vCenter的Task & Events里的详细错误描述如下:
•An I/O error occurred while saving the checkpont:0(Resource temporarily unavailable);
•Failed to write checkpoint data(offset xxxxxxxx,size xxxxx):Failed to resum VM;
4、在虚拟机的vmware.log日志文件里有类似如下信息:
.vmx| MigrateSetState: Transitioning from state 9 to 11.
.vmx| Migrate_SetFailure: Failed waiting for data. Error bad0006. Limit exceeded.
.vmx|
.vmx| Migrate: cleaning up migration state.
.vmx| MigrateSetState: Transitioning from state 11 to 0.
.vmx| Msg_Post: Error
.vmx| [vob.vmotion.chkpt.toobig] vMotion migration [XXXXXXXX:xxxxxxxxxxxxxxxx] failed. The checkpoint data length (xxxxx bytes) or the offset (xxxxxxxx bytes) exceeds the maximum checkpoint data length (xxxxxxxx byte).
.vmx| [msg.moduletable.powerOnFailed] Module Migrate power on failed.
故障分析:
这种情况可能是由于虚拟机的硬件版本号为8,WDDM驱动以及虚拟机的显存等问题导致;
解决方案:
由于问题可能不是由于单一原因导致,因此,可根据如下方式分别进行故障排查处理:
1、将屏幕的分辨率调整一下,小于1280x1024或和第二块屏幕的分辨率相等;
2、不要将虚拟机的硬件版本号升级为8;
3、增加checkpoint cache size,将它从8MB升级到16MB,方法如下:
•关闭虚拟机后右击虚拟机点击Edit Settings;
•在弹出的对话框中找到Options页标签后选择Advanced选项,在General下选择Configuration Parameters;
•点击Add Row后输入如下参数:migrate.baseCptCacheSize值设定为后点击Ok应用更改;
4、将mks.enable3d的值设定为TRUE,步骤如下:
•关闭虚拟机后右击虚拟机点击Edit Settings;
•在弹出的对话框中找到Options页标签后选择Advanced选项,在General下选择 Configuration Parameters;
•点击Add Row后输入,将值设定为True后点击Ok保存关闭。
64、迁移完成vCenter Server数据库到新主机后,VirtualCenter Management WebServices不对故障状态:
1、vCenter Server数据库迁移到一个拥有新主机名和IP地址的系统上时,VirtualCenter Management WebServices服务异常;
2、vSphere Client登录服务器时,看到Performance Overview Charts报错如下:
General report generation exception
Perf Charts service experienced an internal error.
Message: Report application initialization is not completed successfully. Retry in 60 seconds.
3、vSphere Client登录到vCenter Server后搜索之类的功能都无法使用;
4、vCenter Service Status显示VirtualCenter WebServices和很多其它服务都处于离线状态, 报如下错误信息:
Unable to retrieve health data from https://localhost:8443
Service initialization failed.
故障分析:
当vCenter Server的数据库被迁移到新位置后,必须要更改DSN的信息,然而,Tomcat Server的设定却不会随之变化,因此,我们需要对Tomcat Server进行修改之后才能正常,Tomcat Server被用于支持VirtualCenter Management Webservices服务运行;
解决方案:
解决方案就是进入到Tomcat Server的配置文件里,找到database_name.propeties,通常位置如下:
•W2K3 - C:\Documents and Users\All Users\Application Data\VMware\VMware VirtualCenter\
•W2K8 - C:\ProgramData\VMware\VMware VirtualCenter\
修改Tomcat Server的数据库位置方法如下:
1、文本文件打开database_name.properties,找到如下内容:
url=jdbc:sqlserver:/DB_hostname\\DB_instance;databaseName\=database_name;integratedSecurity\=true
2、修改上述文档中对应位置的数据库的对应主机名或IP地址;
3、重启VMware VirtualCenter Management Webservices服务或重启vCenter Server服务器后,理论上即可恢复正常。
65、在ESXi 5.0里,无法将管理网路迁移到vDS 故障状态:
1、无法将管理网路迁移到ESXi 5.0所在的vDS上,提示如下错误信息:
A specified parameter was not correct
2、vCenter Server上有类似如下的错误消息:
Call "HostNetworkSystem.UpdateNetworkConfig" for object "networkSystem-121" on vCenter Server "vCenter in vmanager.local" failed.