vmware常见问题

king71 · 发表于 2018-6-6 20:09:20

　　23、vSpherer4.1中32位win2003会不定时的关机，关机后无法再次登录
　　故障现象：客户的X86 Windows2003VM系统在使用中会不定时的关机。关机时间不确定，几个小时到几天，关机瞬间就像物理机断电一样，关机后的VM能再次开启，但只要输入账号和密码就立即关机，连安全模式也一样状况。其他X64VM系统没有任何问题。
解决方法：通过两个月的煎熬，排除了网络病毒、物理硬件和系统版本的原因，通过不断的分析ESXi和主机日志，发现有类似如下日志
Sep 07 01:45:03.709: mks| SOCKET 10 (91) recv error 104: Connection reset by peer
Sep 07 01:45:03.709: mks| SOCKET 10 (91) destroying VNC backend on socket error: 1
Sep 07 03:26:42.676: vmx| Vix: [10666095 mainDispatch.c:907]: VMAutomation_PowerOff: Powering off. （VM Powering off）
通过400长期的周旋，发现这是7月底发现的BUG,通过在ESXi主机下输入命令：
/etc/init.d/sfcbd-watchdog stop
chkconfig sfcbd-watchdog off
chkconfig sfcbd off
问题解决，但VC上插件和监控状态失效，去官网（http://kb.vmware.com/selfservice/microsites/search.do?cmd=displayKC&docType=kc&docTypeID=DT_KB_1_1&externalId=2000609）下载最新补丁，安装，一切OK。

24、VM（windows2003）全屏最大化后，鼠标移动缓慢或错位
解决方法：
1、查看是否安装VMware-tools
2、查看系统内硬件加速是否开启（完全）
3、将虚拟机分辨率调整为：800x600
4、到控制台中打开，上面菜单栏中à视图à自动匹配窗口勾去掉
5、查看虚拟机中的显卡驱动是否为：VMware SVGA II
一般情况下，这5点中，满足1、2、3基本可以解决问题，如果全部满足还不行那你只能阿弥陀佛了。当然前提是你已经排除VM OS本身的问题如CPU或内存占用比较大，存储读写延时等等。（注：附件中有图片）

　　24、用VDR备份无法创建静默快照，因为创建快照操作超过了拖延已冻结虚拟机中 I/O 的时限。
解决方法：停止服务VMware Tools Services,打开Vmware Tools安装程序，选择Modify。不要安装Volume Shadow Copy Services Support，完成后重启VM.

25、如何从本地上传下载文件到ESXi主机
解决方法：1、可以通过ESXi的命令SCP上传和下载，在没有三方工具的情况下这个命令需要需要通过另外一台Linux中转才能把需要的文件上传和下载要需要的文件下。
2、由于Client登陆VC后，可以在上面看到共享的存储空间和本地硬盘，这说明ESXi主机内一定有一个文件同样也可以看到这些空间。经过分析发现/vmfs/volumes/目录就是存储和本地硬盘的存放点。可以通过这个目录上传和下载ESXi主机中的文件。

26、在 vCenter Server 升级到 5.0 版本后，ESX 4.0 Update 2 主机可能崩溃
解决方法：发生崩溃时，同时在紫色屏幕上显示以下消息：NOT_IMPLEMENTED bora/vmkernel/filesystems/visorfs/visorfsObj.c:3391。
解决办法：升级到 vCenter Server 5.0 之前，将由 vCenter Server 管理的所有 ESX 4.0 Update 2 主机升级到 ESX 4.0 Update 3。

27、HA配置到90%时失败，提示：Internal AAM Error-agent could not start
故障状态：
1、第一台主机加入到Cluster没问题，但是第二台主机加入到cluster时，走到90%出错，提示如下错误：Internal AAM Errors-agent could not start
复制代码
2、在aam_config_util_addnode.log文件里有类似如下错误信息：
01.01/23/10 16:20:49 [myexit ] Failure location:
02.01/23/10 16:20:49 [myexit ] function main::myexit called from line 2199
03.01/23/10 16:20:49 [myexit ] function main::start_agent called from line 1168
04.01/23/10 16:20:49 [myexit ] function main::add_aam_node called from line 171
05.01/23/10 16:20:49 [myexit ] VMwareresult=failure
故障分析：
这种故障一般和UDP 8043端口无法访问有一定关系；
解决方案：
确保UDP 8043端口畅通无阻，比如：
执行如下命令：
tcpdump -i vswif0 -s 900 -n udp port 8043 -w ${主机名}.pcap

28、查阅和重装VirtualCenter Server agents(vpxa)服务
故障状态：
·配置VMware High Availability (HA) 失败；
·重新配置 VMware HA时，提示如下错误：
Could not Enable aam firewall ruleset :vim.fault.HostConfigFault
·无法将ESX添加到VirtualCenter；
·尝试重新将ESX添加到VirtualCenter时，提示如下错误：
unable to access the specified host, either it  doesn't exist, the server software is not responding, or there is a  network problem
·在hostd.log文件中有如下内容：
[2010-05-24 10:45:51.463 'Vmomi' 15752112 info] Throw vim.fault.AlreadyExists
[2008-05-26 10:45:51.463 'Vmomi' 15752112 info] Result:
(vim.fault.AlreadyExists) {
name = "vpxuser"
msg = ""
}
解决方案;
备注：当看到如下错误时，请在ESX主机上重装vpxa：
unable to access the specified host, either it  doesn't exist, the server software is not responding, or there is a  network problem.
查看安装在ESX/ESXi服务器上的VirtualCenter agent(vpxa)版本号的方法如下：
1.首先确定VirtualCenter的版本号：点击Help按钮，点击About可查阅；
命令查看VMware-vpxa的命令：
rpm -V VMware-vpxa

29、使用IBM服务器可能导致ESXi/ESX 4.1服务器HBA卡和PCI设备停止响应
故障状态：
当使用IBM x3650 M3或BladeCenter HS22V服务器时，可能会在ESXi/ESX 4.1上遇到下面的问题：
1、HBA卡停止响应；
2、某些PCI设备无响应；
3、可以在ALT+F12界面和日志信息里看到这样的信息：
vmkernel: 6:01:34:46.970 cpu0:4120)ALERT: APIC: 1823: APICID 0x00000000 - ESR = 0x40
4、HBA卡停止响应，例如：
   vmkernel: 6:01:42:36.189 cpu15:4274)<6>qla2xxx0000:1a:00.0: qla2x00_abort_isp: **** FAILED ****
   vmkernel: 6:01:47:36.383cpu14:4274)<4>qla2xxx 0000:1a:00.0: Failed mailbox send register test
5、HBA卡可能进入离线状态，例如：
   vmkernel: 6:01:47:36.383 cpu14:4274)<4>qla2xxx 0000:1a:00.0: ISP error recovery failed - board disabled
故障分析：
具体问题还不太清楚，期待VMware官方能够给出解释并放出相关补丁；
解决方案：
在ESXi/ESX 4.1里面雀圣启用了中断重映射代码，而这个代码和部分IBM服务器不兼容，可以通过禁止掉这个代码缺省启动的方式来临时解决这个问题：
1、进入到命令行界面，执行如下命令：
#esxcfg-advcfg -k TRUE ioDisableIR
#init 6
2、重启后检查这个选项是否依然缺省启动：
#esxcfg-info -c
iovDisableIR=TRUE
备注：这就表示缺省没有启动；
也可以利用vSphere Client登录到服务器的GUI进行修改

30、虚拟机无法关闭停止在95%左右的解决办法
一次做虚拟机回收工作，由于目标虚拟机当时杀毒软件正在运行，CPU占用很高，本来想登陆关闭虚拟机，但是远程连接根本没反映，打开VC带的控制台，鼠标点击进去，操作也是在是慢，总归到底，最后，直接将虚拟机电源关闭。之后，就看着任务开始执行，但进度条走到95%的时候，咋都不动了。
解决思路：
这个问题，属于一个“沟通”问题，应该从两方面入手：
1、一个是vCenter端是否已经将此命令顺利传送到ESX；
2、然后是，ESXi/ESX端是否顺利接到命令，以及是否执行了此命令。
解决过程：
1、SSH连接ESX；
2、vmware-cmd <path.vmx> getstate 确定虚拟机状态；
   <path.vmx> 为完全路径（空格等前别忘了加上转义符 /）；vmware-cmd -l命令可查看虚拟机路
3、官方文档说若为On，可继续执行其他命令来结束虚拟机；
但是我走到这里，显示的为Off；这就说明，ESX已经将虚拟机关闭了，那这问题就是一个沟通问题
4、登陆VC，我想先从VC端将此问题虚拟机所在的主机断开连接，之后再重新连接，这样就会进行一次新的对话，但是，由于前一个未关闭虚拟机的任务未执行完毕，之后的任务好像都成队列似的在等待，没有反应。
5、任务无法执行，重启相关VC和ESX服务
VC：在Vitual Center的WIN机器上的，在服务管理器重启VC服务。
ESX：在SSH登陆后对两个服务器执行重启。（注：虚拟机服务会短暂中断）
命令如下：
service mgmt-vmware restart
service vmware-vpxa restart
6、在这沟通中的三个服务都已经重启完毕，此时再执行步骤2时，发现返回的结果为On--那台虚拟机正在运行，发现这个，那么按照官方的文档，后续的几个命令就可以有用武之地了。
7、kill -9 xxxx
ps -auxwww |grep -i <VMNAME>.vmx 可以看到虚拟机的PID
8、执行步骤2，现在已为Off
9、登陆VC查看，刷新下，如果状态还未改变，再重启下VC服务器，即可。

31、为主机应用Host Profiles提示compliance错误
故障状态：
为主机应用Host Profiles失败，提示如下错误：
01.Specification state absent from host: device '<datastore>' state needs to be set to 'on'
02.Host state doesn't match specification: device '<datastore>' needs to be reset
03.Specification state absent from host: device '<datastore>' Path Selection Policy needs to be set to 'VMW_PSP_FIXED'
04.Host  state doesn't match specification: device '<datastore>' Path  Selection Policy needs to be set to default for claiming SATP
故障分析：
这是由于PSA组件导致的；
解决方案：
1、右击Host Profiles后点击Enable/Disable Profiles配置选项；
2、展开“Storage Configuration”选项，展开“Pluggable Storage Architecture”这个uxanxiang；
3、去掉“PSA Device Configuration”；
4、展开“Native Muti-Pathing(NMP)”这个选项后，接着展开“PSP and SATP configuration for NMP devi”选项；
5、去掉“PSP configuration for”这个选项后点击OK即可。

33、分析、解决IOPS导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题
故障状态：
1、虚拟机性能较低；
2、在执行备份时磁盘延时很厉害；
3、虚拟磁盘vmdk延时较大；
故障分析：
这种问题基本都是由于虚拟机没有足够的IO Per Second（IOPS），或者IOPS低于30；
解决方案：
在解决问题前，首先要解决以下两个问题：
问题1：什么是IOPS？
IOPS全称为Input/Output Per Second，它是衡量一个磁盘（虚拟磁盘和物理磁盘）、存储的基本也是十分重要的标准。不同的磁盘、存储有着不同的IOPS。IOPS的高低直接会影响着系统的性能。当前，VMware虚拟化环境中最大的瓶颈也就在于这个IOPS。针对数据密集型业务的数据库业务和流媒体业务，由于它们的IOPS很大，所以在虚拟化环境中部署它们一定要充分考量它们的负载，也就是IOPS大小，结合实际的存储性能来查看是否符合业务标准。
问题2：如何计算IOPS？
如何计算每台虚拟机的IOPS？
要想计算每个虚拟机的总的IOPS数量，首先就要确认磁盘类型以及它们的IOPS是多少。处于RAID阵列里面的每个盘的IO有利于增长整体存储的可用IOPS。而位于这个存储上面的单台虚拟机的IOPS，则可以通过将这个存储的总IOPS除掉虚拟机数量即可基本得到单台虚拟机的IOPS。
现实案例：
假定有6颗10000RPM的磁盘，那么它们的总的可用IOPS大约为150x6=900。如果LUN上面运行的虚拟机数量为50个，则单台虚拟机的IOPS为900/50=18 IOPS。如果以这个为标准，则意味着虚拟机的性能相对底下。如果想要满足虚拟机的基本IOPS需求，那么应该为900/30=30，也就是说同一个Volume里IOPS为30（最低要求）虚拟机需要数量控制在30台以下。

备注：备份存储会消耗更多的IOPS，同时也会给Volume带来更多额外的符合。如果是这样，则需要用额外手段解决备份时的额外资源消耗（可以通过I/O meter软件来测试IOPS）

34、丢失或锁定文档导致虚拟机无法Power On
故障状态：
1、虚拟机无法开启；
2、尝试开启虚拟机时，看到类似如下错误信息：
·Unable to open Swap File；
·Unable to access a file since it is locked；
·Unable to access Virtual machine configuration；
3、在/var/log/vmkernel文件里可以看到类似如下信息：
   WARNING: World: VM xxxx: xxx: Failed to open swap file <path>ock was not free
   WARNING: World: VM xxxx: xxx: Failed to initialize swap file <path>
4、当尝试开启虚拟机的console控制台时，可能会收到如下错误信息：
   Error connecting to <path><virtual machine>.vmx because the VMX is not started
5、在开启虚拟机时，卡在95%位置无响应；
6、从模板部署一台新的VM之后无法开启虚拟机；
7、虚拟机在vCenter Server和ESXi/ESX主机之间报告控制台电源状态冲突；
故障分析：
导致这个问题的因素可能很多，但是众多问题中，都穿插或包含着文件损坏或文件被锁定等问题的可能。虚拟机常用的文件包括：
·*.vswp
·*-flat.vmdk
·*-delta.vmdk
·*.vmx
·*.log
解决方案：
首先需要确认哪些文件处于锁定状态：
1、利用vSphere Client登录ESXi/ESX主机、vCenter Server主机；
2、在Datastore里找到想要开启但是无法开启的虚拟机所在位置；
3、尝试开启虚拟机，如果无法开启且console显示错误，先查阅vmware.log日志文件的相关信息来确认问题；
4、利用SSH或COS选用root权限登录到ESXi/ESX主机之后执行下面的命令查看虚拟机的完整路径：
   #vmware-cmd -l
   系统将输出类似如下信息来显示注册到ESXi/ESX主机的虚拟机：
   /vmfs/volumes/<UUID>/<虚拟机目录>/<虚拟机名>.vmx
5、执行下列命令切入到这个虚拟机所在的目录：
   #cd /vmfs/voluems/<UUID>/<虚拟机目录>
6、然后查阅vmware.log日志，在文件的尾部查看什么原因导致这个问题后再针对性的分析。

准确定位并删除掉锁定文件
由于虚拟机可以在主机之间移动，如果虚拟机注册到的主机保持对文件的锁定状态，那么，这个锁定文件可以有效保障ESXi/ESX主机对虚拟机文件的控制权和有效保护虚拟系统。主机由Service Console接口的MAC来确定。lock由VMkernel或Service Console负责维护；

备注：ESXi服务器没有Service Console所以，lock由VMkernel单独负责维护；
首先要确定VMkernel可能锁定的文件：
1、执行下面的命令来报告锁定目录所在的MAC地址：
   #vmkfstools -D /vmfs/volumes/<UUID>/<虚拟机目录>/<锁定状态文件>
2、由于负责锁定.vmdk文件的主机会将MAC地址写入到vmkernel日志里面，那么可以用下面的命令查阅：
   #tail /var/log/vmkernel

35、Storage vMotion失败：looking for lines staring with "CBTMotion"
故障状态：
1、执行Storage vMotion失败；
2、系统提示如下错误信息：
01.A  general system error occurred: Storage VMotion failed to copy one or  more of the VM's disks. Please consult the VM's log for more details,  looking for lines starting with "CBTMotion-".
复制代码3、/var/log/vmware/hostd.log文件里有类似如下信息：
01.Failed with error 340983807: Storage VMotion failed to copy one or more of the VM's disks.  Please consult the VM's log for more details, looking for lines starting with "CBTMotion".
复制代码故障分析
可能由于虚拟机的硬件版本号过老导致；
解决方案：
关掉虚拟机后右击uxniji选择Upgrade Virtual Machine Hardware即可。

36、添加LUN时提示HostDatastoreSystem.QueryVmfsDatastoreCreateOptions
故障状态：
系统能够扫描到Devices LUN，但是在添加过程中却提示如下错误信息：HostDatastoreSystem.QueryVmfsDatastoreCreateOptions ，如图所示：

故障分析：
这样的问题一般都是由于LUN的尺寸过大导致，一般来说，VMware ESXi/ESX Server标准支持最大的LUN尺寸为2TB-512Byte，但是由于国内很多技术人员对这个-512Byte并不太在意，所以习惯型的讲成2TB，这就导致很多用户在使用时，直接分配了2TB的空间，这就可能导致了上述问题；
解决方案：
针对这样的问题，建议如下：
1、如果已经分好了2TB的LUN，建议调整为1.88TB左右后再尝试添加；
2、新LUN规划用户则请严格参照官方文档的参数设计，建议是1.88TB左右为一个LUN生成Datastore

37、vCenter Converter推送Agent出错：Converter Agent installer/uninstaller Failed
故障状态：
1、利用vCenter Converter推送Agent到Windows Server 2003服务器上时，失败；
2、系统提示类是如下错误信息：
01.Converter Agent installer/uninstaller failed on 'xxxxxxxxx'.

3、VMware vCenter Converter的日志文件converter-server.log里面有类似如下错误提示：
01.[#6] [2011-01-21 10:50:55.976 04080 info 'App'] [agentManager,83] [AgentManager] Install Agent on 192.168.10.10
02.[#6]  [2011-01-21 10:51:16.976 04080 error 'App'] [agentManager,95]  [AgentManager] Install Agent failed:  converter.fault.AgentDeploymentFault
03.[#7] [2011-01-21 11:18:37.289 03976 info 'App'] Reusing existing VIM connection to 192.168.30.150
04.[#7] [2011-01-21 11:18:37.476 03976 error 'App'] Found dangling SSL error: [0] error:00000001:lib(0):func(0):reason(1)
05.[#7] [2011-01-21 11:19:00.945 02756 info 'App'] [agentManager,83] [AgentManager] Install Agent on 192.168.10.10
06.[#7]  [2011-01-21 11:19:21.961 02756 error 'App'] [agentManager,95]  [AgentManager] Install Agent failed:  converter.fault.AgentDeploymentFault

7.[#7] [2011-01-21 11:19:32.445 03976 info 'App'] [diagnosticManager,357] Generating Converter.Server log bundle.
故障分析：
以下几种情况可能导致这样的问题：
1、445端口没能打开；
2、曾经手动安装过Agent后卸载；
3、Windows服务管理其中的server服务没有启动导致的IPC$连接失败；
4、防火墙阻绝；

解决方案
1、确认445端口或NetBIOS协议能正常使用；
2、建议在Converter时关闭防火墙；
3、如果依然有问题，尝试用Converter Standardalone版本迁移或采用ConverterCD进行冷克隆。

38、解决在vSphere 5.0里开启HA时，提示：Datastore Heartbeating不足的问题
故障状态：
为ESXi 5.0+vCenter 5.0配置HA时，提示如下信息：

故障分析：
这是由于vSphere 5.0里的HA部分已经重写，并且新增了Datastore Heartbeating用于网络Partition心跳检测支持；
解决方案：
有2个选择，一个是加多存储用于心跳检测，这也是正确的选择，就不多讲，另一个就是忽略掉这个问题，方法如下：
1、vSphere Client登录到vCenter Server 5.0后，右击HA Cluster，点击Edit，然后找到高级选项设定：

2、再如上图所示的内容中，添加下参数：
das.ignoreinsufficienthbdatastore

备注：缺省情况下，这个参数的值是false的。

39、通过vSphere Client登陆ESXi主机提示“正在更新”的问题
故障状态：
通过vSphere Client登陆VCenter Server4.1正常，登陆ESXi主机提示如下图：

故障分析：
需要通过‘vSphereclient.vmware.com’来更新Client说明客户端存在问题，由于登陆VCenter Server4.1不存在任何问题，所以基本确定版本的问题。查看ESXi版本和vSphere Client，发现Client的版本低于ESXi版本。
解决方案：
由于Client所在网络无法上Internet,所以无法更新Client客户端，可以通过安装高版本的Client来解决此问题。

40、红旗32位Linux进入系统时提示”udevu”无法继续进入系统的问题
故障状态：进入系统后，出现下图的界面，之后无法向下运行，必须按Ctrl+C才能继续向下运行

故障分析：由于系统安装时候是完整的，光盘镜像包是完整的，安装的时候不存在任何问题。考虑到物理机上不存在这种问题，怀疑虚拟机虚拟驱动的问题，安装新的VMware-tools问题依旧。
解决方案：考虑到红旗Linux比较新，去官方下载11月份最新的VMware-tools，问题解决 (下载地址：http://packages.vmware.com/tools/esx)

账号		自动登录	找回密码
密码			立即注册

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

zabbix3.4.1安装部署+微信推送信息+大屏显

Red Hat OpenShift I: Containers & Kubern

2025 年，C++ 还能“硬核”多久？

RH199 RHCSA Rapid Track

Red Hat RHCE 8 (EX294) Cert Guide

[经验分享] vmware常见问题

浏览过的版块

扫码加入运维网微信交流群