设为首页 收藏本站
查看: 546|回复: 0

[经验分享] Windows 字符串详解及转换

[复制链接]

尚未签到

发表于 2018-6-12 12:28:10 | 显示全部楼层 |阅读模式
  最近一直在做基于Windows的开发,而windows的开发当中最让我迷惑的一个问题就是无穷无尽的字符串类型,char*, wchar *, lpstr, lptstr, lpctstr等等,然后还要经常涉及到其中的相互转换,所以想系统的研究一下所有的windows类型及其相互转换的关系。
  

  1.字符类型
  讲到字符串,首先首先需要了解的是字符,在Windows中主要包含两种字符,一种是ANSI字符,另一种是Unicode字符(使用UTF16编码,即每个字符编码为2个字节)。C++中表示ANSI字符的关键字是char,然后每个字符的长度是1;而表示Unicode字符的类型是wchar_t,每个字符的长度是2。而为了和语言有一些区别,Windows又定义了自己的数据类型(这是微软最烦的一点了!)
  typedef charCHAR; //8位字符
  typedefwchar_t WCHAR;//16位字符
  

  2.字符串
  讲完了字符类型,现在开始讲字符串了,Windows定义了非常多的字符指针或字符串指针
  // 8位字符指针
  typedef CHAR*PCHAR;
  typedef CHAR*PSTR;
  typedef CONSTCHAR *PCSTR
  // 16位字符指针
  typedef WCHAR*PWCHAR;
  typedef WCHAR*PWSTR;
  typedef CONSTWCHAR *PCWSTR;
  

  首先介绍的是上面定义的六种字符指针,名字还是比较好记的,P代表Point(指针),W代码UnicodeC代表Const(常量),CHAR STR代码字符。所以PCHARPSTR的意思是一样的就是ANSI类型的字符指针;而PWCHARPWSTR的类型也是一样的,就是Unicode类型的字符指针;PCSTRPCWSTR分别代表常量ANSI字符指针和常量Unicode字符指针(什么?不知道啥叫常量?请出门左转《EffectiveC++》条款03,尽可能使用Const)。
  同时,Windows为了保证使用ANSIUnicode都能通过编译,又定义了下面的类型,这些宏会自动检测是否定义了Unicode
  

  #ifdef UNICODE
  typedef WCHAR TCHAR, *PTCHAR, PTSTR;
  typedef CONST WCHAR *PCTSTR;
  #define __TEXT(quote) quote // r_winnt
  #define __TEXT(quote) L##quote
  #else
  typedef CHAR TCHAR, *PTCHAR, PTSTR;
  typedef CONST CHAR *PCTSTR;
  #define __TEXT(quote) quote
  #endif
  #defineTEXT(quote) __TEXT(quote)
  

  从上面可以看出,如果定义了UNICODE宏,TCHAR等同于WCHAR, PTSTRPTCHAR等同于PWCHARPWSTR,而如果没有定义UNICODE宏,则TCHAR等同于CHARPTSTRPTCHAR等同于PCHARPSTRPCTSTR也是同理。
  同时还要注意的是,这里添加了TEXT宏,TEXT等同于__TEXT宏,__TEXT则能自动将字符串转换为ANSI类型字符串或UNICODE类型字符串。而L加字符串则自动表示为Unicode类型字符串。
  而在很多场合还会出现LPSTRLPCHAR, LPCSTR,这个L是对应于16OS而已代表long,也就是长指针,而现在32位的OS上所有前面加L的类型和不加L的类型已经没有任何区别了。
  下一种类型是BSTR BSTR是一个Pascal-Style字符串和C-Style字符串的混合物,在COM中用的非常多,因为COM接口希望字符串可以用在所有语言中,继而定义了这个类型。Pascal-style字符串是在存储字符串的首几个字节会用在记录字符串的长度,所以这种类型的字符串不需要在末尾添加额外的字符标示结束。所以BSTR字符串的意思是在字符串的首几个字节存储字符串的长度,而字符串的结尾以\0结束。但是对BSTR字符串取下标时则是指向第一个字符而不是字符串长度,这样又利用C-Style的程序使用。
  然后还有两个标准的字符串类, StringCStringString是标准C++中提供的程序库,而CString则是MFC中提供的字符串类。
  好吧,我们最后来总结一下所有的字符串类型。
  按照不同的style字符类型分有五类:
  C-Style ANSI类型字符串:CHAR *,PSTR, LPSTR, LPCSTR, PCHAR.
  C-StyleUnicode类型字符串:WCHAR *, PWSTR, LPWSTR, PWCHAR,LPCWSTR.
  C-Style 同时兼容ANSIUnicode类型字符串:TEXT,__TEXT(), TCHAR *, PTSTR, LPTSTR, PCTSTR, LPCTSTR.
  C-stylePascal-Style兼并的字符串:BSTR
  两种C++类:String, CString.
  不同类型字符串组合的含义技巧是:
  L (无效) + P(字符指针) + 不加(ANSI类型)W(Unicode类型)  T (ANSI Unicode类型) + 不加(非常量字符串)C(常量字符串) + STRCHAR(CHAR结尾时前面不能加C).
  

  3.转化
  下面是重头戏,也就是不同类型直接的转换技巧:
  转换的顺序是:
  

  (1)首先先讲可以等号直接转换的:
  CHAR * ==PSTR, LPSTR
  WCHAR * ==PWSTR, LPWSTR
  TCHAR * ==PTSTR, LPTSTR
  原因也很明显,其实都是一种类型嘛。
  同时CHAR *类型和WCHAR *也能同时转换为TCHAR *,反之不行。
  而PSTR可以直接等于转换PCSTRPWSTR等于转换为PWCSTR,反之则不行。
  

  (2PCSTR转换为PSTR
  一般情况下可以使用C语言方式的强制类型转换,或者C++方式的Const_castconst去掉。
  

  (3PSTR转换为PWSTR
  一般有两种方式,第一种是简单的W2AA2WW2A代表将PWSTR转换为PSTR,反之A2W表示将PSTR转换为PWSTR,见下面的code
USES_CONVERSION;
PWSTR wszText = L"1.Unicode字符转换为ANSI;";
PSTR szText="2.ANSI字符转换成Unicode.";
printf("%s\n",W2A(wszText));
wprintf(L"%s\n",A2W(szText));


注意一点是不要在大循环或者非常长的函数中使用W2AA2W,具体分析看http://www.cnblogs.com/rainbowzc/archive/2009/09/07/1562168.html
另一种转换方法是MultiByteToWideCharWideCharToMultiByteMultiByteToWideChar表示将ANSI字符串转换为Unicode字符串,而WideCharToMultiByte则是将Unicode字符串转换为ANSI字符串。
MultiByteToWideChar的形式是
int MultiByteToWideChar(
UINT CodePage,
DWORD dwFlags,
LPCSTRlpMultiByteStr,
intcchMultiByte,
LPWSTR lpWideCharStr,
intcchWideChar
);
6个参数的含义为:CodePage(多字符所对应的的字符集,一般是CP_ACP), dwFlags(一些标准位,一般不需要使用,置0即可),lpMultiByteStr(多字符的地址),cchMultiBytes(多字符的字符串长度,相当于字符串的字节数,如果是1,则由函数判断长度), lpWideCharStr(宽字符的地址),cchWideChar(宽字符的字符长度,相当于字符串的个数)。上面的两个长度都是包含‘\n’的长度。
如果lpWideCharStr不为NULL,返回转换成功的长度;如果lpWideCharStrNULL,返回lpMultiByteStr的字符个数(不是字符串长度!!!)。
常用的用法为:
//先将lpWideCharStr置成NULL,从而得到szText的长度。
int iBuffSize =::MultiByteToWideChar(CP_ACP, 0, szText, -1, NULL, 0);
//判断字符长度是否大于0
if (iBuffSize> 0)
{
    LPWSTRwszString = new wchar_t[iBuffSize+1];
    int nChars= ::MultiByteToWideChar(CP_ACP, 0, szText, -1,    wszString, iBuffSize);
    //这是担心转换失败,从而nChars0,再讲wszString置成空字符串
    nChars= nChars < iBuffSize ? nChars:iBuffSize;
    wszString[nChars]= 0;
}


另一个是宽字符到多字符:
intWideCharToMultiByte(
UINT CodePage,
DWORD dwFlags,
LPCWSTR lpWideCharStr,
int cchWideChar,
LPSTR lpMultiByteStr,
int cchMultiByte,
LPCSTR lpDefaultChar,
LPBOOL pfUsedDefaultChar
);


这里比MultiByteToWideChar多两个参数,而前面的六个参数都是一样的,lpDefaultChar的作用是当函数遇到一个不能转换的宽字符时,会用lpDefaultChar来代替,如果lpDefaultCharNULL时,则用?代替。pfUsedDefaultChar的作用是如果有一个字符没有成功转换,则pfUsedDefaultCharTRUE,否则为FALSE


int iBuffSize =::WideCharToMultiByte(CodePage, 0, szString, -1, NULL, 0,NULL, false);
if (iBuffSize > 0 )
{
    m_pString= new char[iBuffSize];
    ::WideCharToMultiByte(CodePage, 0,szString, -1, m_pString, iBuffSize, NULL, false);
}


4PSTRBSTR的相互转换
首先是PSTR转换为BSTR
BSTR bstrText = _bstr_t(“thisis a bstr”);
BSTR转换为PSTR
_bstr_b b = bstrText;
PSTR lpszText = b;


  

  

  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-522771-1-1.html 上篇帖子: windows环境下Resin和apache的配置 下篇帖子: Windows 10
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表