|
一直以来,在PHP中转换unicode 到 utf-8或者 gb2312是用手册中的一段代码,可是今天放到linux下的时间才发现,不兼容,怀颖是linux下的库不一样。
在window下可以这样:
function sysCu2g($str)
{
$str = rawurldecode($str);
preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U",$str,$r);
$ar = $r[0];
foreach($ar as $k => $v)
{
if(substr($v,0,2) == "%u")
{
$ar[$k] = iconv("UCS-2","UTF-8",pack("H4",substr($v,-4)));
}
elseif(substr($v,0,3) == "&#x")
{
$ar[$k] = iconv("UCS-2","UTF-8",pack("H4",substr($v,3,-1)));
}
elseif(substr($v,0,2) == "&#")
{
$ar[$k] = iconv("UCS-2","UTF-8",pack("n",substr($v,2,-1)));
}
}
return join("",$ar);
}
如果你想转成gb2312就把上面的utf-8改成gb2312即可。
但是如果在linux上就行不通了,至少我这几天是不行。后来在网上看到用如下方法,可行,甚至不用用到iconv()
function sysCu2g($str)
{
$ret = '';
$len = strlen($str);
for ($i = 0; $i < $len; $i++)
{
if ($str[$i] == '%' && $str[$i+1] == 'u')
{
$val = hexdec(substr($str, $i+2, 4));
if ($val < 0x7f) $ret .= chr($val);
else if($val < 0x800) $ret .= chr(0xc0 |($val>>6)).chr(0x80 |($val&0x3f));
else $ret .= chr(0xe0 |($val>>12)).chr(0x80 |(($val>>6)&0x3f)).chr(0x80 |($val&0x3f));
$i += 5;
}
else if ($str[$i] == '%')
{
$ret .= urldecode(substr($str, $i, 3));
$i += 2;
}
else
{
$ret .= $str[$i];
}
}
return iconv("utf-8","gb2312",$ret);
}
如果大家有更好的办法,一起拿 出来共享。
|
|
|