设为首页 收藏本站
查看: 199|回复: 0

[经验分享] Tomcat的中文处理

[复制链接]

尚未签到

发表于 2017-1-24 11:24:24 | 显示全部楼层 |阅读模式
  Tomcat的中文处理(一)
看到很多朋友问关于中文的处理问题,下面我们以tomcat4.0为servlet,jsp引擎来说说unicode的处理。
  1) 从客户端接受请求
  当客户端请求tomcat的一个jsp文档的时候,tomcat会构造相应的httpServletRequest实现类的实例来代表客户端,通过对流servletInputStream读,我们可以得到客户端来的数据。
在jsp中我们通常使用的request.getParameter()来得到参数的值,这个函数的背后到底怎么样的呢?怎么样对String编码的呢?
通过tomcat的httpServletRequest实现类源代码考察:
public String getParameter(String name)
    ...{
        parseParameters();处理parameters
        String values[] = (String[])parameters.get(name);//得到该参数名字对应的Object(是一个数组)
        if(values != null)
        ...{
            return values[0];
        } else
        ...{
            return null;
        }
    }
  其中parameters是request的一个map类型的数据成员,用来存放接受到的客户端的数据。也就是说每当客户端请求的时候,tomcat构造一个request实例,该实例有一个parameters用来存放从servlet实例的写入流的读来的客户端的数据。
  从上面的代码知道最重要的的是parseParameters()函数,它是来处理parameters的。
下面来看看:
protected void parseParameters()
    ...{
        if(parsed)
        ...{
            return;//如果处理过了,就不要处理了
        }
        ParameterMap results = parameters;//构造parameters对象的本地引用
        if(results == null)
        ...{
            results = new ParameterMap();//如果没有实例
        }
  results.setLocked(false);
        String encoding = getCharacterEncoding();//得到httpServeltRequest的编码
        if(encoding == null)
        ...{
            encoding = ISO-8859-1;//如果没有指定httpServeltRequest的编码采用ISO-8859-1
        }
       。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
       RequestUtil.parseParameters(results, queryString, encoding);//处理编码
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
                is.read(buf, len, max - len); 从流中读取数据
           。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
                RequestUtil.parseParameters(results, buf, encoding);处理编码
         。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
        parameters = results;重置引用
    }
  下面再来看看RequestUtil.parseParameters(results, buf, encoding);的处理:
在此就不贴源代码了,
RequestUtil.parseParameters(results, buf, encoding)的处理中对于buf  byte数组进行处理,构造key和value,就是参数名字和参数值:
  while(ix  data.length)
            ...{
                byte c = data[ix++];
                switch((char)c)
                ...{
                case 38  '&'
                    value = new String(data, 0, ox, encoding);
                    if(key != null)
                    ...{
                        putMapEntry(map, key, value);
                        key = null;
                    }
                    ox = 0;
                    break;
                case 61  '='
    key = new String(data, 0, ox, encoding);
                    ox = 0;
                    break;
                case 43  '+'
                    data[ox++] = 32;
                    break;
                case 37  '%'
                    data[ox++] = (byte)((convertHexDigit(data[ix++])  4) + convertHexDigit(data[ix++]));
                   break;
                default
                   data[ox++] = c;
                    break;
                }
            }
            if(key != null)
            ...{
                value = new String(data, 0, ox, encoding);
                putMapEntry(map, key, value);
            }
  显然对于参数名字和参数的值都是采用的new String(data, 0, ox, encoding);方法来使用指定的编码方式构造的。
  结论:我们不难看出如果没有指定request的编码方式,那么从客户端接受到的参数的名字和参数值都是以iso-8859-1编码的String的。
也就是说我们在jsp的页面中的表单元素中给出的参数值在通过request.getParamter()得到后的String是以iso-8859-1编码的。
而且我们看看tomcat为jsp产生的java文件知道,对于在jsp定义的没有指定编码方式的String的时候,tomcat是使用的iso-8859-1方式的,而不是系统默认的。
比如:
%
String name=new String(“你好”);或者String name=”你好”;都是使用的iso-8859-1的编码方式的。
System.out.println(name);就会产生乱码的。(因为Console使用的系统的默认编码的,中文系统是gb2321,日文是MS932).
%
  下篇我们介绍httpServletResponse的处理
上篇我们介绍了tomcat是怎么对接收到字符进行编码的,现在我们来看当向客户端写html文档的时候到底发生了什么?
tomcate在向客户端写出数据的時候,使用的是response的输出流來实现的。但是jsp是怎樣使用response的流的呢?
在使用JSP内含對象out輸出的時候,out是一個JspWriter实现类的对象实例,JspWriterImpl(ServletResponse response, int sz, boolean autoFlush)是一个该类的构造函数,其使用到了response,在JspWriterImpl内部还有一个java.io.Writer对象实例的引用,在使用JspWriter(JSP的out对象)写出数据的时候,会调用如下的函数来初始化
protected void initOut() throws IOException
{
if(out == null)
{
out = response.getWriter();/////////初始化 java.io.Writer對象
}
}来初始化该内部对象的。
然后在jspWriter的各个输出数据的函数的实现中就是調用上面的java.io.Writer對象的方法的。
所以不论是jsp或者是servlet,对客户端写出html的時候,都是通过response.getWriter();来得到的字符流或者由getOutputStream()得到2进制流的。
一個response存在一個字符流,也存在一個2進制流,但是在同一時刻只能打開使用一個流的。至於兩者的關係,我們在後面介紹。Jsp的out對象就是response的字符流的。
同樣的request也存在一個字符流和一個2進制流,但是在同一時刻只能打開使用一個流的。
response的两个流的关系
我们来考察response的实现类的getOutputStream()和getWriter函数的实现:
public ServletOutputStream getOutputStream() throws IOException
{
。。。。。。。。。。。。。。。。。。。。
stream = createOutputStream();///创建response的2进制的输出流
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
return stream;
}
public PrintWriter getWriter() throws IOException
{
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
ResponseStream newStream = (ResponseStream)createOutputStream();////////创建2进制流
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
OutputStreamWriter osr = new OutputStreamWriter(newStream, getCharacterEncoding());
writer = new ResponseWriter(osr, newStream);///得到response的字符输出流
。。。。。。。。。。。。。。。。。。。。。。。。。。
}
}
显然,我们的字符流就是从2进制流转化而来的
还有两个函数要注意:
public String getCharacterEncoding()//////response的编码,默认是ISO-8859-1的
{
if(encoding == null)//////////////////////////////////如果没有指定编码
{
return "ISO-8859-1";
} else
{
return encoding;
}
}
public void setContentType(String type);设置response的类型和编码
{
。。。。。。。。。。。。。
encoding = RequestUtil.parseCharacterEncoding(type);////////得到指定的编码
if(encoding == null)
{
encoding = "ISO-8859-1";//////////////////////////如果沒有指定编码方式
}
} else
if(encoding != null)
{
contentType = type + ";charset=" + encoding;
}
}
好了,现在我们知道了在写出字符的时候使用的response的字符流(不管是jsp或者servlet),也就是使用的OutputStreamWriter osr = new OutputStreamWriter(newStream, getCharacterEncoding());
注意的是newStream是response的2进制流的实现。
所以我们还得看看OutputStreamWriter的实现:
考察OutputStreamWriter的源代碼,他有一個StreamEncoder 类型的对象,就是依靠他來转换编码的;
StreamEncoder是由sun公司提供的,它有一个
public static StreamEncoder forOutputStreamWriter(OutputStream outputstream, Object obj, String s)來得到StreamEncoder对象实例。
对于jsp,servlet来说在构造他的时候 outputstream参数是response的2进制流,obj是OutputStreamWriter对象,s就是编码方式的名字。其实得到是一個StreamEncoder的子类的对象实例,
return new CharsetSE(outputstream, obj, Charset.forName(s1)); CharsetSE是StreamEncoder的子类。
他有一个如下的函数来实现编码转换的:
void implWrite(char ac[], int i, int j)throws IOException /////// ac是要輸出String的char數組
{
CharBuffer charbuffer = CharBuffer.wrap(ac, i, j);
。。。。。。。。。。。。。。。。。。。。。。。
CoderResult coderresult = encoder.encode(charbuffer, bb, false);/////bb是ByteBuffer,存放编码后的byte缓冲区
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
writeBytes();///////////////////////////////將bb转化到byte数组写入到response的2进制流中
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
}
至此,我们了解了tomcat背后的编码转换过程
  Tomcat的中文處理(三):
前面废话讲过了,现在我们来分析几个例子:
1)jsp中如果使用了:
<%@ page contentType="text/html; charset=Shift_JIS" %>
  他其实就是指定了response的类型和字符的编码方式,上面指定了response的字符编码是是Shift_JIS。
在jsp中构造String的时候,如果没有明确指定String的编码,String使用的编码就是charset指定的;如果charset沒有指定字符的编码的话,那么話,就使用ISO-8859-1
注意的是如果沒有指定requset的编码,那么从request得到的String都是iso-8859-1编码的。(上一篇已经讲过了。),他和charset是没有关系的。
  如果要输出的String的编码和response的编码不一样的话,就很可能出现乱码的情況。
举个例子:
<%@ page contentType="text/html; charset=GB2312" %>///////////////指定response的编码为中文简体,那么所有的要输出的字符都要使用和GB2312相适应的编码
<html>
<head><title></title>
</head>
<body>
<%
String name=request.getParameter("name");////////得到客户端的參數值,沒有指定request的编码,所以它是编码为iso-8859-1的String的。
String name1=new String(name.getBytes("ISO-8859-1"),"GB2312");//////////转化为中文简体的编码
String name2="你好";/////直接定義String,使用reponse的编码,这里是GB2312的。
String name21=new String(name2.getBytes("ISO-8859-1")," GB2312");////////从name2转化
System.out.println("name1 is GB2312"+name1);
System.out.println("name is ISO-8859-1"+name);
System.out.println("name21 is 直接"+name21);
System.out.println("我们大家");
%>
<form action="./B.jsp" method="POST">
<input type="text" name="name" value="<%=name1%>">
<input type="submit">
</form>
<hr>
name1 is GB2312  <%=name1%><br>
name is ISO-8859-1     <%=name%><br>
name21 is 直接<%=name21%><br>
<%="我们大家"%></body>
</html>
  結果:
console中:(他对应response的编码是GB2312的,日文系統是MS932)
name1 is GB2312  你好//////////name1是name转化来的,是GB2312的,所以正常顯示
name is ISO-8859-1????/////////////name是ISO-8859-1的不能正常顯示的
name21 is 直接???????????????????////////////////由於name2是GB2312編碼的,在name21 =new String(name2.getBytes("GB2312"),"MS932"))發生了錯誤的轉化,所以不能正常的現實,如果將ISO-8859-1換為GB2312就可以了。
我们大家//////////////////////////////////jsp中定義的string是採用<%@ page contentType="text/html; charset= GB2312" %>指定的編碼,如果沒有指定,就使用iso-8859-1的。
  可以看到我們在ie中看到的結果是一樣的。
  下面我們將<%@ page contentType="text/html; charset=Shift_JIS" %>去掉。
結果:
console (这个时候,Console的編碼是GB2312,所以编码为GB2312的字符能显示,由于在jsp中构造的String此時使用的iso-8859-1,所以不能显示)
name1 is GB2312你好
name is ISO-8859-1????
name21 is ???? 你好/////////////////name2的编码此时为iso-8859-1,所以转化来的name21是正确的
????????
ie (这个时候,response的编码是iso-8859-1,所以编码为iso-8859-1的能显示,由于在jsp中构造的String此時使用的iso-8859-1,所以也能显示)
name1 is GB2312??
name is ISO-8859-1 你好
name21 is 直接 ???????????????????
我们大家
顯然不一樣了結果!!!!
  Tomcat的中文處理(四):
2)在servlet和其他java文件中的字符
  在这种情況下,构造的String使用的系統默认的编码方式的。
但是在servlet中从request得到的字符,如果沒有指定request的編碼,那么就是得到的一个编码方式为iso-8859-1的字符,在servlet中,如果沒有指定response的编码方式(通过setContentType),那么,response使用的iso-8859-1的编码方式。
例子:
import javax.servlet.*;
import javax.servlet.http.*;
public class HelloWorldExample extends HttpServlet {
    public void doGet(HttpServletRequest request,
                      HttpServletResponse response)
        throws IOException, ServletException
    {
        String name=request.getParameter("name");/////得到name參數的value
        response.setContentType("text/html ");///不設置編碼,此時response使用iso-8859-1的編碼
        PrintWriter out = response.getWriter();//得到字符流,此時的編碼為iso-8859-1
        out.println("<html>");
        out.println("<head>");
        String title="你好";/////构造一个String,注意的是虽然此時没有为response指定编码,但是在servlet中构造的String使用的系统默认的编码的。
        out.println("<title>sdsfdsfsdfds</title>");
        out.println("</head>");
        out.println("<body bgcolor=\"white\">");
        out.println("我们大家<br>");///////输出一个编码为本地默认的String到response中,但是此时response的编码是iso-8859-1的,所以出现乱码得
        out.println("title is "+title);////title是系统默认的编码,得到乱码
        out.println("<br>name is "+name);/////name是request的來的,正确显示
        out.println("</body>");
        out.println("</html>");
        System.out.println("你好");////由于Console是系統默認編碼,所以正確顯示
        System.out.println("title is "+title);/////title是默認編碼的,正常顯示
        System.out.println("name is "+name);///////name是iso-8859-1的編碼的,亂碼
    }
}
如果我們在response.setContentType("text/html");改為:response.setContentType("text/html;charset=GB2312");那么,IE的输出和Console的输出是一样的。
  总结:
1. 在jsp中<%@ page contentType="text/html; charset=A"%>如果指定了,那么在该jsp中所有构造的String(不是引用),如果沒有指定编码,那么这些String的编码是A的;从request的得到的String如果沒有指定request的编码的话,他是iso-8859-1的;从别的地方得到的String是使用原來初始的编码的,比如从数据库得到String,如果数据库的编码是B,那么该String的编码是B而不是A的,也不是系统默认的。此时,如果要输出的String的编码不是A,那么,很可能显示乱码的,所以首先要将String正確转化为编码A的String,然后输出。
  2. 在jsp中<%@ page contentType="text/html; charset=A"%>沒有指定,那么相当于指定了<%@ page contentType="text/html; charset=ISO-8859-1"%>
  3.Servelte中如果执行了像response.setContentType("text/html;charset=A");説明将response的字符输出流编码设置为A,所有要输出的String的编码要转化为A的,否則会得到乱码的。Servelet中从request得到的String的编码和jsp中一样的,但是在servlet java文件中构造的String是使用的系统默认的编码的。在servelt中从外部得到的String是使用原来的编码的,比如从编码为B的数据库得到的数据是编码为B的,不是A,也不是系统默认的编码。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-332927-1-1.html 上篇帖子: [原创]xampp-tomcat- connector---- xampp 完美整合现有的tomcat [续] 下篇帖子: Tomcat 连接池的配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表