设为首页 收藏本站
查看: 767|回复: 0

[经验分享] oracle 判断字段中的中文的方法

[复制链接]

尚未签到

发表于 2016-8-4 09:36:27 | 显示全部楼层 |阅读模式
  判断字段中的中文的方法,与oracle的字符集有关,
AL32UTF8字符集下:中文length() 的结果为3,ascii()的结果为8位,asciistr()可以判断
  eg:
   select * from v$nls_parameters where parameter = 'NLS_CHARACTERSET';
    1 NLS_CHARACTERSET AL32UTF8
   select length('靠') from dual;
    1 1
   select lengthb('靠') from dual;
    1 3
   select asciistr('/\)(-=!@#$%^&*~中文字符') from dual;
    1 /\)(-=!@#$%^&*~\4E2D\6587\5B57\7B26
   select asciistr('\') from dual;
    1 \
   select ascii('哦') from dual;
    1 15045542
ZHS16GBK字符集下:
   select * from v$nls_parameters where parameter = 'NLS_CHARACTERSET';
    1 NLS_CHARACTERSET ZHS16GBK
   select length('靠') from dual;
    1 1
   select lengthb('靠') from dual;
    1 2
   select asciistr('/\)(-=!@#$%^&*~中文字符') from dual;
    1 /\)(-=!@#$%^&*~\4E2D\6587\5B57\7B26
   select instr(asciistr('/)(-=!@#$%^&*~★ABC'),'\') from dual;
    1 15
   select asciistr('\') from dual;
    1 \
   select ascii('哦') from dual;
    1 50614

可以自定义函数来实现一个对字段值中是否包含有中文的判断(如邮件地址验证等)

  select instr(asciistr('/\)(-=!@#$%^&*~中文字符'),'\') from dual;
  如果instr的结果大于0,则包含中文或者一些特殊字符,为0则不含中文。
  (但是没有能够排除掉'\'的干扰,不能区别汉字和特殊字符)


比较好的方法(摘抄):

从表里提取汉字, 需要考虑字符集, 不同的字符集汉字的编码有所不同
这里以GB2312为例, 写一函数准确地从表里提取简体汉字.

假设数据库字符集编码是GB2312, 环境变量(注册表或其它)的字符集也是GB2312编码
并且保存到表里的汉字也都是GB2312编码的

那么也就是汉字是双字节的,且简体汉字的编码范围是
B0A1 - F7FE
换算成10进制就是
B0  A1    F7  FE
176,161 - 247,254

我们先看一下asciistr函数的定义
Non-ASCII characters are converted to the form. \xxxx, where xxxx represents a UTF-16 code unit.
但是这并不表示以 "\" 开始的字符就是汉字了

举例如下
SQL> select * from test;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC

这里第5条记录有一个实心的五角星
然后用asciistr函数转换一下试试
SQL> select name,asciistr(name) from test;

NAME                 ASCIISTR(NAME)
-------------------- ----------------------
,啊OO10哈            ,\554AOO10\54C8
你好aa               \4F60\597Daa
大家好aa/            \5927\5BB6\597Daa/
☆大海123            \2606\5927\6D77123
★ABC                \2605ABC

我们看到最后一条记录的实心五角星也是 "\"开头的
此时我们就不能用asciistr(字段)是否存在 "\" 来判断是否含有汉字了.

我的函数如下,基本思路是判断字符的编码是否在GB2312规定的汉字编码范围之内
--------------------------------------------------------------------------------
create or replace function get_chinese(p_name in varchar2) return varchar2 as
  v_code    varchar2(30000) := '';
  v_chinese varchar2(4000) := '';
  v_comma   pls_integer;
  v_code_q  pls_integer;
  v_code_w  pls_integer;
begin
  if p_name is not null then
    select replace(substrb(dump(p_name, 1010),
                           instrb(dump(p_name, 1010), 'ZHS16GBK:')),
                   'ZHS16GBK: ',
                   '')
      into v_code
      from dual
     where rownum = 1;
    for i in 1 .. length(p_name) loop
      if lengthb(substr(p_name, i, 1)) = 2 then
        v_comma  := instrb(v_code, ',');
        v_code_q := to_number(substrb(v_code, 1, v_comma - 1));
        v_code_w := to_number(substrb(v_code,
                                      v_comma + 1,
                                      abs(instrb(v_code, ',', 1, 2) -
                                          v_comma - 1)));
        if v_code_q >= 176 and v_code_q <= 247 and v_code_w >= 161 and
           v_code_w <= 254 then
          v_chinese := v_chinese || substr(p_name, i, 1);
        end if;
        v_code := ltrim(v_code, '1234567890');
        v_code := ltrim(v_code, ',');
      end if;
      v_code := ltrim(v_code, '1234567890');
      v_code := ltrim(v_code, ',');
    end loop;
    return v_chinese;
  else
    return '';
  end if;
end;
/
--------------------------------------------------------------------------------
好,现在来执行一些语句
SQL> select * from test;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC

5 rows selected.

1. 列出有汉字的记录
SQL> select name from test where length(get_chinese(name))>0;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123

4 rows selected.

2. 列出有汉字的记录,并且只列出汉字

SQL> select get_chinese(name) from test where length(get_chinese(name))>0;

GET_CHINESE(NAME)
---------------------------------------------------------------------------
啊哈
你好
大家好
大海

4 rows selected.


需要说明的是GB2312共有6763个汉字,即72*94-5=6763
我这里是计算72*94,没有减去那5个,那五个是空的。等查到了再减去
============

改写这个函数,可以提取非汉字或者汉字
该函数有两个参数,第一个表示要提取的字符串,第二个是1,表示提取汉字,是非1,表示提取非汉字
--------------------------------------------------------------------------------
create or replace function get_chinese(p_name    in varchar2,
                                       p_chinese in varchar2)
  return varchar2 as
  v_code        varchar2(30000) := '';
  v_chinese     varchar2(4000) := '';
  v_non_chinese varchar2(4000) := '';
  v_comma       pls_integer;
  v_code_q      pls_integer;
  v_code_w      pls_integer;
begin
  if p_name is not null then
    select replace(substrb(dump(p_name, 1010),
                           instrb(dump(p_name, 1010), 'ZHS16GBK:')),
                   'ZHS16GBK: ',
                   '')
      into v_code
      from dual
     where rownum = 1;
    for i in 1 .. length(p_name) loop
      if lengthb(substr(p_name, i, 1)) = 2 then
        v_comma  := instrb(v_code, ',');
        v_code_q := to_number(substrb(v_code, 1, v_comma - 1));
        v_code_w := to_number(substrb(v_code,
                                      v_comma + 1,
                                      abs(instrb(v_code, ',', 1, 2) -
                                          v_comma - 1)));
        if v_code_q >= 176 and v_code_q <= 247 and v_code_w >= 161 and
           v_code_w <= 254 then
          v_chinese := v_chinese || substr(p_name, i, 1);
        else
          v_non_chinese := v_non_chinese || substr(p_name, i, 1);
        end if;
        v_code := ltrim(v_code, '1234567890');
        v_code := ltrim(v_code, ',');
      else
        v_non_chinese := v_non_chinese || substr(p_name, i, 1);
      end if;
      v_code := ltrim(v_code, '1234567890');
      v_code := ltrim(v_code, ',');
    end loop;
    if p_chinese = '1' then
      return v_chinese;
    else
      return v_non_chinese;
    end if;
  else
    return '';
  end if;
end;


/--------------------------------------------------------------------------------
SQL> select * from a;

NAME
--------------------
我们啊、
他(艾呀)是★们
他的\啊@

SQL> select get_chinese(name,1) from a;

GET_CHINESE(NAME,1)
-----------------------------------------
我们啊
他艾呀是们
他的啊

SQL> select get_chinese(name,0) from a;

GET_CHINESE(NAME,0)
-----------------------------------------

()★
\@

SQL>

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-252587-1-1.html 上篇帖子: oracle性能调整的十大要点-SGA 下篇帖子: 尚学堂马士兵Oracle教程 笔记
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表