Perl 国际化

lchl0388 · 发表于 2015-12-26 11:03:56

　　使用 gettext 进行程序的本地化
　　在 perl 中也可以用 GNU gettext 工具进行本地化。先看这个例子：

1	use Locale::gettext;

2	use POSIX; # Needed for setlocale()

3	setlocale(LC_MESSAGES, "");

4	bindtextdomain("helloworld", "locale");

5	textdomain("helloworld");

6	print gettext("Hello World!\n"), "\n";

　　然后运行这两个命令：

1	xgettext -o helloworld.po helloworld.pl

　　打开 helloworld.po 文件，一个最重要的需要修改的地方是 charset=CHARSET
这一行，要改成 charset=UTF-8，这样在程序里用 Locale::gettext 系列函数才
能得到正确编码的字符串。然后修改 “Hello World!\n” 的翻译。如下：

01	# Copyright (C) YEAR THE PACKAGE'S COPYRIGHT HOLDER

02	# This file is distributed under the same license as the PACKAGE package.

03	# Ye Wenbin <wenbinye@gmail.com>, 2007.

04

#

05

#, fuzzy

06

msgid ""

07

msgstr ""

08	"Project-Id-Version: helloworld 0.01\n"

09	"Report-Msgid-Bugs-To: \n"

10	"POT-Creation-Date: 2007-07-28 01:43+0800\n"

11	"PO-Revision-Date: 2007-07-28 01:53+0800\n"

12	"Last-Translator: Ye Wenbin <wenbinye@gmail.com>\n"

13	"Language-Team: Chinese\n"

14	"MIME-Version: 1.0\n"

15	"Content-Type: text/plain; charset=UTF-8\n"

16	"Content-Transfer-Encoding: 8bit\n"

1	#: helloworld.pl:15

2	msgid "Hello World!\n"

3	msgstr "你好，世界！\n"

　　用 msgfmt 转换成 mo 格式：

1	mkdir -p locale/$LANG/LC_MESSAGES/

2	msgfmt -o locale/$LANG/LC_MESSAGES/helloworld.mo helloworld.po

　　现在再运行 helloworld.pl 程序，输出是不是已经是翻译过的了？
　　让我们再回过头来看看这个程序每一条语句的作用。

1	use Locale::gettext;

　　导入 Locale::gettext 库。使用 use 语句会引入一系列的常量和函数。在
gettext.pm 里是这样的：

1	%EXPORT_TAGS = (

2	locale_h => [qw(LC_CTYPE LC_NUMERIC LC_TIME LC_COLLATE LC_MONETARY LC_MESSAGES LC_ALL)],

3	libintl_h=> [qw(gettext textdomain bindtextdomain dcgettext dgettext ngettextdngettext dcngettext bind_textdomain_codeset)],

4

);

　　所以默认情况下已经导入了常量 LC_CTYPE, LC_NUMERIC, LC_TIME[1],
LC_COLLATE, LC_MONETARY, LC_MESSAGES, LC_ALL，和函数 gettext，
textdomain, bindtextdomain, dcgettext, dgettext, ngettext, dngettext
dcngettext, bind_textdomain_codeset。

1	use POSIX; # Needed for setlocale()

2	setlocale(LC_MESSAGES, "");

　　setlocale 函数是在 POSIX 包中，可以在 POSIX 的文档或者 manpage
setlocale(3) 中找到它的说明。这句话的意思是让 LC_MESSAGES 从 locale 环
境变量中得到。不同实现所使用的环境变量也可能不同。在我这里测试修改
LANGUAGE 的值会改变 LC_MESSAGES。

1	bindtextdomain("helloworld", "locale");

2	textdomain("helloworld");

　　要得到翻译的字符串需要做两件事，一是确定查找的范围，也就是这里所说的域
（domain），二是在选择的域中得到字符串。bindtextdomain 和 textdomain
就是用于确定程序查找翻译字符串的范围。textdomain 告诉程序要全局使用的
domain 名字叫 helloworld。一个域实际上对应的是一个文件名。比如这
里就是 helloworld.mo 文件。bindtextdomain 告诉程序域 helloworld 的文件
是在 locale 目录下。所以 gettext 最终会选择从
locale/$LANG/LC_MESSAGES/helloworld.mo 文件中得到翻译的字符串。$LANG
是由 locale（在这里是指环境变量）所决定的。

1	print gettext("Hello World!\n"), "\n";

　　前面已经说过用 use 会导入一系列的函数。gettext 就是其中一个。它的作用
是查找 msgid 对应的 msgstr。类似的函数有 dgettext 和 dcgettext。
dgettext 还需要一个参数 domain，这便于在程序中使用多个域。dcgettext 还
有一个参数是 category，所谓 category 是前面前面 LC_xxx 这样的常量，包
括数字，时间日期，货币等等。需要注意的是这样得到的字符串是按文件中的编
码的字符串。
　　Locale::gettext 还提供面向对象的接口。比如前面这个程序可以改写成：

1	use Locale::gettext;

2	use POSIX; # Needed for setlocale()

3	setlocale(LC_MESSAGES, "");

4	my $d = Locale::gettext->domain("helloworld");

5	$d->dir("locale");

6	print $d->get("Hello World!\n");

　　使用这个方法的好处是它会根据 po 文件里的 charset 对字符串进行解码，这
样得到的 perl 内部表示的 unicode 字符串。
　　再来看看 gettext 是如何处理单复数的。比如：

1	foreach my $n( 0..2 ) {

2	printf(ngettext("%d file removed\n", "%d files removed\n", $n), $n);

3

}

　　再用 xgettext 提取一次，可以得到这样的条目：

1	#: helloworld.pl:20

2	#, perl-format

3	msgid "%d file removed"

4	msgid_plural "%d files removed"

5	msgstr[0] "%d 个文件被删除"

6	msgstr[1] "已经删除 %d 个文件"

　　为了显示区别，我把单数和复数用不同的形式翻译。这样运行前面的程序得到的
输出是：

1	已经删除 0 个文件

2

1 个文件被删除

3	已经删除 2 个文件

　　更详细的关于本地化的讨论可以参考 info gettext。
　　Footnotes:
[1] 这个常量好像不能用。在 gettext.xs 里没有导出这个常量。不知道是不
是一个 bug。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Perl 国际化

浏览过的版块

扫码加入运维网微信交流群