|
使用 gettext 进行程序的本地化
在 perl 中也可以用 GNU gettext 工具进行本地化。先看这个例子:
2 | use POSIX; # Needed for setlocale() |
3 | setlocale(LC_MESSAGES, ""); |
4 | bindtextdomain("helloworld", "locale"); |
5 | textdomain("helloworld"); |
6 | print gettext("Hello World!\n"), "\n"; | 然后运行这两个命令:
1 | xgettext -o helloworld.po helloworld.pl | 打开 helloworld.po 文件,一个最重要的需要修改的地方是 charset=CHARSET
这一行,要改成 charset=UTF-8,这样在程序里用 Locale::gettext 系列函数才
能得到正确编码的字符串。然后修改 “Hello World!\n” 的翻译。如下:
01 | # Copyright (C) YEAR THE PACKAGE'S COPYRIGHT HOLDER |
02 | # This file is distributed under the same license as the PACKAGE package. |
03 | # Ye Wenbin <wenbinye@gmail.com>, 2007. |
08 | "Project-Id-Version: helloworld 0.01\n" |
09 | "Report-Msgid-Bugs-To: \n" |
10 | "POT-Creation-Date: 2007-07-28 01:43+0800\n" |
11 | "PO-Revision-Date: 2007-07-28 01:53+0800\n" |
12 | "Last-Translator: Ye Wenbin <wenbinye@gmail.com>\n" |
13 | "Language-Team: Chinese\n" |
15 | "Content-Type: text/plain; charset=UTF-8\n" |
16 | "Content-Transfer-Encoding: 8bit\n" |
用 msgfmt 转换成 mo 格式:
1 | mkdir -p locale/$LANG/LC_MESSAGES/ |
2 | msgfmt -o locale/$LANG/LC_MESSAGES/helloworld.mo helloworld.po | 现在再运行 helloworld.pl 程序,输出是不是已经是翻译过的了?
让我们再回过头来看看这个程序每一条语句的作用。
导入 Locale::gettext 库。使用 use 语句会引入一系列的常量和函数。在
gettext.pm 里是这样的:
2 | locale_h => [qw(LC_CTYPE LC_NUMERIC LC_TIME LC_COLLATE LC_MONETARY LC_MESSAGES LC_ALL)], |
3 | libintl_h=> [qw(gettext textdomain bindtextdomain dcgettext dgettext ngettextdngettext dcngettext bind_textdomain_codeset)], |
所以默认情况下已经导入了常量 LC_CTYPE, LC_NUMERIC, LC_TIME[1],
LC_COLLATE, LC_MONETARY, LC_MESSAGES, LC_ALL,和 函数 gettext,
textdomain, bindtextdomain, dcgettext, dgettext, ngettext, dngettext
dcngettext, bind_textdomain_codeset。
1 | use POSIX; # Needed for setlocale() |
2 | setlocale(LC_MESSAGES, ""); | setlocale 函数是在 POSIX 包中,可以在 POSIX 的文档或者 manpage
setlocale(3) 中找到它的说明。这句话的意思是让 LC_MESSAGES 从 locale 环
境变量中得到。不同实现所使用的环境变量也可能不同。在我这里测试修改
LANGUAGE 的值会改变 LC_MESSAGES。
1 | bindtextdomain("helloworld", "locale"); |
2 | textdomain("helloworld"); | 要得到翻译的字符串需要做两件事,一是确定查找的范围,也就是这里所说的域
(domain),二是在选择的域中得到字符串。bindtextdomain 和 textdomain
就是用于确定程序查找翻译字符串的范围。textdomain 告诉程序要全局使用的
domain 名字叫 helloworld。一个域实际上对应的是一个文件名。比如这
里就是 helloworld.mo 文件。bindtextdomain 告诉程序域 helloworld 的文件
是在 locale 目录下。所以 gettext 最终会选择从
locale/$LANG/LC_MESSAGES/helloworld.mo 文件中得到翻译的字符串。$LANG
是由 locale(在这里是指环境变量)所决定的。
1 | print gettext("Hello World!\n"), "\n"; | 前面已经说过用 use 会导入一系列的函数。gettext 就是其中一个。它的作用
是查找 msgid 对应的 msgstr。类似的函数有 dgettext 和 dcgettext。
dgettext 还需要一个参数 domain,这便于在程序中使用多个域。dcgettext 还
有一个参数是 category,所谓 category 是前面前面 LC_xxx 这样的常量,包
括数字,时间日期,货币等等。需要注意的是这样得到的字符串是按文件中的编
码的字符串。
Locale::gettext 还提供面向对象的接口。比如前面这个程序可以改写成:
2 | use POSIX; # Needed for setlocale() |
3 | setlocale(LC_MESSAGES, ""); |
4 | my $d = Locale::gettext->domain("helloworld"); |
6 | print $d->get("Hello World!\n"); | 使用这个方法的好处是它会根据 po 文件里的 charset 对字符串进行解码,这
样得到的 perl 内部表示的 unicode 字符串。
再来看看 gettext 是如何处理单复数的。比如:
2 | printf(ngettext("%d file removed\n", "%d files removed\n", $n), $n); |
再用 xgettext 提取一次,可以得到这样的条目:
4 | msgid_plural "%d files removed" |
为了显示区别,我把单数和复数用不同的形式翻译。这样运行前面的程序得到的
输出是:
更详细的关于本地化的讨论可以参考 info gettext。
Footnotes:
[1] 这个常量好像不能用。在 gettext.xs 里没有导出这个常量。不知道是不
是一个 bug。 |
|
|