Python 3 的新特性

(^o^)/~完美 · 发表于 2017-4-26 12:06:32

　　2009 年 2 月 02 日

Python 3 是 Guido van Rossum 功能强大的通用编程语言的最新版本。它虽然打破了与 2.x 版本的向后兼容性，但却清理了某些语法方面的问题。本文是系列文章中的第一篇，介绍了影响该语言及向后兼容性的各种变化，并且还提供了新特性的几个例子。

　　Python 版本 3，也被称为Python 3000或Py3K（仿效 Microsoft® Windows® 2000 操作系统而命名的昵称）是 Guido van Rossum 通用编程语言的最新版本。虽然新版本对该核心语言做了很多改进，但还是打破了与 2.x 版本的向后兼容性。其他一些变化则是人们期待已久的，比如：

真正的除法 — 例如，1/2返回的是.5。
long和int类型被统一为一种类型，删除了后缀L。
True、False和None现在都是关键字。

　　本文 — Python 3 系列文章中的第一篇 — 的内容涵盖了新的print()函数、input()、输入/输出（I/O）的变化、新的bytes数据类型、字符串和字符串格式化的变化以及内置的dict类型的变化。本文面向的是那些熟悉 Python 并对新版本的变化很感兴趣但又不想费力读完所有 Python Enhancement Proposal（PEP）的编程人员。（本文后面的参考资料部分提供了有关这些 PEP 的链接。）
　　如今，您将需要让手指习惯于键入print("hello")，而不是原来的print "hello"，这是因为print现在是一个函数，不再是一个语句。我知道，这多少有点痛苦。我认识的每个 Python 程序员 — 一旦安装了版本 3 并得到 “语法不正确” 错误 — 都会郁闷地大叫。我知道这两个额外的符号十分讨厌；我也知道这将会破坏向后兼容性。但是这种改变还是有好处的。
　　让我们考虑这样的情况，即需要将标准输出（stdout）重定向到一个日志。如下的例子会打开文件 log.txt 以便进行追加并将对象指定给fid。之后，利用print>>将一个字符串重定向给文件fid：

>>>fid = open("log.txt", "a")
>>>print>>fid, "log text"

　　另外一个例子是重定向给标准错误（sys.stderr）：

>>>print>>sys.stderr, "an error occurred"

　　上述两个例子都不错，但还有更好的解决方案。新的语法只要求给print()函数的关键字参数file传递一个值就可以了。比如：

>>>fid = open("log.txt", "a")
>>>print("log.txt", file=fid)

　　这样的代码，语法更为清晰。另一个好处是通过向sep关键字参数传递一个字符串就能更改分割符（separator），通过向end关键字参数传递另外一个字符串就能更改结束字符串。要更改分割符，可以利用：

>>>print("Foo", "Bar", sep="%")
>>>Foo%Bar

　　总地来说，新的语法为：

print([object, ...][, sep=' '][, end='endline_character_here'][, file=redirect_to_here])

　　其中，方括号（[]）内的代码是可选的。默认地，若只调用print()自身，结果会追加一个换行符（/n）。

回页首

　　在 Python 版本 2.x 中，raw_input()会从标准输入（sys.stdin）读取一个输入并返回一个字符串，且尾部的换行符从末尾移除。下面的这个例子使用raw_input()从命令提示符获取一个字符串，然后将值赋给quest。

>>>quest = raw_input("What is your quest? ")
What is your quest? To seek the holy grail.
>>>quest
'To seek the holy grail.'

　　与之不同，Python 2.x 中的input()函数需要的是一个有效的 Python 表达式，比如3+5。
　　最初，曾有人建议将input()和raw_input()从 Python 内置的名称空间一并删除，因此就需要进行导入来获得输入能力。这从方法上就不对；因为，简单键入：

>>>quest = input("What is your quest?")

　　将会变为:

>>>import sys
>>>print("What is your quest?")
>>>quest = sys.stdin.readline()

　　对于一个简单输入而言，这太过繁琐，并且对于一个新手，这未免太难理解。往往需要向他们讲述模块和导入究竟是怎么回事、字符串输出以及句点操作符又是如何工作的（如此麻烦的话，与 Java™ 语言就没什么差别了）。所以，在 Python 3 内，将raw_input()重命名为input()，这样一来，无须导入也能从标准输入获得数据了。如果您需要保留版本 2.x 的input()功能，可以使用eval(input())，效果基本相同。

回页首

　　新的数据类型 bytes literal 及bytes对象的用途是存储二进制数据。此对象是 0 到 127 的不可修改的整数序列或纯粹的 ASCII 字符。实际上，它是版本 2.5 中bytearray对象的不可修改版本。一个bytes literal是一个前面冠以b的字符串 — 例如，b'byte literal'。对 bytes literal 的计算会生成一个新的bytes对象。可以用bytes()函数创建一个新的bytes对象。bytes对象的构造函数为：

bytes([initializer[, encoding]])

　　例如：

>>>b = (b'/xc3/x9f/x65/x74/x61')
>>>print(b)
b'/xc3/x83/xc2/x9feta'

　　会创建一个bytes对象，但这是多余的，因为通过赋值一个 byte literal 就完全可以创建bytes对象。（我只是想要说明这么做是可行的，但是我并不建议您这么做。）如果您想要使用 iso-8859-1 编码，可以尝试下面的做法：

>>>b = bytes('/xc3/x9f/x65/x74/x61', 'iso-8859-1')
>>>print(b)
b'/xc3/x83/xc2/x9feta'

　　如果初始化器（initializer）是一个字符串，那么就必须提供一种编码。如果初始化器是一个 bytes literal，则无须指定编码类型：请记住，bytes literal 并不是字符串。但是与字符串相似，可以连接多个字节：

>>>b'hello' b' world'
b'hello world'

　　用bytes()方法代表二进制数据以及被编码的文本。要将bytes转变为str，bytes对象必须要进行解码（稍后会详细介绍）。二进制数据用decode()方法编码。例如：

>>>b'/xc3/x9f/x65/x74/x61'.decode()
'ßeta'

　　也可以从文件中直接读取二进制数据。请看以下的代码：

>>>data = open('dat.txt', 'rb').read()
>>>print(data) # data is a string
>>># content of data.txt printed out here

　　它的功能是打开文件以便在二进制模式内读取一个文件对象，并在整个文件内进行读取。

回页首

　　Python 具有单一的字符串类型str，其功能类似于版本 2.x 的 unicode 类型。换言之，所有字符串都是 unicode 字符串。而且 — 对非拉丁文的文本用户也非常方便 — 非-ASCII 标识符现在也是允许的。例如：

>>>césar = ["author", "consultant"]
>>>print(césar)
['author', 'consultant']

　　在 Python 之前的版本内，repr()方法会将 8-位字符串转变为 ASCII。例如：

>>>repr('é')
"'//xc3//xa9'"

　　现在，它会返回一个 unicode 字符串：

>>>repr('é')
"'é'"

　　正如我之前提到的，这个字符串是内置的字符串类型。
　　字符串对象和字节对象是不兼容的。如果想要得到字节的字符串表示，需要使用它的decode()方法。相反，如果想要从该字符串得到 bytes literal 表示，可以使用字符串对象的encode()方法。

回页首

　　很多 Python 程序员都感觉用来格式化字符串的这个内置的%操作符太有限了，这是因为：

它是一个二进制的操作符，最多只能接受两个参数。
除了格式化字符串参数，所有其他的参数都必须用一个元组（tuple）或是一个字典（dictionary）进行挤压。

　　这种格式化多少有些不灵活，所以 Python 3 引入了一种新的进行字符串格式化的方式（版本 3 保留了%操作符和string.Template模块）。字符串对象现在均具有一个方法format()，此方法接受位置参数和关键字参数，二者均传递到replacement 字段。Replacement 字段在字符串内由花括号（{}）标示。replacement 字段内的元素被简单称为一个字段。以下是一个简单的例子：

>>>"I love {0}, {1}, and {2}".format("eggs", "bacon", "sausage")
'I love eggs, bacon, and sausage'

　　字段{0}、{1}和{2}通过位置参数eggs、bacon和sausage被传递给format()方法。如下的例子显示了如何使用format()通过关键字参数的传递来进行格式化：

>>>"I love {a}, {b}, and {c}".format(a="eggs", b="bacon", c="sausage")
'I love eggs, bacon, and sausage'

　　下面是另外一个综合了位置参数和关键字参数的例子：

>>>"I love {0}, {1}, and {param}".format("eggs", "bacon", param="sausage")
'I love eggs, bacon, and sausage'

　　请记住，在关键字参数之后放置非关键字参数是一种语法错误。要想转义花括号，只需使用双倍的花括号，如下所示：

>>>"{{0}}".format("can't see me")
'{0}'

　　位置参数can't see me没有被输出，这是因为没有字段可以输出。请注意这不会产生错误。
　　新的format()内置函数可以格式化单个值。比如：

>>>print(format(10.0, "7.3g"))
10

　　换言之，g代表的是一般格式，它输出的是宽度固定的值。小数点前的第一个数值指定的是最小宽度，小数点后的数值指定的是精度。format specifier 的完整语法超出了本文的讨论范围，更多信息，可以参见本文的参考资料小节。

回页首

　　3.0 内的另一个重大改变是字典内dict.iterkeys()、dict.itervalues()和dict.iteritems()方法的删除。取而代之的是.keys()、.values()和.items()，它们被进行了修补，可以返回轻量的、类似于集的容器对象，而不是键和值的列表。这样的好处是在不进行键和条目复制的情况下，就能在其上执行set操作。例如：

>>>d = {1:"dead", 2:"parrot"}
>>>print(d.items())
<built-in method items of dict object at 0xb7c2468c>

　　注意：在 Python 内，集是惟一元素的无序集合。
　　这里，我创建了具有两个键和值的一个字典，然后输出了d.items()的值，返回的是一个对象，而不是值的列表。可以像set对象那样测试某个元素的成员资格，比如：

>>>1 in d # test for membership
True

　　如下是在dict_values对象的条目上进行迭代的例子：

>>>for values in d.items():
... print(values)
...
dead
parrot

　　不过，如果您的确想要得到值的列表，可以对所返回的dict对象进行强制类型转换。比如：

>>>keys = list(d.keys())
>>>print(keys)
[1,2]

回页首

　　Wikipedia 对元类的定义是这样的，“一个元类是这样一个类，其实例也是类。” 在本系列的第 2 部分我会对这个概念进行详细的介绍。

　　在深入研究 I/O 的新机制之前，很有必要先来看看抽象基类（ abstract base classes，ABC）。更深入的介绍将会在本系列的第 2 部分提供。
　　ABC是一些无法被实例化的类。要使用 ABC，子类必须继承自此 ABC 并且还要覆盖其抽象方法。如果方法的前缀使用@abstractmethod修饰符（decorator），那么此方法就是一个抽象方法。新的 ABC 框架还提供了@abstractproperty修饰符以便定义抽象属性。可以通过导入标准库模块abc来访问这个新框架。清单 1 所示的是一个简单的例子。
　　

from abc import ABCMeta
class SimpleAbstractClass(metaclass=ABCMeta):
pass
SimpleAbstractClass.register(list)
assert isinstance([], SimpleAbstractClass)

　　register()方法调用接受一个类作为其参数并会让此 ABC 成为所注册类的子类。这一点可以通过在最后一行上调用assert语句进行验证。清单 2 是使用修饰符的另外一个例子。
　　

from abc import ABCMeta, abstractmethod
class abstract(metaclass=ABCMeta):
@abstractmethod
def absMeth(self):
pass
class A(abstract):
# must implement abstract method
def absMeth(self):
return 0

　　了解了 ABC 之后，我们就可以继续探究新的 I/O 系统了。之前的 Python 发布版都缺少一些重要但是出色的函数，比如用于类似于流的对象的seek()。类似于流的对象是一些具有read()和write()方法的类似于文件的对象 — 比如，socket 或文件。Python 3 具有很多针对类似于流的对象的 I/O 层 — 一个原始的 I/O 层、一个被缓冲的 I/O 层以及一个文本 I/O 层 — 每层均由其自身的 ABC 及实现定义。
　　打开一个流还是需要使用内置的open(fileName)函数，但是也可以调用io.open(fileName))。这么做会返回一个缓冲了的文本文件；read()和readline()会返回字符串（请注意，Python 3 内的所有字符串都是 unicode）。您也可以使用open(fileName, 'b')打开一个缓冲了的二进制文件。在这种情况下，read()会返回字节，但readline()则不能用。
　　此内置open()函数的构造函数是：

open(file,mode="r",buffering=None,encoding=None,errors=None,newline=None,closefd=True)

　　可能的模式有：

r：读
w：打开供写入
a：打开供追加
b：二进制模式
t：文本模式
+：打开一个磁盘文件供更新
U：通用换行模式

　　默认的模式是rt，即打开供读取的文本模式。
　　buffering关键字参数的期望值是以下三个整数中的一个以决定缓冲策略：

0：关闭缓冲
1：行缓冲
> 1：完全缓冲（默认）

　　默认的编码方式独立于平台。关闭文件描述符或closefd可以是 True 或 False。如果是 False，此文件描述符会在文件关闭后保留。若文件名无法奏效的话，那么closefd必须设为 True。
　　open()返回的对象取决于您所设置的模式。表 1 给出了返回类型。
　　

模式
返回对象

文本模式
TextIOWrapper

二进制
BufferedReader

写二进制
BufferedWriter

追加二进制
BufferedWriter

读/写模式
BufferedRandom
　　请注意：文本模式可以是w、r、wt、rt等。
　　清单 3 中所示的例子打开的是一个缓冲了的二进制流以供读取。
　　

>>>import io
>>>f = io.open("hashlib.pyo", "rb")  # open for reading in binary mode
>>>f                               # f is a BufferedReader object
<io.BufferedReader object at 0xb7c2534c>
>>>f.close()                      # close stream

　　BufferedReader对象可以访问很多有用的方法，比如isatty、peek、raw、readinto、readline、readlines、seek、seekable、tell、writable、write和writelines。要想查看完整列表，可以在BufferedReader对象上运行dir()。

回页首

　　Python 社区是否会接??版本 3 还尚在人们的猜测之中。打破向后兼容性意味着将要为两种版本提供支持。一些项目开发人员可能不太想迁移其项目，即便是使用版本 2 到 3 的转化器。就我个人而言，我发现从 Python 版本 2 迁移到 3 其实不过是对几个事情的重新认识：它当然不会像从 Python 迁移到 Java 或 Perl 语言那样变化强烈。很多变化是早就在人们意料中的，比如对dict的实质更改。执行print()远比执行 Java 的System.out.println()容易得多，学习起来也相对容易，所以的确能带来一些好处。
　　我猜想，blogosphere 内的一些帖子会让 Python 的支持者也会误认为其中的某些变更 — 例如对向后兼容性的打破 — 具有破坏性的影响。 Lambda 本来就是准备好要删除的，只不过一直没有这么做，仍保留了其原始的格式。有关保留项目的完整列表，请访问 Python核心开发站点。如果您具备足够的探索精神愿意深入研究所有的 PEP，那么您一定能够从中获得更深入的信息。
　　本系列的下一期文章将会涵盖更高级的主题，比如元类语法、ABC、修饰符、integer literal 支持、基类型和异常。
　　
学习

您可以参阅本文在 developerWorks 全球网站上的英文原文。
有关 format specifier 的完整语法，请访问Python 核心开发站点。
阅读相关的 Python 3 PEP：
- PEP 3111：Simple input built-in in Python 3000
- PEP 3116：New I/O
- PEP 3138：String representation in Python 3000
- PEP 3112：Bytes literals in Python 3000
- PEP 3137：Immutable Bytes and Mutable Buffer
- PEP 3106：Revamping dict.keys(), .values() & .items()
- PEP 3108：Standard Library Reorganization
- PEP 3100：Miscellaneous Python 3.0 Plans
请参阅 Wikipedia 上的元类。
查阅计算机课程，包括 Wikipedia 上的抽象类。
阅读Guido van Rossum 的论文。
了解 Python 的惟一元素的无序集合或集。
在developerWorks Linux 专区寻找为 Linux 开发人员（包括Linux 新手入门）准备的更多参考资料，查阅我们最受欢迎的文章和教程。
在 developerWorks 上查阅所有Linux 技巧和Linux 教程。
随时关注developerWorks 技术活动和网络广播。

　　

获得产品和技术

获得Python的最新版本。
利用可直接从 developerWorks 下载的IBM 试用软件构建您的下一个 Linux 开发项目。

　　

讨论

通过 blogs、论坛、podcast 和空间加入developerWorks 社区。


		Cesar Otero 是一名 Java 和 Python 顾问。他具有电气工程学位并兼修了数学

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python 3 的新特性

浏览过的版块

扫码加入运维网微信交流群