设为首页 收藏本站
查看: 879|回复: 0

[经验分享] 基于Huffman编码的压缩软件的Python实现

[复制链接]

尚未签到

发表于 2017-5-7 13:50:37 | 显示全部楼层 |阅读模式
哈夫曼编码是利用贪心算法进行文本压缩的算法,其算法思想是首先统计文件中各字符出现的次数,保存到数组中,然后将各字符按照次数升序排序,挑选次数最小的两个元素进行连结形成子树,子树的次数等于两节点的次数之和,接着把两个元素从数组删除,将子树放入数组,重新排序,重复以上步骤。为了解压,在压缩时首先往文件中填入huffman编码的映射表的长度,该表的序列化字符串,编码字符串分组后最后一组的长度(编码后字符串长度模上分组长度),最后再填充编码后的字符串。本算法中以一个字节,8位作为分组长度,将编码后二进制字符串一一分组。代码如下:



__author__ = 'linfuyuan'
import struct
import pickle
type = int(raw_input('please input the type number(0 for compress, 1 for decompress):'))
file = raw_input('please input the filepath:')

class Node:
def __init__(self):
self.value = ''
self.left = None
self.right = None
self.frequency = 0
self.code = ''

# let the unique value be the key in the map
def change_value_to_key(huffmap):
map = {}
for (key, value) in huffmap.items():
map[value] = key
return map

if type == 0:
origindata = ''
# count the frequency of each letter
lettermap = {}
def give_code(node):
if node.left:
node.left.code = '%s%s' % (node.code, '0')
give_code(node.left)
if node.right:
node.right.code = '%s%s' % (node.code, '1')
give_code(node.right)

def print_code(node):
if not node.left and not node.right:
print "%s %s" % (node.value, node.code)
if node.left:
print_code(node.left)
if node.right:
print_code(node.right)

def save_code(map, node):
if not node.left and not node.right:
map[node.value] = node.code
if node.left:
save_code(map, node.left)
if node.right:
save_code(map, node.right)

with open(file)as f:
for line in f.readlines():
origindata += line
for j in line:
if lettermap.get(j):
lettermap[j] += 1
else:
lettermap[j] = 1
nodelist = []
for (key, value) in lettermap.items():
node = Node()
node.value = key
node.frequency = value
nodelist.append(node)
nodelist.sort(cmp=lambda n1, n2: cmp(n1.frequency, n2.frequency))
for i in range(len(nodelist) - 1):
node1 = nodelist[0]
node2 = nodelist[1]
node = Node()
node.left = node1
node.right = node2
node.frequency = node1.frequency + node2.frequency
nodelist[0] = node
nodelist.pop(1)
nodelist.sort(cmp=lambda n1, n2: cmp(n1.frequency, n2.frequency))
# give the code
root = nodelist[0]
give_code(root)
huffman_map = {}
# save the node code to a map
save_code(huffman_map, root)
code_data = ''
for letter in origindata:
code_data += huffman_map[letter]
output_data = ''
f = open('%s_compress' % file, 'wb')
huffman_map_bytes = pickle.dumps(huffman_map)
f.write(struct.pack('I', len(huffman_map_bytes)))
f.write(struct.pack('%ds' % len(huffman_map_bytes), huffman_map_bytes))
f.write(struct.pack('B', len(code_data) % 8))
for i in range(0, len(code_data), 8):
if i + 8 < len(code_data):
f.write(struct.pack('B', int(code_data[i:i + 8], 2)))
else:
# padding
f.write(struct.pack('B', int(code_data[i:], 2)))
f.close()
print 'finished compressing'
if type == 1:
f = open(file, 'rb')
size = struct.unpack('I', f.read(4))[0]
huffman_map = pickle.loads(f.read(size))
left = struct.unpack('B', f.read(1))[0]
data = f.read(1)
datalist = []
while not data == '':
bdata = bin(struct.unpack('B', data)[0])[2:]
datalist.append(bdata)
data = f.read(1)
f.close()
for i in range(len(datalist) - 1):
datalist = '%s%s' % ('0' * (8 - len(datalist)), datalist)
datalist[-1] = '%s%s' % ('0' * (left - len(datalist[-1])), datalist[-1])
encode_data = ''.join(datalist)
current_code = ''
huffman_map = change_value_to_key(huffman_map)
f = open('%s_origin' % file, 'w')
for letter in encode_data:
current_code += letter
if huffman_map.get(current_code):
f.write(huffman_map[current_code])
current_code = ''
f.close()
print 'finished decompressing'
raw_input('please press any key to quit')



  代码中有用到pickle模块进行对象序列化,还有struct模块进行读写二进制文件。
  
由于算法中运算量最⼤的地⽅在于循环⾥嵌套了排序,故算法的时间复杂度是O(n2logn)

经过压缩后,文件大⼩小分别为110KB931KB。原来⼤⼩为190KB
2.1MB,压缩效果明显。

  希望对大家有用。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-374261-1-1.html 上篇帖子: Python写的一个sql查询,返回字段和数值,有序 下篇帖子: 用python客户端去访问webservice (基于suds)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表