A blog for sharing my thoughts and knowledge
Reading time ~1 minute
python2.X版本在处理中文文件读写时经常会遇到乱码或者是UnicodeError错误,正如下面的程序所示:
#coding=utf-8 # test.txt是一个以gbk2312编码(简体中文windows系统中的默认文本编码)的文本文件 # 文本写入 with open('test.txt', 'a') as f: f.write('test') # 正常写入 f.write('测试') # 正常写入,乱码 f.write(u’测试') # 写入错误,触发UnicodeEncodeError异常 # 文本读取 with open('test.txt') as f: for line in f: print line, type(line) # 输出test娴嬭瘯, <type 'str'>
由于脚本源文件中的字符为utf-8编码,而文本文档中的字符为gb2312编码,所以以str类型字符串直接写入文件,此时str字符串的编码与文件编码不同,导致乱码。 直接str类型参数传递给write方法容易导致乱码问题,直接传递Unicode类型字符串作为write的参数,会导致UnicodeEncodeError错误,这是因为python2在写入unicode字符串时会自动尝试转码为ascii编码,而ascii编码并不能处理中文。 知道了问题的根源,首先想到的解决方法就是对源字符串按照文件进行编码,保证编码正确。
# 解决方法1 with open('test.txt', 'w') as f: f.write('测试'.decode('utf-8').encode('gb2312')) f.write(u'测试‘.ecode('gb2312')