这是一个创建于 4088 天前的主题,其中的信息可能已经有所发展或是发生改变。
我现在在做一个项目,用BeautifulSoup从网上抓一些数据。虽然BeautifulSoup的构造方法里面有一个fromencoding的参数,但是我也不知道是不是指定了这个参数之后获得的unicode是不是就是"utf-8"了。
然后我曾经在python的文档里面看到,python内部处理的时候应该用unicode来处理,而不是string,换句话说越晚调用encode("utf-8")越好。那我就比较费解了,如果说这个unicode对象有可能是utf-8的,也可能是gbk的,那么在程序里面越后面的代码就越难区别这个unicode的编码是什么?那这个问题怎么解决呢?如果及早地转换成string就不存在这个问题。
4 条回复 • 1970-01-01 08:00:00 +08:00
|
|
2
ritksm 2013-07-08 10:43:33 +08:00 1
unicode对象怎么可能是gbk的 只有bytes(也就是所谓string呗)才能说是“用gbk编码的”吧
|
|
|
3
swulling 2013-07-08 10:50:19 +08:00 1
你应该先了解下Python2中的Unicode,就不会说 Unicode可能是gbk了。。。
|