1
cloverfisher OP |
2
timonwong 2013-03-14 08:13:06 +08:00
问题是网页中的这一行:
<?xml version="1.0" encoding="UTF-8"?> |
3
cloverfisher OP @timonwong 这一行有什么严重的问题么??真的没法解析本来就是utf-8的xml??那么如何解决这个问题呢
|
4
for4 2013-03-14 13:29:12 +08:00
r = requests.get('http://cn.shindanmaker.com')
用r.content 别用r.text |
5
timonwong 2013-03-14 14:14:24 +08:00 1
@cloverfisher
因为是字符串是unicode类型了(转码后的了), lxml找到encoding的相关申明还会尝试转到unicode一次,自然会失败,给这些解析器的都该是raw string. 所以请使用 @for4 介绍的 r.content |
6
cloverfisher OP @for4 谢谢~
|
7
cloverfisher OP @timonwong 3Q :)
|