经常看到 html 源码有这种你好你好 编码。求用 Python 把中文转成这个编码的实现方法

>>> import html.parser
>>> h = html.parser.HTMLParser()
>>> s = h.unescape('© 2010')
>>> s
u'\xa9 2010'
>>> print s
© 2010
>>> s = h.unescape('© 2010')
>>> s
u'\xa9 2010'

>>> '袈'.encode("unicode-escape")
b'\\u8888'
>>> chr(int('8888', 16))
'袈'

>>> h.unescape('♥')
'♥'
>>> h.unescape('♥')
'♥'
>>> h.unescape('&hearts;')
'♥'
>>> '♥'.encode("unicode-escape")
b'\\u2665'
>>> chr(int('2665', 16))
'♥'

>>> import html.entities as h
>>> h.name2codepoint['hearts']
9829

>>> a='汉字먀니'.encode('utf-8')
>>> b=re.findall(b'\xe4[\xb8-\xff][\x00-\xff]|[\xe5-\xe8][\x00-\xff][\x00-\xff]|\xe9[\x00-\xbe][\x00-\xff]', a)
>>> b
[b'\xe6\xb1\x89', b'\xe5\xad\x97']

Sanko

2017-08-31 07:39:20 +08:00 via Android

前几天刚好碰到这个坑
你可以看下我写的[https://ghosx.github.io/2017/08/14/html%E8%BD%AC%E4%B9%89%E5%BA%8F%E5%88%97%E8%BD%AC%E6%B1%89%E5%AD%97/](点我)

yucongo

2017-09-04 19:16:33 +08:00

import html; html.unescape('你好你好') # '你好你好'

'你好你好'.encode("ascii", errors='xmlcharrefreplace').decode("ascii") # '你好你好' # 10 进制，上面的 你好你好 是 16 进制

html.unescape('你好你好') # '你好你好'

经常看到 html 源码有这种&#x4F60;&#x597D;&#x4F60;&#x597D; 编码。求用 Python 把中文转成这个编码的实现方法

经常看到 html 源码有这种你好你好编码。求用 Python 把中文转成这个编码的实现方法