1
tension 2014-05-07 09:47:54 +08:00
转码!
|
2
catfan 2014-05-07 10:27:15 +08:00
mb_convert_encoding($title, 'UTF-8')
|
3
Actrace 2014-05-07 11:24:13 +08:00
mb_convert_encoding实际上不是一个比较好的方案。
|
4
alex321 2014-05-07 11:48:50 +08:00
检测一下编码,然后尝试对应转换,不要直接用 mb_convert_encoding。
|
5
kamal 2014-05-07 12:44:50 +08:00
检测网页内容编码,然后转码,不要只检测head声明的编码。
有可能head声明编码与内容实际编码不一致。 |
6
shiny 2014-05-07 12:47:37 +08:00 1
应该尽量模拟浏览器的识别:
1、识别 header 中的 content_type 附带的 charset 设置 2、如果没有,识别 meta 中的编码声明 3、html 里的 head 后面增加一个编码的声明,方便 DOMDocument 识别。 通过这些操作后,title 乱码的情况基本消灭。 代码在这里 https://github.com/shiny/PandaOpenNode/blob/master/upload/title.php |
8
shiny 2014-05-07 13:58:15 +08:00
@gangsta 试了下是可以抓的,你可以在 http://baidu.pandaidea.com/ 测试标题有没有正常抓取到,代码就是 github 上的。
|
10
shiny 2014-05-07 14:18:17 +08:00
@gangsta 没被墙吧。
这样,我做了个最小化的例子 你说的店铺首页应该就是一个店的首页吧? http://monitor.shiguanglu.com/demo/?url=http%3A%2F%2Fhztyhy.taobao.com |