V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gangsta
V2EX  ›  PHP

PHP 抓取网页 Title 中文乱码

  •  
  •   gangsta · 2014-05-07 09:41:48 +08:00 · 3639 次点击
    这是一个创建于 3883 天前的主题,其中的信息可能已经有所发展或是发生改变。
    StackOverflow上找了一大圈,这个似乎是最靠谱的,但有点不符国情

    function getPageTitle($url){
    $doc = new DOMDocument();
    @$doc->loadHTMLFile($url);
    $xpath = new DOMXPath($doc);
    return $xpath->query('//title')->item(0)->nodeValue;
    }

    大部分网站的title都可以抓到
    有一部分会乱码,比如淘宝(因为charset是gbk的缘故?),除了英文字符外汉字全是乱码
    有什么解决办法吗?
    11 条回复    2014-05-07 14:24:01 +08:00
    tension
        1
    tension  
       2014-05-07 09:47:54 +08:00
    转码!
    catfan
        2
    catfan  
       2014-05-07 10:27:15 +08:00
    mb_convert_encoding($title, 'UTF-8')
    Actrace
        3
    Actrace  
       2014-05-07 11:24:13 +08:00
    mb_convert_encoding实际上不是一个比较好的方案。
    alex321
        4
    alex321  
       2014-05-07 11:48:50 +08:00
    检测一下编码,然后尝试对应转换,不要直接用 mb_convert_encoding。
    kamal
        5
    kamal  
       2014-05-07 12:44:50 +08:00
    检测网页内容编码,然后转码,不要只检测head声明的编码。
    有可能head声明编码与内容实际编码不一致。
    shiny
        6
    shiny  
       2014-05-07 12:47:37 +08:00   ❤️ 1
    应该尽量模拟浏览器的识别:
    1、识别 header 中的 content_type 附带的 charset 设置
    2、如果没有,识别 meta 中的编码声明
    3、html 里的 head 后面增加一个编码的声明,方便 DOMDocument 识别。

    通过这些操作后,title 乱码的情况基本消灭。
    代码在这里 https://github.com/shiny/PandaOpenNode/blob/master/upload/title.php
    gangsta
        7
    gangsta  
    OP
       2014-05-07 13:04:10 +08:00
    @shiny
    试了下,很不错,大部分乱码都解决了

    淘宝店铺首页好像抓不了~~
    shiny
        8
    shiny  
       2014-05-07 13:58:15 +08:00
    @gangsta 试了下是可以抓的,你可以在 http://baidu.pandaidea.com/ 测试标题有没有正常抓取到,代码就是 github 上的。
    gangsta
        9
    gangsta  
    OP
       2014-05-07 14:11:06 +08:00
    @shiny 打不开,被墙了?
    shiny
        10
    shiny  
       2014-05-07 14:18:17 +08:00
    @gangsta 没被墙吧。
    这样,我做了个最小化的例子
    你说的店铺首页应该就是一个店的首页吧?

    http://monitor.shiguanglu.com/demo/?url=http%3A%2F%2Fhztyhy.taobao.com
    gangsta
        11
    gangsta  
    OP
       2014-05-07 14:24:01 +08:00
    @shiny

    你那边是OK的,我再检查下,再次感谢.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4546 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 10:08 · PVG 18:08 · LAX 02:08 · JFK 05:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.