V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
schezukNewTos
V2EX  ›  程序员

原生 PHP 有没有容错性好的 XPath/DOM 处理方法,能分析有错误的 Html/Xml?

  •  
  •   schezukNewTos · 2015-05-27 14:27:18 +08:00 · 1959 次点击
    这是一个创建于 3468 天前的主题,其中的信息可能已经有所发展或是发生改变。

    光用正则不用Xpath/DOM,有些时候蛮抓瞎的,比如
    <span class='a'><span class='b'>bbb<span>aaaa<span>
    其中<span class='b'>bbb<span>有时不出现
    想提取出<span class='b'>bbb<span>aaaa很难啊……

    试了PHP的几个函数,似乎不支持有错误的Html/Xml?至少没有浏览器那么Robust的样子。
    比如http://share.dmhy.org 这种在https://validator.w3.org 能查出1776个错误的网页。
    原生PHP有没有办法解决?request_once引用外部库也行,只要不上框架,不用编译PHP。

    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2832 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 07:20 · PVG 15:20 · LAX 23:20 · JFK 02:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.