V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lxrmido
V2EX  ›  问与答

怎样识别出一个包含列表的页面里边哪一些是列表?

  •  
  •   lxrmido · 2015-08-25 15:58:04 +08:00 · 1461 次点击
    这是一个创建于 3379 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这是个关于数据采集的问题,目标是传进一个地址自动从里边抓取出文章列表而不需要额外的配置或者书写额外的规则,请问有这方面的文章或者开源项目或者解决思路吗?
    -
    现在我的解决思路是:
    1 、把页面解析为 DOM 树;
    2 、递归判断每个节点是否存在相似的子树,存在则认为是列表。
    -
    然而在“相似”这一问题上,遇上了一些问题,起初,我是根据 XPATH 或者 CSSPATH 递归标记每棵树,譬如对于:
    <div><div>TITLE<div><div></div><a></a></div>
    可以标记为(div (div ((text )(div )))(a ))这样的玩意(栗子)
    但是某些时候,列表中的某些项目可能存在一些干扰,譬如 strong 标签,譬如手滑出来的、不影响显示外观的多余标签
    -
    求教
    1 条回复    2015-08-25 16:38:45 +08:00
    ZHenJ
        1
    ZHenJ  
       2015-08-25 16:38:45 +08:00
    Beautiful Soup ?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2677 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 15:23 · PVG 23:23 · LAX 07:23 · JFK 10:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.