V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐关注
Meteor
JSLint - a JavaScript code quality tool
jsFiddle
D3.js
WebStorm
推荐书目
JavaScript 权威指南第 5 版
Closure: The Definitive Guide
vicwutaojun
V2EX  ›  JavaScript

求助 现成的正文节点判定的JS库

  •  
  •   vicwutaojun · 2012-10-26 14:31:43 +08:00 · 4226 次点击
    这是一个创建于 4409 天前的主题,其中的信息可能已经有所发展或是发生改变。
    任意网页内容的正文抽取怎么做?有没有现成的正文节点判定的JS库?

    希望找一个可靠的普适的网页正文节点判断的方法或者实现。估计做搜索、推荐系统、网络爬虫的都会需要。

    求大侠支招。
    12 条回复    2023-01-03 17:06:31 +08:00
    leojoy710
        1
    leojoy710  
       2012-10-26 14:38:02 +08:00   ❤️ 1
    vicwutaojun
        2
    vicwutaojun  
    OP
       2012-10-26 15:19:51 +08:00
    @leojoy710 不知道您有没有用过他的这个实现?日文,偶不懂啊:)
    dingstyle
        3
    dingstyle  
       2012-10-26 15:28:09 +08:00   ❤️ 1
    leojoy710
        4
    leojoy710  
       2012-10-26 15:39:07 +08:00
    @vicwutaojun evernote之前的chrome插件就是用的这个...现在的没关注了
    至于日语...看看代码应该挺好懂的...正文识别的准确率也还不错...
    vicwutaojun
        5
    vicwutaojun  
    OP
       2012-10-26 15:49:16 +08:00
    @leojoy710 原来clearly是基于这个的,那就应该没有问题了。哈哈,非常感谢!不知哥你主要做哪方面呢?
    leojoy710
        6
    leojoy710  
       2012-10-26 15:55:02 +08:00
    @vicwutaojun 不是clearly...我之前看的是那个webclipper...clearly没看过...
    vicwutaojun
        7
    vicwutaojun  
    OP
       2012-10-26 17:05:05 +08:00
    @dingstyle 好像还不错,我待会看看。
    cattail
        8
    cattail  
       2012-11-28 18:51:45 +08:00   ❤️ 2
    这是我经过查阅大量资料得出的结论,可以看下。
    http://cattail2012.wordpress.com/2012/11/26/%E6%AD%A3%E6%96%87%E6%8F%90%E5%8F%96/
    gockxml
        9
    gockxml  
       2012-12-26 13:30:13 +08:00
    @cattail Clearly说的不准确,因为我曾经几乎一行一行读过Clearly的代码。它的做法是:先根据类似于标签/链接密度的方法得到最可能的正文块,因为正文块里也可能包换密集的链接块/小图片/iframe广告等,它再针对正文块做一次过滤。关于正文块的相关方法,例如exploreNodeAndGetStuff, processCandidates
    vicwutaojun
        10
    vicwutaojun  
    OP
       2012-12-29 09:42:35 +08:00
    @gockxml 哈哈,可否问一下你当时因为什么做正文节点判断或者正文抽取?
    gockxml
        11
    gockxml  
       2012-12-29 20:30:25 +08:00
    @vicwu 哈哈,大概下周或下下周就在V2EX发布,敬请期待~:)
    wenguangfe
        12
    wenguangfe  
       2023-01-03 17:06:31 +08:00
    我开发的扩展就是基于自己研发的识别算法。目前遇到的问题是盈利模式,看到题主说 搜索、推荐系统、网络爬虫,这些可以详细展开说说吗?感兴趣的小伙伴也可以下载体验识别能力 https://chrome.google.com/webstore/detail/circle-reader/dhpfcgilccfkodnhbllpiaabofjbjcbg
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1143 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 18:34 · PVG 02:34 · LAX 10:34 · JFK 13:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.