V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
xiefangzhenz
V2EX  ›  Python

文章内容提取的技术是什么

  •  
  •   xiefangzhenz · 2019-09-25 09:39:12 +08:00 · 5725 次点击
    这是一个创建于 1886 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://cloud.tencent.com/developer/information/%E5%AE%89%E5%85%A8%E4%BA%91 https://readhub.cn/topics

    这种网站是通过什么技术或者框架实现的呢,一篇文章的核心内容被提取出来,然后展示。

    第 1 条附言  ·  2019-09-25 11:24:22 +08:00
    之前没说清楚,比如某个关键字(双缝干涉实验),从全网搜索文章,然后返回全网相关文章的一个列表(列表中是文章的核心内容)
    第 2 条附言  ·  2019-09-25 11:30:17 +08:00
    https://tech.qq.com/a/20190925/000743.htm 原文链接是这个,百度会直接提取出来,自己拼出一个主要内容,特别 NB。
    28 条回复    2019-09-25 13:34:57 +08:00
    22day
        1
    22day  
       2019-09-25 09:56:39 +08:00
    一篇文章的核心内容被提取出来,然后展示
    从提供的两个站点来看就是显示了标题和一定字数的正文内容,并不能算是提取了核心内容...
    python 做 web 开发的话可以看看 django 或 pylons 这类框架
    CRUD
        2
    CRUD  
       2019-09-25 10:04:58 +08:00
    楼主有没有想过文章发布的时候直接可以输入简介,或者没输入的话读取正文开头前一部分当作简介,并不是读取正文内容生成的..
    zdnyp
        3
    zdnyp  
       2019-09-25 10:10:46 +08:00   ❤️ 2
    遍历 dom 树,然后根据字符密度判断是否是正文
    polythene
        4
    polythene  
       2019-09-25 10:11:27 +08:00   ❤️ 1
    看来每隔一段时间就要把我的这个库拿出来晒晒了: https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor
    刚开始的目标是提取 hacker news 上所有新闻的正文,现在已经工作的很好,大部分网站的正文都可以提取。
    主要思想是根据各种因素给网页的每个 DOM 打分,最终最高分就最有可能是正文。
    misaka19000
        5
    misaka19000  
       2019-09-25 10:18:31 +08:00
    evernote 的浏览器插件就能做到提取文章的正文内容,感觉还挺好的
    izoabr
        6
    izoabr  
       2019-09-25 10:19:48 +08:00
    经常只能显示标题,腾讯和阿里云都这破德行,骗 PV 的
    MaiKuraki
        7
    MaiKuraki  
       2019-09-25 10:21:08 +08:00
    不就是爬虫吗
    TimePPT
        8
    TimePPT  
       2019-09-25 10:28:07 +08:00
    正文判断+摘要抽取
    xiefangzhenz
        9
    xiefangzhenz  
    OP
       2019-09-25 10:40:04 +08:00
    @locbytes 感谢大神,我看看
    xud
        10
    xud  
       2019-09-25 10:48:28 +08:00
    对于 Web 信息检索来说,可以说是算作网页正文抽取,方法有很多种。一类是基于 Dom 树来做,也可以基于标记窗继续识别,还有基于网页分割技术的,再者就是基于数据挖掘或者机器学习,使用文本分类、聚类这种来实现,有一些比如基于行块分布函数这种也是可以直接对网页正文进行提取。
    xiefangzhenz
        11
    xiefangzhenz  
    OP
       2019-09-25 10:50:51 +08:00
    @CRUD 想做一个不固定网页的抽取。。。
    xiefangzhenz
        12
    xiefangzhenz  
    OP
       2019-09-25 10:51:45 +08:00
    @zdnyp 有具体的框架或者资源吗
    xiefangzhenz
        13
    xiefangzhenz  
    OP
       2019-09-25 10:54:14 +08:00
    @polythene 谢谢大神。。我瞅瞅
    xiefangzhenz
        14
    xiefangzhenz  
    OP
       2019-09-25 10:54:34 +08:00
    嗯,想找个算法 自己做个这样的网站
    xiefangzhenz
        15
    xiefangzhenz  
    OP
       2019-09-25 10:54:55 +08:00
    @izoabr 嗯,我被他们欺骗了。。。所以我也想搞个这样的
    xiefangzhenz
        16
    xiefangzhenz  
    OP
       2019-09-25 10:55:08 +08:00
    @MaiKuraki 有详细的资料吗
    xiefangzhenz
        17
    xiefangzhenz  
    OP
       2019-09-25 10:55:24 +08:00
    @TimePPT 在度娘如何找寻着方面资料呢。。。
    xiefangzhenz
        18
    xiefangzhenz  
    OP
       2019-09-25 10:56:03 +08:00
    @xud 我现在想要白嫖,这种资料一般哪些网站多点或者有相应的框架吗
    irvinghua
        19
    irvinghua  
       2019-09-25 10:56:14 +08:00
    python 里面利用深度学习,提取文章摘要,关键词,这种 nlp 库不要太多,如 bert,ernie
    xiefangzhenz
        20
    xiefangzhenz  
    OP
       2019-09-25 10:56:31 +08:00
    嗯好,我看下
    izoabr
        21
    izoabr  
       2019-09-25 11:09:52 +08:00
    那简单,找几百篇不同类型的文章,然后用 结巴分一下词。

    然后用这些词生成一堆静态页出来,记得加 keyword 和 description 哦

    甚至更绝的可以用参数传这个词进去现生成,但索引收录时怎么弄就不清楚了。
    Lcys
        22
    Lcys  
       2019-09-25 11:11:26 +08:00
    goose
    mrweiwei
        23
    mrweiwei  
       2019-09-25 11:17:47 +08:00
    我之前用 node 写过一个类似的应用,文章内容的提取用到了 node-readability 和 phantom 这两个库,效果对大部分网站来说还行,项目地址这里,可以看看 https://github.com/linguowei/micro-note
    xiefangzhenz
        24
    xiefangzhenz  
    OP
       2019-09-25 11:25:48 +08:00
    要是全网搜索相关的文章,提取出主要内容,是不是就很难了
    xiefangzhenz
        25
    xiefangzhenz  
    OP
       2019-09-25 11:26:03 +08:00
    我看看
    TimePPT
        26
    TimePPT  
       2019-09-25 12:43:00 +08:00
    @xiefangzhenz
    文章全文判断 LS 有人给到方案了,拿到全文后做摘要生成可以参考下面这篇
    《文本摘要简述》 https://www.jiqizhixin.com/articles/2019-03-25-7
    类似论文很多,可以搜搜
    zdnyp
        27
    zdnyp  
       2019-09-25 13:29:43 +08:00
    @xiefangzhenz newspaper 百度一下有好些
    itskingname
        28
    itskingname  
       2019-09-25 13:34:57 +08:00
    楼主看一下我的这个项目: https://github.com/kingname/GeneralNewsExtractor
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1375 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 17:34 · PVG 01:34 · LAX 09:34 · JFK 12:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.