文章内容提取的技术是什么

看来每隔一段时间就要把我的这个库拿出来晒晒了： https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor
刚开始的目标是提取 hacker news 上所有新闻的正文，现在已经工作的很好，大部分网站的正文都可以提取。
主要思想是根据各种因素给网页的每个 DOM 打分，最终最高分就最有可能是正文。

misaka19000

2019-09-25 10:18:31 +08:00

evernote 的浏览器插件就能做到提取文章的正文内容，感觉还挺好的

izoabr

2019-09-25 10:19:48 +08:00

经常只能显示标题，腾讯和阿里云都这破德行，骗 PV 的

MaiKuraki

2019-09-25 10:21:08 +08:00

不就是爬虫吗

TimePPT

2019-09-25 10:28:07 +08:00

正文判断+摘要抽取

xiefangzhenz

2019-09-25 10:40:04 +08:00

@locbytes 感谢大神，我看看

xud

2019-09-25 10:48:28 +08:00

对于 Web 信息检索来说，可以说是算作网页正文抽取，方法有很多种。一类是基于 Dom 树来做，也可以基于标记窗继续识别，还有基于网页分割技术的，再者就是基于数据挖掘或者机器学习，使用文本分类、聚类这种来实现，有一些比如基于行块分布函数这种也是可以直接对网页正文进行提取。

xiefangzhenz

2019-09-25 10:50:51 +08:00

@CRUD 想做一个不固定网页的抽取。。。

xiefangzhenz

2019-09-25 10:51:45 +08:00

@zdnyp 有具体的框架或者资源吗

xiefangzhenz

2019-09-25 10:54:14 +08:00

@polythene 谢谢大神。。我瞅瞅

xiefangzhenz

2019-09-25 10:54:34 +08:00

嗯，想找个算法自己做个这样的网站

xiefangzhenz

2019-09-25 10:54:55 +08:00

@izoabr 嗯，我被他们欺骗了。。。所以我也想搞个这样的

xiefangzhenz

2019-09-25 10:55:08 +08:00

@MaiKuraki 有详细的资料吗

xiefangzhenz

2019-09-25 10:55:24 +08:00

@TimePPT 在度娘如何找寻着方面资料呢。。。

xiefangzhenz

2019-09-25 10:56:03 +08:00

@xud 我现在想要白嫖，这种资料一般哪些网站多点或者有相应的框架吗

irvinghua

2019-09-25 10:56:14 +08:00

python 里面利用深度学习，提取文章摘要，关键词，这种 nlp 库不要太多，如 bert，ernie

xiefangzhenz

2019-09-25 10:56:31 +08:00

嗯好，我看下

izoabr

2019-09-25 11:09:52 +08:00

那简单，找几百篇不同类型的文章，然后用结巴分一下词。

然后用这些词生成一堆静态页出来，记得加 keyword 和 description 哦

甚至更绝的可以用参数传这个词进去现生成，但索引收录时怎么弄就不清楚了。

Lcys

2019-09-25 11:11:26 +08:00

goose

mrweiwei

2019-09-25 11:17:47 +08:00

我之前用 node 写过一个类似的应用，文章内容的提取用到了 node-readability 和 phantom 这两个库，效果对大部分网站来说还行，项目地址这里，可以看看 https://github.com/linguowei/micro-note

xiefangzhenz

2019-09-25 11:25:48 +08:00

要是全网搜索相关的文章，提取出主要内容，是不是就很难了

xiefangzhenz

2019-09-25 11:26:03 +08:00

我看看

TimePPT

2019-09-25 12:43:00 +08:00

@xiefangzhenz
文章全文判断 LS 有人给到方案了，拿到全文后做摘要生成可以参考下面这篇
《文本摘要简述》 https://www.jiqizhixin.com/articles/2019-03-25-7
类似论文很多，可以搜搜

zdnyp

2019-09-25 13:29:43 +08:00

@xiefangzhenz newspaper 百度一下有好些

itskingname

2019-09-25 13:34:57 +08:00

楼主看一下我的这个项目： https://github.com/kingname/GeneralNewsExtractor