又一个天马行空的爬虫需求大佬们来分析一下

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2608 天前的主题，其中的信息可能已经有所发展或是发生改变。

leader 让我写这么个爬虫爬取目标是文章、新闻、资讯。

初始给我个关键词库，关键词千奇百怪，可能是挖掘机哪家强也可能是个商品名、也可能是个公司名、网站名、地名各种奇奇怪怪的词语句子。

然后让我用这些词在 B 家上搜索，把是新闻的页面的新闻内容爬取下来。

从几个角度分析一下可行性?

首先我得先能识别他是不是新闻，其次是我得识别出他标题和内容在哪个标签里抽取出来，在这是这么搞的效率问题，一天能有多少产出。

我试着拿几个词搜了一下，前几页看到新闻的几率渺茫，而且从新闻类目下搜大部分词也搜不到新闻，就算搜到了也词不对题。。

爬虫

新闻

dalao

识别

15 条回复 • 2018-02-11 16:08:49 +08:00

cdwyd

2018-02-11 11:25:21 +08:00 via Android

百度不是有个百度新闻，去那里搜出来的都是新闻吧

2ME

2018-02-11 11:28:22 +08:00

@cdwyd 最后写了从新闻类目下搜大部分词也搜不到新闻，就算搜到了也词不对题主要是关键词不一定是词大部分情况下都是啥都搜不到

fire0594

2018-02-11 12:46:16 +08:00 via iPhone

从页面自动抽取标题和内容，python 有 goose 和 readability 两个库

4BVL25L90W260T9U

2018-02-11 12:58:06 +08:00 via Android

你这不是爬虫问题，是文本分类，也就是 nlp 的问题

tttwww18

2018-02-11 13:10:03 +08:00

搜索引擎的 SERP 里面会有一些相对固定的返回模式，可以据此判断该 query 是否属于 news domain 然后再做提取处理。

2ME

2018-02-11 13:30:35 +08:00

@ospider 判断一个源是不是新闻不一定要 nlp 应该也可以从标记样式页面结构之类的入手吧不过 nlp 对于我这个脚本仔来说确实太难了

soulmine

2018-02-11 13:54:46 +08:00

咱有个办法呀你可以换个思路呀比如你广撒网然后爬十几二十个新闻网站然后拿标题和你的那些关键词对比看符不符合不就行了 ww 在或者说你去新闻这种地方去搜搜？

miniliuke

2018-02-11 13:58:45 +08:00 via Android

你找几家大的新闻网站，或者头条之类的。里面都是新闻，而且新闻网不都是我抄你，你抄我吗

2ME

2018-02-11 13:59:41 +08:00

@soulmine 这种思路被 leader 做为没有办法的办法 - - 需求内容一般都是 to B 的有些新闻源都被爬烂了

2ME

2018-02-11 14:01:23 +08:00

@miniliuke B2B 的新闻资讯和头条 163 这些不太搭边不然直接爬这些新闻站就完了需求用百度搜就是想爬一些小企业站的原创伪原创吧估计

Pinwheel

2018-02-11 15:37:18 +08:00

我们也有这样的需求，用关键词去搜索引擎搜索，不过我们是要做更细的历史、体育之类更加细分的东西。

先去爬门户网站的特定栏目数据作为样本，分词统计概率，再将从搜索引擎抓下来的内容用贝叶斯分类去找概率最高的，基本可以满足要求。

miniliuke

2018-02-11 15:47:48 +08:00 via Android

@Pinwheel 我感觉他是想要企业新闻类似的，一般企业新闻不会在新闻站中出现。只有大部分只有企业官网上有......就怕各个企业发稿天马行空

2ME

2018-02-11 15:57:58 +08:00

@miniliuke 是这需求
@Pinwheel 我是 SEO 爬完按 DM25 匹配一下就行了别的对我来说就超纲了 = =

2ME

2018-02-11 16:08:27 +08:00

#13 DM25 -> BM25

insoxin

2018-02-11 16:08:49 +08:00 via Android

我 https://api.isoyu.com/demo/#/

又一个天马行空的爬虫需求 大佬们来分析一下

又一个天马行空的爬虫需求大佬们来分析一下