leader 让我写这么个爬虫 爬取目标是文章、新闻、资讯。
初始给我个关键词库,关键词千奇百怪,可能是挖掘机哪家强也可能是个商品名、也可能是个公司名、网站名、地名各种奇奇怪怪的词语句子。
然后让我用这些词在 B 家上搜索,把是新闻的页面的新闻内容爬取下来。
从几个角度分析一下可行性?
首先我得先能识别他是不是新闻,其次是我得识别出他标题和内容在哪个标签里抽取出来,在这是这么搞的效率问题,一天能有多少产出。
我试着拿几个词搜了一下,前几页看到新闻的几率渺茫,而且从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题。。
1
cdwyd 2018-02-11 11:25:21 +08:00 via Android
百度不是有个百度新闻,去那里搜出来的都是新闻吧
|
2
2ME OP @cdwyd 最后写了 从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题 主要是关键词不一定是词 大部分情况下都是啥都搜不到
|
3
fire0594 2018-02-11 12:46:16 +08:00 via iPhone 2
从页面自动抽取标题和内容,python 有 goose 和 readability 两个库
|
4
ospider 2018-02-11 12:58:06 +08:00 via Android
你这不是爬虫问题,是文本分类,也就是 nlp 的问题
|
5
tttwww18 2018-02-11 13:10:03 +08:00
搜索引擎的 SERP 里面会有一些相对固定的返回模式,可以据此判断该 query 是否属于 news domain 然后再做提取处理。
|
6
2ME OP @ospider 判断一个源是不是新闻不一定要 nlp 应该也可以从标记样式页面结构之类的入手吧 不过 nlp 对于我这个脚本仔来说确实太难了
|
7
soulmine 2018-02-11 13:54:46 +08:00
咱有个办法呀 你可以换个思路呀 比如你广撒网 然后爬十几二十个新闻网站 然后拿标题和你的那些关键词对比 看符不符合不就行了 ww 在或者说你去新闻这种地方去搜搜?
|
8
miniliuke 2018-02-11 13:58:45 +08:00 via Android
你找几家大的新闻网站,或者头条之类的。里面都是新闻,而且新闻网不都是我抄你,你抄我吗
|
10
2ME OP @miniliuke B2B 的新闻资讯 和头条 163 这些不太搭边 不然直接爬这些新闻站就完了 需求用百度搜就是想爬一些小企业站的原创伪原创吧估计
|
11
Pinwheel 2018-02-11 15:37:18 +08:00
我们也有这样的需求,用关键词去搜索引擎搜索,不过我们是要做更细的历史、体育之类更加细分的东西。
先去爬门户网站的特定栏目数据作为样本,分词统计概率,再将从搜索引擎抓下来的内容用贝叶斯分类去找概率最高的,基本可以满足要求。 |
12
miniliuke 2018-02-11 15:47:48 +08:00 via Android
@Pinwheel 我感觉他是想要企业新闻类似的,一般企业新闻不会在新闻站中出现。只有大部分只有企业官网上有......就怕各个企业发稿天马行空
|
13
2ME OP |
14
2ME OP #13 DM25 -> BM25
|
15
insoxin 2018-02-11 16:08:49 +08:00 via Android
|