爬取若干个指定知乎用户的所有的回答(某些用户的回答可能超过 2000 条)和所有文章内容并重新加工处理后保存。
爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。
爬取这个文章的"标题"和"正文"内容。
“问题”和"标题"是普通文本即可。
“答案”和"正文"需要是 html 格式,即这一段内容要可以直接插入到网页代码中并能正常显示。
答案”和"正文"中的图片需要被下载,然后以新的地址重新插入到正文中,不需要去水印。
对于“答案”和"正文"中的图片链接,需要下载该图片并重新命名然后保存到文件夹中,然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png
, 确保图片能够在正文中被正确显示。
直接保留即可
500 人民币
1 周以内
hexor_
1
hhhfffhhh 2020-04-04 14:13:40 +08:00 via iPhone 1
少打一个 0
|
2
aWangami 2020-04-04 14:28:00 +08:00 via Android
7 天除 500 相当于每天 80 都不到,这价格相当公道呀
|
3
jugelizi 2020-04-04 14:29:41 +08:00
来羞辱的?
楼下怎么说 |
4
murmur 2020-04-04 14:31:42 +08:00
500 快钱拿到知乎的核心数据?若干后面没括号呢,没写某若干可能超过几万人
|
5
limuyan44 2020-04-04 15:13:36 +08:00
鬼鬼,这工作量也太小了,楼下上。
|
6
tojonozomi 2020-04-04 15:34:17 +08:00
@hhhfffhhh 多一个 0 都不一定有人干吧
|
7
wsz66 2020-04-04 15:35:01 +08:00 via Android
赚大了,让给楼下了
|
8
0xABCD 2020-04-04 15:39:19 +08:00 via Android
500,高薪啊
|
9
fengfuliu 2020-04-04 15:40:34 +08:00
知乎是拒绝蜘蛛协议的 爬的话很有可能违法
|
10
nieyujiang 2020-04-04 15:46:59 +08:00 via iPhone
空手套爬虫?
|
11
fhsan 2020-04-04 15:52:27 +08:00
这种网上一大把,自己找找改改就有
比如什么抖音直播打赏时时统计,就算有,小心坐牢 |
12
superrichman 2020-04-04 16:06:59 +08:00 via iPhone 1
这中间商赚了多少差价?
|
13
hfutzj 2020-04-04 16:20:39 +08:00
价格不清楚,不过你这个需求感觉不像正经事
|
14
airqj 2020-04-04 16:23:38 +08:00 via Android
哈哈 四年前的问答数据楼主要吗
|
15
DeWhite 2020-04-04 20:55:11 +08:00
若干是多少呀,就算写完了能爬的量也有可能超过若干。
还得优化,500 快太多就不好爬了得改。 |
16
hexor OP 工作已经完成,顺便回答以上问题。
我爬的号都是公司自己的号( 10 个左右),现在想把这些号回答的内容保存下来放到我们自己公司的网站上,只是有几千个回答,知乎又不支持数据导出所以我只能这样。 我开这个价也不是想请人来写代码,因为我知道有很多人在爬知乎的数据,所以我只是找人顺便用他已经做好的工具帮我爬一下而已。 所以 500 这个价格,就是 2 个小时工作量左右,工作量主要是在跟我沟通而不是实现技术细节。 这个外包已经做完了,工作时间也就 1 个小时左右。 |
17
jayli517 2020-04-05 04:47:41 +08:00
嗯,只要是有现成知乎爬虫的,提供一下数据就可以了。我这有现成爬虫团队的,感觉以后也可以接点小活给兄弟们增加点外快
|
18
hsluoyz 2020-04-05 13:06:55 +08:00
知乎没有反爬措施么
|
19
changwei 2020-04-05 15:25:43 +08:00
这网站里面就有知乎的员工,你这价格不怕人家员工直接加 vx 来找你聊天,然后发聊天记录给知乎公司的法务看?
|
20
TimeRain 2020-04-05 19:27:24 +08:00
吃牢饭警告
|