1
xwayway 2022-06-21 14:11:43 +08:00 13
[估计没啥技术含量] 这个话说得我好怕……这是搜索引擎的数据,拿回来还要清洗后再吐出去,清洗规则估计要做成,我想怎么配置就怎么配置。然后还要自己的模板风格,有 ui 设计了吗?估计也是坑,等人跳。整个程序就 2-3 个文件,,,我也觉得百度谷歌挺简单的,就一个搜索框页面,一个搜索结果展示页面。 坐等有缘人入坑
|
2
lshero 2022-06-21 14:15:34 +08:00
突破搜索引擎的反爬虫就是技术含量啊
本站对各种 SEO 优化的内容农场的态度还是比较负面的 |
3
omL72EEc 2022-06-21 14:18:14 +08:00 7
”我的想法挺简单的,做个淘宝京东之类的就行了“
|
4
tangknox1 OP @xwayway UI 风格不做都可以,就简单的 html 弄下输出数据,我自己改就行了。就一个小偷程序,我都说了没大预算,但是不等于说是几百块钱就打法了,我说成,您也不愿意对吧,所以最终价格还是要谈。至于需求,谈了你给个报价也行啊。有没有逼迫谁。哪里来的坑,如果谈好了需求和价格,完全可以去开源中国我先支付托管资金,或者先打钱给你定金也行啊。
|
5
tangknox1 OP @lshero 你先去 github 上搜下这个国外的搜索引擎吧,官网本身就有对外的 API 接口。免费。顶多加个在线代理功能罢了,
|
6
lower 2022-06-21 14:24:41 +08:00
这网站是干啥的啊?我挂着台湾代理,还不让我访问……
|
7
tangknox1 OP @omL72EEc curl 取个数据回来,很高深的技术吗?至于让你上升到 做个淘宝京东?搞得好像全球就您会或者就您懂编程一样,别人都不懂,你想把简单的说多高深都成对吧。。再说了,我也没说是对技术人员或者人为 PHP 廉价,也没不尊重吧,我自己技术不行小白一个,但是也不至于一点不懂吧,何况生意都是需要谈的,你觉得没我说的那么复杂,那你给个报价,我觉得预算能满足你的报价那就找你做对吧。。没必要阴阳怪气说这些。谁跟钱有仇啊
|
8
qwertyzzz 2022-06-21 14:27:42 +08:00
不是还有分页吗
|
10
janus77 2022-06-21 14:37:20 +08:00 1
直接说你最终想做个什么产品出来,不要用不专业的术语强行解释流程。
自己的风格是什么?需要设计吗?是否好看和成本挂钩 新的规则是谁给?我给的话随便给你能接受吗?有标准吗?标准和钱挂钩 输出是怎么输出?网页? app ?小程序?公众号? api ?还是直接给数据库文件?需要后台吗?需要开发者账号吗?这些都和钱挂钩 |
11
dwlovelife 2022-06-21 14:44:03 +08:00
·······你这个不是只抓那个红烧肉的搜索页吧 什么条件搜索页都得抓吧 咱姑且都抓第一页 就这一步 抓取数据的这一步就不是一件小工作
|
12
lshero 2022-06-21 14:44:35 +08:00
@tangknox1 大部分项目说的 API 都是 Unofficial API ,开放 API 和有风控并不冲突。加代理是不是得必须是原生 IP ,机房的 IP 行不行?采集前是否需要增加代理可用性检测和代理池更换代理的需求?这些做爬虫的前置条件不解决清除肯定没人愿意直接接单的。
|
13
tangknox1 OP @janus77 哥,不需要 UI ,最基础的 HTML 能输出数据就行,做好了我自己改风格样式就行了,就用 PHP 写个网页,txt 存储关键词,然后 curl 去这个搜索引擎网站抓检索结果第一页的数据回来,用正则规则清洗组合后前台输出就行了。不过你看下我贴里发的那个 URL ,邮件查看源代码,有 json 数据输出
比如,www.v2ex.com/?s=关键词 预算我可以适当放大,不过最终看你给的价格合适不合适 |
16
lshero 2022-06-21 14:59:13 +08:00
@qwertyzzz 原生代理有卖的价格比较贵基本都是按照流量收费的。
楼主的需求其实就是写个定时任务挂着代理把 https://api.qwant.com/v3/search/web?locale=zh_CN&q=需要搜索的内容&count=10&offset=0&device=desktop&safesearch=1 扒拉下来,然后选取一下合适的 Json 内容,写入他的 CMS 数据库生成静态页,然后搜索引擎里又会多一些大家感觉莫名其妙的网站了。 |
17
ppx199 2022-06-21 14:59:44 +08:00
自己先把需求理好吧,干多少活,拿多少钱。
再简单的活,工作量大也得加钱,活多钱少,傻子才干。 |
19
Cbdy 2022-06-21 15:10:56 +08:00
一股坑爹的气息
|
20
oploverliu2012 2022-06-21 15:13:04 +08:00
看着好像不难,就是需求太不明确了
|
21
ttgo 2022-06-21 15:21:18 +08:00
v 站有个传统,就是不管什么需求,回帖都得说:这是阿波罗登月啊!
报价一般从几百到几万几十万不等。 |
22
tangknox1 OP @lshero 差不多,就是 PHP 脚本里设置,请求抓取几次更换一个 IP ,避免抓取请求频率太高被封我服务器 IP ,不需要对接 CMS 数据库,1 个 post 请求 php ,写好规则,一个 接收数据显示脚本文件 php ,最好生成 php 缓存文件,前台输出调用缓存文件展示就可以避免多次抓取请求,缓存文件一次性,不需要更新缓存。
|
23
jorneyr 2022-06-21 15:23:23 +08:00
|
24
Tink 2022-06-21 15:27:47 +08:00
大概多少预算
|
25
keymao 2022-06-21 15:57:59 +08:00
python scrapy 不过还是没弄明白你的需求。
关键词是怎么设置 提前导入还是中间干涉,建议弄个需求文档理一理吧 需求大小先不说 云里雾里。 |
26
westoy 2022-06-21 16:13:34 +08:00
@tangknox1
他说的其实是好话啊, 建议你拿 ab 对着目标网站跑一下看看会不会被封, 小偷这种上古玩意儿说白了就是 webproxy 啊, 你想想现在 webproxy 都不多见了, 小偷基本没人用是因为正经网站基本没有不限制访问频次的, 有些还会根据前端特征判断你是不是真人, 像用一些 CDN 或者 CF 顶在前面的这类都是自带功能, 所以后网站时代做垃圾站也是搞的代理池采集入库那套, 有的还会上无头浏览器模拟真人访问, 你找人写这个, 很容易就是低频测试的时候一切正常, 上线了或者隔两天就不能用了, 到时候纠纷就更大了 |
27
ytll21 2022-06-21 16:18:52 +08:00 1
这是阿波罗登月啊!
|
29
shyrock 2022-06-21 16:27:50 +08:00
未经授权的爬虫是不是非法的?
如果 OP 被抓了,是不是程序员也要被顺藤摸瓜? |
30
xingjue 2022-06-21 16:28:49 +08:00
大冤种
|
31
lexin132 2022-06-21 16:32:03 +08:00
其实我觉得,你应该先说你的预算框定在什么范围,大家给你发邮件聊了半天需求,一通了解下来,预算几百块,那时间成本划不来
或者你大致列个需求清单,大家看完心理有个价位,然后报给你,两个人都能接受,大家再继续详谈 我看见好几个人上来就强调简单,容易,无非就是想看看能不能捡个便宜 |
32
BeforeTooLate 2022-06-21 16:52:11 +08:00
| 我小白,也不懂啥技术。
| 没啥负责的技术含量,估计整个程序就 2 到 3 个文件。 1.说自己小白就行,然后直接提需求就行,别人自然会来匹配你的需求,你为啥非要来一句这个东西没啥技术含量? 2.善意提醒小偷程序爬虫等可是违法的,跳坑的人自己把握 |
34
Saurichthys 2022-06-21 16:56:54 +08:00
没有技术含量,自己写不就完事了
|
35
nine 2022-06-21 17:02:10 +08:00
一万块钱我接了
|
36
learningman 2022-06-21 17:08:32 +08:00 via Android
@ttgo 因为任何不说清楚的任务,需求都可以加到阿波罗登月
|
37
king888 2022-06-21 17:13:03 +08:00 3
没有技术含量,自己写不就完事了 +1
|
38
king888 2022-06-21 17:17:19 +08:00
一般与这种想法的客户合作,不会存在长久合作关系的,说不定收尾结果都不会很好。因为想法完全不对等,一边觉得没技术含量,一边觉得我这就技术活。突然觉得写代码好卑微...
|
39
dilu 2022-06-21 17:38:39 +08:00
说实话,没有反讽的意思。
PHP 很简单,你这个抓数据也不复杂,几个正则调一下就行了。 所以你完全可以自己写的,没必要找人做。 甚至很多浏览器都有抓数据的插件,很方便的。 |
41
spicecch 2022-06-21 17:42:00 +08:00
做什么才有技术含量呢
|
42
ezreal 2022-06-21 17:46:05 +08:00
确实简单,就是不敢写爬虫
|
43
timeromantic 2022-06-21 18:49:55 +08:00
细品 OP 的发言:
1 ,“我小白,也不懂啥技术,估计是 curl 取数据,正则啥的过滤和清洗,最后组合下数据生成缓存页面,前台输出” 2 ,“curl 取个数据回来,很高深的技术吗?至于让你上升到 做个淘宝京东?搞得好像全球就您会或者就您懂编程一样,别人都不懂,你想把简单的说多高深都成对吧” 既然是小白,又说没啥技术含量?这不前后矛盾吗? 没有技术含量,自己写不就完事了 +1 |
45
tangknox1 OP @BeforeTooLate 谢谢,我知道自己的帖子有很多语病,不过这个站是国外的搜索引擎,应该没事儿。
|
46
tangknox1 OP @timeromantic 我真不是做后端的,PHP 就知道个 echo ,我是很早以前花了不到 2000 块钱找人写过一个搜狗图片小偷,就 1 个 php 脚本文件,那个 PHP 技术一上午就弄好发我了。而且我这两天也自己找教程试着做了下,但是卡在生成缓存然后前台怎么调用 php 缓存文件展示,我不会弄这个了,所以也算是知道一点点,这不想着应该不难吧。但是得找专业 PHP 人员搞不是吗。
|
47
MrWhite 2022-06-22 20:19:13 +08:00
@king888 对头。而且提醒跳坑的人一定要先要一部分押金然后需求谈清楚。以前就遇到这种的 也动不动就说没多少,又不难,不就是一个按钮吗? 最后又加功能,然后还扯皮说本来就是包含在内的。。
|
48
a570295535 2022-06-24 11:53:35 +08:00 via Android
淘宝 50 块起步,最多 200 块就能做好。
|