baozaodexiaomila

@jamos 确实是，目前有可利用的大模型吗？我用过 Crawl4ai 和 firecrawl ，觉得解析效果比较差劲，目前有什么比较好的大模型结合大批量数据采集的方案呢？
还有就是，基于我目前的经验，数据采集的流程，从网站分析，脚本开发，网站采集，数据解析，数据入库，这几个阶段，能想到大模型在数据采集流程上的利用，似乎只有在最后数据解析这里能派上用场，脚本开发是不是也可以利用？当下有什么好的结合方式吗？

37 天前

回复了 baozaodexiaomila 创建的主题 › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@Lockroach
谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

37 天前

回复了 baozaodexiaomila 创建的主题 › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

62 天前

回复了 dbow 创建的主题 › 职场话题 › 搞爬虫的去面试了一下被爬的大厂

可是大厂不是也在招爬虫吗🤣

62 天前

回复了 bwijn 创建的主题 › Python › scrapy 的 item 队列把内存挤爆

理论上 pipeline 这里只做数据存储过程，其他业务相关的东西不应该对抓取的结果进行处理，先将 item 通过 pipeline 存到 mongodb 或者 redis 等数据库中，这里作为原始数据，后续的操作应当在这个数据库上搞一个业务数据库来进行处理，就算不另外搞一个数据库，那么业务操作也应该开启新的进程去单独处理数据

» baozaodexiaomila 创建的更多回复