V2EX › baozaodexiaomila 的所有回复

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

3 天前

回复了 baozaodexiaomila 创建的主题 › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@jamos 说的在理，只是实际情况爬虫需要处理网页多样化的数据提取，这部分工作目前剥离不开，既然剥不开这部分工作，那么需要采集大量网站时，网页非结构化数据解析就是最大工作量了

9 天前

回复了 baozaodexiaomila 创建的主题 › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@iYume 有好用的 LLM 适合解析网站目标数据吗？我试过 Crawl4ai 和 firecrawl 不太行，这两个库也是对接 openai 去实现解析的，我不太了解这方面，还请指教

9 天前

回复了 baozaodexiaomila 创建的主题 › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@ila 理论上来说，这个就是常规的落地方案，大部分人都会采用这种方式，不过不知道有没有可以结合 AI 的新的方案呢，感觉可以拓展一下哈哈

9 天前

回复了 baozaodexiaomila 创建的主题 › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@jamos 确实是，目前有可利用的大模型吗？我用过 Crawl4ai 和 firecrawl ，觉得解析效果比较差劲，目前有什么比较好的大模型结合大批量数据采集的方案呢？
还有就是，基于我目前的经验，数据采集的流程，从网站分析，脚本开发，网站采集，数据解析，数据入库，这几个阶段，能想到大模型在数据采集流程上的利用，似乎只有在最后数据解析这里能派上用场，脚本开发是不是也可以利用？当下有什么好的结合方式吗？

23 天前

回复了 baozaodexiaomila 创建的主题 › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@Lockroach
谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

23 天前

回复了 baozaodexiaomila 创建的主题 › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

48 天前

回复了 dbow 创建的主题 › 职场话题 › 搞爬虫的去面试了一下被爬的大厂

可是大厂不是也在招爬虫吗🤣

48 天前

回复了 bwijn 创建的主题 › Python › scrapy 的 item 队列把内存挤爆

理论上 pipeline 这里只做数据存储过程，其他业务相关的东西不应该对抓取的结果进行处理，先将 item 通过 pipeline 存到 mongodb 或者 redis 等数据库中，这里作为原始数据，后续的操作应当在这个数据库上搞一个业务数据库来进行处理，就算不另外搞一个数据库，那么业务操作也应该开启新的进程去单独处理数据