通过指定 remote-debugging-port 启动, 然后使用 python 的 selenium 方式控制 chrome 访问 allegro.pl
访问 https://bot.sannysoft.com/ 未检测到机器人特征
获取搜索结果使用的方式大致就是: driver.find_elements(By.CSS_SELECTOR, '[data-item="true"]')
在搜索结果页直接获取结果元素, 再进入下一个结果页, 就会被判定为机器人, 即使人机验证 pass 也会被封
试了下似乎手动滚动到底后使用上方说的语句就没有没封, 但是不太确定是否是侥幸
被封时候最多访问了两三个页面, 应该也不存在高频请求问题
所以问题是: 1.以该方式启动 chrome 的话, 还可能对网站暴露什么特征导致被发现是机器人? 2.网站有可能检测到 driver.find_elements 方法是否有运行吗?
1
qq78660651 2023-04-28 14:34:53 +08:00 via Android
所以大兄弟你后面怎么过检测的呢?我通过代理抓包他的信息流,然后人工点下一页,页数多了也会被封。
|