V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  youngce  ›  全部回复第 3 页 / 共 25 页
回复总数  495
1  2  3  4  5  6  7  8  9  10 ... 25  
chagtgpt3.5 如是说道:

当使用 Selenium 访问网站时遇到 403 错误(禁止访问)通常是因为网站检测到了你的请求不是来自一个正常的浏览器用户,而是来自一个自动化脚本或机器人。为了解决这个问题,你可以考虑以下几种方法:

1. **使用合适的 User-Agent**:User-Agent 是 HTTP 请求头中的一部分,它描述了你所使用的浏览器和操作系统。有时候,网站会检查 User-Agent ,如果它看起来像是来自一个爬虫或机器人的话,就会拒绝访问。你可以设置 User-Agent 来模仿一个正常的浏览器请求。

```python
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36")

driver = webdriver.Chrome(chrome_options=options)
```

2. **使用代理**:使用代理服务器可以隐藏你的真实 IP 地址,有时可以帮助绕过 IP 封锁或访问限制。请注意,不要违反网站的使用政策或法律法规。

3. **减慢请求速度**:有些网站可能会检测到你的请求速度过快,从而认定你是机器人。你可以在 Selenium 中添加等待时间,模拟人类的浏览行为。

```python
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待元素可见
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, "myElement"))
)
```

4. **使用 Selenium 的无头模式**:无头浏览器模式不会打开可见的浏览器窗口,这可能会降低被检测到的风险。

```python
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
```

5. **遵守网站的使用政策**:最重要的是确保你的爬虫或机器人不会滥用网站,遵守网站的使用政策和 Robots.txt 文件中的规则。

请注意,网站可以随时更改其反爬虫措施,所以你可能需要不断调整你的策略以应对这些变化。同时,确保你的爬取是合法的,不会侵犯版权或隐私等法律法规。
2023-10-13 10:06:35 +08:00
回复了 fanym 创建的主题 问与答 强人工智能的实现代码量估计只有 0.65952MB?
其中人的 DNA 有效基因不会超过 10%,有很多没表达的基因——有效基因这种概念似乎不太合适,即使是不表达的基因本身也可能参与启动子、增强子、基因沉默区域,以及在遗传的过程中发生突变以后,也可以重新直接参与表达。

DNA 翻译成蛋白质会造成信息的损失——实际上不存在信息的丢失,反而在翻译过程增加了信息的复杂度,翻译过程中 rna 和蛋白质都有各种相互变化和作用,可以直接影响最后的基因功能

以及 3d 基因组、表观遗传这些东西,实际上也说明现代遗传学作为一门类似逆向研究工程,还存在大量未知的领域。
2023-10-06 13:35:52 +08:00
回复了 xtx 创建的主题 机械键盘 淦,买了才三年多的 filco 键盘竟然坏了。
节哀🤣

——回复来自于 2018 产圣手二代双模红轴
2023-09-25 22:35:02 +08:00
回复了 davinci21s 创建的主题 Python 求助: Python flask 应用内存一直在增加
@inzufu 这玩意一眼就是算法推理服务,nodejs 加载模型文件跑算法推理,你这不是难为算法同学吗?

这代码里面一眼看去就是模型资源全局变量跑,十几个并发,要是没有 gpu 没有显存,就是需要大内存的。再就是推理接口一般也都是 batch 推理,并发可以利用 batch 来缓解压力。

简而言之,要么懂算法、要么懂 python 后端,两者都不精通,算法服务能跑起来已经谢天谢地,就不要苛责性能了
2023-09-25 13:53:40 +08:00
回复了 kldd529 创建的主题 武汉 国庆假期去武汉参加老婆的舍友的婚礼
江汉路逛完,尽头是一片老汉口街区也是可以逛逛,然后走到江滩看看江,然后坐个轮渡,到对面汉街再逛逛,汉街离武大、东湖也不远,逛完吃个宵夜👋
2023-09-22 10:13:17 +08:00
回复了 hyyou2010 创建的主题 Python 构建运行 Python 项目都有哪些网络相关注意事项?
开发环境用 conda ,确定要用的包加到 requestments.txt 。部署的时候一个 dockerfile ,一行:pip install -r requestments.txt -i XXX.COM
不针对茅台。白酒是真的难喝呀
爬虫本质都一样,都是发出 http 请求得到想要的数据。
但面向的需求场景不一样,比如有这样的一个需求:
请采集维基百科特定分类下的所有主题页面,大概 700W 个页面,要求一周内交付数据?
- 首先:浏览器插件已经不在考虑范围内了,使用一个浏览器翻完维基百科,你等得了用户可能等不了
- 其次:纯 selenium 处理这类弱反爬的网站也没有什么优势了,且不说无头浏览器的速度慢,如果开 1000 个无头浏览器,一般的也需要海量的内存了。
- 剩下的就是爬虫代码自行编写了,用 scrapy ,或者自己造轮子最后实现类似 scrapy 的框架的功能,对接 ip 池来进行并发爬取。(中间也可能用到 selenium 搭配处理一些反爬策略)

用哪个?看需求吧:
- 海量数据+长期需求=自己写爬虫
- 少量数据+临时需求= 数据采集器搞一下交差
Linux 装个桌面,然后再装个浏览器,打开浏览器,然后 python 截取系统屏幕🤣类似 rpa 吧
2023-09-12 14:40:48 +08:00
回复了 eatgrass 创建的主题 程序员 JetBrain 为啥不出家庭订阅服务
JetBrain 可能没有想到居然还有程序员世家的用户🤣
2023-09-09 12:12:55 +08:00
回复了 08110920 创建的主题 问与答 cocopilot 的作者咋没了 库也不见了
之前看了一眼这个项目,就是写个脚本把一个 github copilot 的 token ,共享给所有人用。。。这项目还放在 github🤣等于直接贴脸开大,果然 github 马上就给 ban 了
2023-08-23 12:05:54 +08:00
回复了 1311317 创建的主题 教育 家里孩子高考没考上,应该怎么选择以后的道路?
跟上暴叔的节奏吧。资源和核心装备(英语),但是需要自己努力和家里支持,200 多分,如果花个一两年只卷英语,能够出国的还行
2023-08-22 19:03:14 +08:00
回复了 qtxxm 创建的主题 程序员 求解决方案,大量埋点数据中的事件查询
硬算就是慢吧,好歹用一下 GIS 特性
2023-08-08 16:21:33 +08:00
回复了 nunterr 创建的主题 杭州 说一次买房被中介坑钱经历
杭州的事情,建议上 1818 黄金眼,还是很有效的
2023-08-04 19:25:51 +08:00
回复了 IurNusRay 创建的主题 Python 有人在用 Pycharm + WSL2 吗
试用过一段时间 Pycharm + WSL2 ,主要是不够丝滑,处处都不够丝滑。后面我还是选择直接装个 ubuntu 双系统
2023-07-31 22:13:19 +08:00
回复了 frankyzf 创建的主题 OpenAI 在程序员涉及到的领域,哪些能力和技能是不能被 AI 替代的?
加班领域,被领导 pua 领域,背低绩效领域
2023-07-27 13:43:06 +08:00
回复了 guoguobaba 创建的主题 Linux minio 一个坑爹的设计
开源对象存储使用在云服务的对象存储作为底层存储,上一次见到这么离谱的事情还是:VMware 跑在 docker 里面
2023-07-24 12:56:16 +08:00
回复了 Pantheoon 创建的主题 程序员 各位 v2er 们,有交换 blog 友链的吗
😎 https://yance.wiki
2023-07-16 15:16:10 +08:00
回复了 aChrisByte0r 创建的主题 程序员 求问 程序员真实工作的情景是什么样的?
久坐——现在公司标配是升降工作台,坐久了自己升起来站着办公呗。以前的单位办公桌固定的,大概 30%的同事会自己带一个升降台,离职了也带走。

加班——主要还是看个人,大部分人在公司加班也就是水时间,只有项目排期出问题了才加班多,那种确实累。
1  2  3  4  5  6  7  8  9  10 ... 25  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2863 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 12:50 · PVG 20:50 · LAX 04:50 · JFK 07:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.