V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  saximi  ›  全部回复第 4 页 / 共 11 页
回复总数  201
1  2  3  4  5  6  7  8  9  10 ... 11  
2017-10-09 23:48:11 +08:00
回复了 saximi 创建的主题 Python 请教 selenium+Chrome 爬网页的问题
@woshichuanqilz 把 URL 改为正确的 http:// buy.ccb.com/searchproducts/pv_0_0_0_0_1.jhtml?query=*&selectCatId=12001001&catId=12001001&isBH=false&area=
这样之后您的代码可以正常运行了,但是我的代码还是提示元素不能 click,请问是怎么回事呢
2017-10-09 23:21:48 +08:00
回复了 saximi 创建的主题 Python 请教 selenium+Chrome 爬网页的问题
@woshichuanqilz 不好意思,我贴出的代码中 URL 有错,正确的应该是 http://buy.ccb.com/searchproducts/pv_0_0_0_0_1.jhtml?query=*&selectCatId=12001001&catId=12001001&isBH=false&area=

但是这个地址还是无法用 Chrome()来爬,依然说元素无法 click
2017-10-09 23:16:00 +08:00
回复了 saximi 创建的主题 Python 请教 selenium+Chrome 爬网页的问题
@shn7798 请问如何调整窗口大小,我用了语句 driver.maximize_window() ,结果报错说窗口已经是最大了。
2017-09-30 23:44:45 +08:00
回复了 saximi 创建的主题 Python 请问这个名字为 D 的方法是什么?
@xfspace 哈哈,万分感谢,我看书不认真,看了后面忘了前面!
2017-09-30 23:34:39 +08:00
回复了 saximi 创建的主题 Python 请教关于用 selenium 解析网页的问题
@kqz901002 谢谢,我是 PYTHON3,我试试看有没有
2017-09-29 23:09:42 +08:00
回复了 saximi 创建的主题 Python 请教关于用 selenium 解析网页的问题
@kqz901002 请问这是什么包里的模块? 我用 SimpleHTTPServer 关键字在 pypi 上没找到这个包呢,谢谢了
2017-09-29 00:05:56 +08:00
回复了 saximi 创建的主题 Python 请教关于用 selenium 解析网页的问题
@OpenJerry 是我搞错了,我的本意不是要测试某个网址,我只是希望对某一段 HTML 语法的解析进行分析,所以才用文档字符串来保存待分析的内容,我并不想传入整个 URL 作为参数,这样该怎么办呢
2017-09-28 20:25:44 +08:00
回复了 saximi 创建的主题 Python 关于 scrapy 中 signals 的用法请教
@cszhiyue
@sunwei0325 非常感谢!!!
2017-09-28 20:14:33 +08:00
回复了 saximi 创建的主题 Python 请教关于 lxml 的用法
@mentalkiller
@zhusimaji 谢谢指点,我也有了解过 BS4,看了某些材料说除了正则,效率最快的是 lxml,BS4 虽然很友好但是效率相对较低,是这样么?
2017-09-27 23:57:46 +08:00
回复了 saximi 创建的主题 Python 请教关于 lxml 的用法
@billion 我初学爬虫,想用一些最主流的模式和包来实现功能。我知道 Scrapy 是最好用的架构,所以肯定要用的,另外据说 lxml 是 Python 语言里和 XML 以及 HTML 工作的功能最丰富和最容易使用的库。所以我才产生了如何在 Scrapy 下使用 lxml 的念头,当然这在各位前辈看来却可能是很不合理的搭配。
按照您的意思,是不是既然使用了 Scrapy 架构,就用 xpath 来解析 XML 和 HTML 即可,不要再使用 lxml 了?
谢谢指点!
2017-09-24 18:51:43 +08:00
回复了 saximi 创建的主题 Python 请问一个关于爬虫的问题
@brightguo 用 phantomJS 是为了起到无界面浏览器的效果,不知 ChromeDriver 可以起到同样效果么?
2017-09-24 00:11:28 +08:00
回复了 saximi 创建的主题 程序员 请问如何用 git 工具下载 github 上的单个目录
@iahu 您给的这个网址上好像说只要安装两个工具就直接可以从 GITHUB 按目录下载,而不需要 SVN,这两个工具是 GitZip 和 DownGit,但是这两个工具都要翻墙下载的,找了国内的几个 CHROME 下载网址都找不到呢?
2017-09-23 23:53:06 +08:00
回复了 saximi 创建的主题 程序员 请问如何用 git 工具下载 github 上的单个目录
@oglop 我在 WINDOWS 上装了 TortoiseSVN,但是在 Git bash 中执行 svn export 命令还是提示 bash svn:command not found,是不是要先做什么设置?
2017-09-23 21:05:41 +08:00
回复了 saximi 创建的主题 程序员 请问如何用 git 工具下载 github 上的单个目录
@iahu 我的是 WINDOWS7+PYTHON3 的环境,为了用 GIT,我装了 Git Bash 这个工具,但是在命令窗口中输入 svn 时提示 bash svn: command not found。 是不是我的 GIT 工具装得不对?还是我要专门安装 SVN ?
2017-09-23 05:44:25 +08:00
回复了 saximi 创建的主题 Python 请教关于 urllib.request.urlopen 方法的问题
@zhusimaji
@dangyuluo
@ffkjjj 感谢大家指点,确实没有系统地学过 HTML
2017-09-22 21:45:54 +08:00
回复了 saximi 创建的主题 Python 请教关于 urllib.request.urlopen 方法的问题
@misaka19000 我倒是没说这个结果有错,我只是不理解这个 html 是个什么东西,为何是显示这些内容,并且这个字符串其实并不存在于这个网页的源代码中
2017-09-22 21:44:46 +08:00
回复了 saximi 创建的主题 Python 请推荐关于 Scrapy 包用法的中文版学习资料
@toono 在您的代码中还有这一句,请问哪里可以找到 remove_tags 的用法说明呢,我在 baidu 和 bing 上用 python 加上 remove_tags 作为关键字竟然都找不到?

item['body'] = remove_tags(item['body'].extract_first(), which_ones=('span', ))
2017-09-22 21:33:10 +08:00
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
@toono 太奇怪了,您爬虫主页是 https: //www.douban.com/group/explore,我无论是用 IE 还是 CHROME 浏览器访问这个页面,打开页面源码后都找不到“ topic-content ”这个字符串呢。
我用 FIDDLER 工具查看访问 https: //www.douban.com/group/explore 时的报文,点击 COOKIE 按钮时提示并无 COOKIE,是在不明白。
2017-09-22 21:28:51 +08:00
回复了 saximi 创建的主题 Python 请问一个关于爬虫的问题
@brightguo 假如 nextpageButton.click() 这个语句就等同于 driver.get(下一页网址) 这个语句的效果,那么请问,包含下一个页面内容的对象是什么? 应该不是 response 了吧?
2017-09-22 21:26:51 +08:00
回复了 saximi 创建的主题 Python 请问一个关于爬虫的问题
@brightguo 不知为何,我的部分代码没有正确显示出来,我重新贴一下我的完整问题吧。

在爬取某网站时,要根据页面上的选择页控件接着爬取下一个页面,但是控件中下一页的网址并没有直接给出来,而是形如这样的源码:<a onclick="queryListByPage('3')">3</a>
其中的 queryListByPage 应该是点击“ 3 ”这个页码的方框时会触发的函数。我想用 selenium.webdriver 和 PhantomJS 来模拟点击页码并进入下一页面的动作,我写了如下的语句:
nextpageButton = driver.find_element_by_name(response.xpath('a/@onclick').extract())
nextpageButton.click()

我面临的问题如下:
1、上面的语句是否可以实现模拟点击下一页页码按钮的效果
2、如果上面语句可以模拟点击下一页,那么执行完毕后,是否还要有加载下一页面的动作?也就是说还要执行诸如 driver.get(下一页网址) 的语句?并且下一页面的网址要如何获取,有什么函数可以直接返回这个网址么?
1  2  3  4  5  6  7  8  9  10 ... 11  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1150 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 17:53 · PVG 01:53 · LAX 09:53 · JFK 12:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.