V2EX › saximi 的所有回复 › 第 4 页 / 共 11 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 11

❮

❯

2017-10-09 23:48:11 +08:00

回复了 saximi 创建的主题 › Python › 请教 selenium+Chrome 爬网页的问题

@woshichuanqilz 把 URL 改为正确的 http:// buy.ccb.com/searchproducts/pv_0_0_0_0_1.jhtml?query=*&selectCatId=12001001&catId=12001001&isBH=false&area=
这样之后您的代码可以正常运行了，但是我的代码还是提示元素不能 click，请问是怎么回事呢

2017-10-09 23:21:48 +08:00

回复了 saximi 创建的主题 › Python › 请教 selenium+Chrome 爬网页的问题

@woshichuanqilz 不好意思，我贴出的代码中 URL 有错，正确的应该是 http://buy.ccb.com/searchproducts/pv_0_0_0_0_1.jhtml?query=*&selectCatId=12001001&catId=12001001&isBH=false&area=

但是这个地址还是无法用 Chrome()来爬，依然说元素无法 click

2017-10-09 23:16:00 +08:00

回复了 saximi 创建的主题 › Python › 请教 selenium+Chrome 爬网页的问题

@shn7798 请问如何调整窗口大小，我用了语句 driver.maximize_window() ，结果报错说窗口已经是最大了。

2017-09-30 23:44:45 +08:00

回复了 saximi 创建的主题 › Python › 请问这个名字为 D 的方法是什么？

@xfspace 哈哈，万分感谢，我看书不认真，看了后面忘了前面！

2017-09-30 23:34:39 +08:00

回复了 saximi 创建的主题 › Python › 请教关于用 selenium 解析网页的问题

@kqz901002 谢谢，我是 PYTHON3，我试试看有没有

2017-09-29 23:09:42 +08:00

回复了 saximi 创建的主题 › Python › 请教关于用 selenium 解析网页的问题

@kqz901002 请问这是什么包里的模块？我用 SimpleHTTPServer 关键字在 pypi 上没找到这个包呢，谢谢了

2017-09-29 00:05:56 +08:00

回复了 saximi 创建的主题 › Python › 请教关于用 selenium 解析网页的问题

@OpenJerry 是我搞错了，我的本意不是要测试某个网址，我只是希望对某一段 HTML 语法的解析进行分析，所以才用文档字符串来保存待分析的内容，我并不想传入整个 URL 作为参数，这样该怎么办呢

2017-09-28 20:25:44 +08:00

回复了 saximi 创建的主题 › Python › 关于 scrapy 中 signals 的用法请教

@cszhiyue
@sunwei0325 非常感谢！！！

2017-09-28 20:14:33 +08:00

回复了 saximi 创建的主题 › Python › 请教关于 lxml 的用法

@mentalkiller
@zhusimaji 谢谢指点，我也有了解过 BS4，看了某些材料说除了正则，效率最快的是 lxml，BS4 虽然很友好但是效率相对较低，是这样么？

2017-09-27 23:57:46 +08:00

回复了 saximi 创建的主题 › Python › 请教关于 lxml 的用法

@billion 我初学爬虫，想用一些最主流的模式和包来实现功能。我知道 Scrapy 是最好用的架构，所以肯定要用的，另外据说 lxml 是 Python 语言里和 XML 以及 HTML 工作的功能最丰富和最容易使用的库。所以我才产生了如何在 Scrapy 下使用 lxml 的念头，当然这在各位前辈看来却可能是很不合理的搭配。
按照您的意思，是不是既然使用了 Scrapy 架构，就用 xpath 来解析 XML 和 HTML 即可，不要再使用 lxml 了？
谢谢指点！

2017-09-24 18:51:43 +08:00

回复了 saximi 创建的主题 › Python › 请问一个关于爬虫的问题

@brightguo 用 phantomJS 是为了起到无界面浏览器的效果，不知 ChromeDriver 可以起到同样效果么？

2017-09-24 00:11:28 +08:00

回复了 saximi 创建的主题 › 程序员 › 请问如何用 git 工具下载 github 上的单个目录

@iahu 您给的这个网址上好像说只要安装两个工具就直接可以从 GITHUB 按目录下载，而不需要 SVN，这两个工具是 GitZip 和 DownGit，但是这两个工具都要翻墙下载的，找了国内的几个 CHROME 下载网址都找不到呢？

2017-09-23 23:53:06 +08:00

回复了 saximi 创建的主题 › 程序员 › 请问如何用 git 工具下载 github 上的单个目录

@oglop 我在 WINDOWS 上装了 TortoiseSVN，但是在 Git bash 中执行 svn export 命令还是提示 bash svn:command not found，是不是要先做什么设置？

2017-09-23 21:05:41 +08:00

回复了 saximi 创建的主题 › 程序员 › 请问如何用 git 工具下载 github 上的单个目录

@iahu 我的是 WINDOWS7+PYTHON3 的环境，为了用 GIT，我装了 Git Bash 这个工具，但是在命令窗口中输入 svn 时提示 bash svn: command not found。是不是我的 GIT 工具装得不对？还是我要专门安装 SVN ？

2017-09-23 05:44:25 +08:00

回复了 saximi 创建的主题 › Python › 请教关于 urllib.request.urlopen 方法的问题

@zhusimaji
@dangyuluo
@ffkjjj 感谢大家指点，确实没有系统地学过 HTML

2017-09-22 21:45:54 +08:00

回复了 saximi 创建的主题 › Python › 请教关于 urllib.request.urlopen 方法的问题

@misaka19000 我倒是没说这个结果有错，我只是不理解这个 html 是个什么东西，为何是显示这些内容，并且这个字符串其实并不存在于这个网页的源代码中

2017-09-22 21:44:46 +08:00

回复了 saximi 创建的主题 › Python › 请推荐关于 Scrapy 包用法的中文版学习资料

@toono 在您的代码中还有这一句，请问哪里可以找到 remove_tags 的用法说明呢，我在 baidu 和 bing 上用 python 加上 remove_tags 作为关键字竟然都找不到？

item['body'] = remove_tags(item['body'].extract_first(), which_ones=('span', ))

2017-09-22 21:33:10 +08:00

回复了 saximi 创建的主题 › Python › 请问有没有这样的爬虫代码范例

@toono 太奇怪了，您爬虫主页是 https: //www.douban.com/group/explore，我无论是用 IE 还是 CHROME 浏览器访问这个页面，打开页面源码后都找不到“ topic-content ”这个字符串呢。
我用 FIDDLER 工具查看访问 https: //www.douban.com/group/explore 时的报文，点击 COOKIE 按钮时提示并无 COOKIE，是在不明白。

2017-09-22 21:28:51 +08:00

回复了 saximi 创建的主题 › Python › 请问一个关于爬虫的问题

@brightguo 假如 nextpageButton.click() 这个语句就等同于 driver.get(下一页网址) 这个语句的效果，那么请问，包含下一个页面内容的对象是什么？应该不是 response 了吧？

2017-09-22 21:26:51 +08:00

回复了 saximi 创建的主题 › Python › 请问一个关于爬虫的问题

@brightguo 不知为何，我的部分代码没有正确显示出来，我重新贴一下我的完整问题吧。

在爬取某网站时，要根据页面上的选择页控件接着爬取下一个页面，但是控件中下一页的网址并没有直接给出来，而是形如这样的源码：<a onclick="queryListByPage('3')">3</a>
其中的 queryListByPage 应该是点击“ 3 ”这个页码的方框时会触发的函数。我想用 selenium.webdriver 和 PhantomJS 来模拟点击页码并进入下一页面的动作，我写了如下的语句：
nextpageButton = driver.find_element_by_name(response.xpath('a/@onclick').extract())
nextpageButton.click()

我面临的问题如下：
1、上面的语句是否可以实现模拟点击下一页页码按钮的效果
2、如果上面语句可以模拟点击下一页，那么执行完毕后，是否还要有加载下一页面的动作？也就是说还要执行诸如 driver.get(下一页网址) 的语句？并且下一页面的网址要如何获取，有什么函数可以直接返回这个网址么？

1 2 3 4 5 6 7 8 9 10 ... 11

❮

❯