爬虫小白求教如何得到东方财富股吧第一页的全部阅读数？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2028 天前的主题，其中的信息可能已经有所发展或是发生改变。

如 http://guba.eastmoney.com/list,600519.html

要开始学些什么。。

求教

股吧

小白

财富

13 条回复 • 2019-10-10 17:03:53 +08:00

soho176

2019-10-10 16:02:03 +08:00

python 正则，再或者简单的办法火车头直接抓取

di1012

2019-10-10 16:03:46 +08:00

正则匹配，xpath

biu7

2019-10-10 16:11:26 +08:00

xpath 正则

None123

2019-10-10 16:12:26 +08:00

requests 获取网页
xpath / re 解析

silencefent

2019-10-10 16:20:26 +08:00

//div[@id='articlelistnew']//div/span[@class="l1 a1"]

yellowtail

2019-10-10 16:23:51 +08:00

还是不太明白，，用过 selenium，通过 findbyname 定位到“一个”标签，然后输入用户民密码，登录，refresh。。给论坛刷积分但是这种的没看出来怎么定位到“一个”。。。各位大佬能不能简单写个栗子主要想学会怎么看这个问题

yellowtail

2019-10-10 16:24:45 +08:00

@silencefent 这可以拿出来第一页的全部目标元素吗...

None123

2019-10-10 16:27:56 +08:00

@yellowtail

driver.find_element_by_xpath()

lspvic

2019-10-10 16:31:30 +08:00 via Android

爬虫可以看看有没有对应的移动版网页，网页简洁许多，好解析，速度快，效率高，甚至有些直接有 api 可用

yellowtail

2019-10-10 16:37:52 +08:00

@None123 全部阅读数应该是自己一个一个的加。。这样拿到的是一个数组吗

None123

2019-10-10 16:40:01 +08:00

@yellowtail 什么意思？

houzhimeng

2019-10-10 16:54:38 +08:00

from bs4 import BeautifulSoup
import requests

html = "http://guba.eastmoney.com/list,600519.html"
r = requests.get(html).content
soup = BeautifulSoup(r,"lxml")
yuedu = soup.find_all('span',{'class':'l1 a1'})
for i in yuedu:
print(i.get_text())

yellowtail

2019-10-10 17:03:53 +08:00

@houzhimeng 感谢