1
binbex 2015-06-25 12:16:46 +08:00
curl -o 1234.html http://product.dangdang.com/1259526222.html
然后在chrome中打开1234.html, 审查元素->Console,然后在控制台输入 $x('//*[contains(concat(" ", @class, " ")," pro_content ")]/textarea/text()'),你试试看这个结果是不是输出了"div class="mall_goods_foursort_style" ",那你也就明白了,你要的结果是在字符串内,也就是说 "div class="mall_goods_foursort_style" "你以为这个是xpath表达式路径,实际上这是个字符串,那你div[@class="mall_goods_foursort_style_frame"]肯定是没有结果的,你应该把$x('//*[contains(concat(" ", @class, " ")," pro_content ")]/textarea/text()')这个输出的字符串再转换为xml格式,这个用lxml的API可以做到,然后再用你上面自己的表达式应该可以了 |