网络爬虫如何处理这个,其实是数据提取的那一步骤,首先我们要清楚知道网页的页面结构,这是根本,因为网页是一个树形结构,是有层次的。不然,我们是很难提取到我们想要的数据,所以,心中要有这样一个概念:网页是结构分层分明的树形文档。
在这里我以搜房网为例:housing/,这个页面,是一个小区的List页面,我们现在要提取其中的小区名称和URL。
首先,查看页面的结构
点击右键,选择查看选择,得到如下这样一个页面。因为是一个List,所以有很多个小区,这些小区的信息应该是在一个div样式下面的。在这里我们看到这样一行,这个就是我们要找的根div。
解析出我们想要的内容-小区名称、页面URL
我们就可以使用xpath提取页面中的内容,在这里我们就可以这样描述:
selectore_list=response.xpath('//div[@class=\houseList\]/*/dl/dd/a[@class=\plotTit\]')
这样的话是提取的整个页面的列表,我们还需要通过循环把每个小区的标题和页面URL取出来,我们可以这样写:
forliinselector_list:title=li.xpath('./@href').extract()[0]urls=li.xpath('./text()').extract()[0]
这样的话里面的标题和页面url都提取出来的。关于xpath如何使用,可以查询相关的课程学习。
logo设计
创造品牌价值
¥500元起
APP开发
量身定制,源码交付
¥2000元起
商标注册
一个好品牌从商标开始
¥1480元起
公司注册
注册公司全程代办
¥0元起
查
看
更
多