逆向解析法是用于静态网页数据的基本爬取

如题所述

举报该问题

推荐答案 2023-07-16

这里以python为例，主要分为静态网页数据的爬取和动态网页数据的爬取，主要内容如下：

静态网页数据

这里的数据都嵌套在网页源码中，所以直接requests网页源码进行解析就行，下面我简单介绍一下，这里以爬取糗事百科上的数据为例：

1.首先，打开原网页，如下，这里假设要爬取的字段包括昵称、内容、好笑数和评论数：

接着查看网页源码，如下，可以看的出来，所有的数据都嵌套在网页中：

2.然后针对以上网页结构，我们就可以直接编写爬虫代码，解析网页并提取出我们需要的数据了，测试代码如下，非常简单，主要用到requests+BeautifulSoup组合，其中requests用于获取网页源码，BeautifulSoup用于解析网页提取数据：

点击运行这个程序，效果如下，已经成功爬取了到我们需要的数据：

动态网页数据

这里的数据都没有在网页源码中（所以直接请求页面是获取不到任何数据的），大部分情况下都是存储在一个json文件中，只有在网页更新的时候，才会加载数据，下面我简单介绍一下这种方式，这里以爬取人人贷上面的数据为例：

1.首先，打开原网页，如下，这里假设要爬取的数据包括年利率，借款标题，期限，金额和进度：

接着按F12调出开发者工具，依次点击“Network”->“XHR”，F5刷新页面，就可以找打动态加载的json文件，如下，也就是我们需要爬取的数据：

2.然后就是根据这个json文件编写对应代码解析出我们需要的字段信息，测试代码如下，也非常简单，主要用到requests+json组合，其中requests用于请求json文件，json用于解析json文件提取数据：

点击运行这个程序，效果如下，已经成功爬取到我们需要的数据：

至此，我们就完成了利用python网络爬虫来获取网站数据。总的来说，整个过程非常简单，python内置了许多网络爬虫包和框架（scrapy等），可以快速获取网站数据，非常适合初学者学习和掌握，只要你有一定的爬虫基础，熟悉一下上面的流程和代码，很快就能掌握的，

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/WW8G8W3Wv33I8WvI3W.html

相似回答

逆向搜索法和爬山法的例子有哪些答：逆向搜索就是从目标状态出发进行的搜索，通常是与正向搜索同时进行（双向搜索），如果正向搜索时新扩展的状态是逆向搜索中出现过的，将两段搜索路径连接起来就是找到了一个解（通常是一种搜索步数最少的解）。如果反向搜索时新扩展的状态是正向搜索中出现过的，则与上述一样，也是一种最优解。逆向搜索既...

如何利用Python抓取静态网站及其内部资源?答：1.首先，安装requets模块，这个直接在cmd窗口输入命令“pipinstallrequests”就行，如下：2.接着安装bs4模块，这个模块包含了BeautifulSoup，安装的话，和requests一样，直接输入安装命令“pipinstallbs4”即可，如下：3.最后就是requests+BeautifulSoup组合爬取糗事百科，requests用于请求页面，BeautifulSoup用于解...

如何爬取网页数据?答：1、URL管理首先url管理器添加了新的url到待爬取集合中，判断了待添加的url是否在容器中、是否有待爬取的url，并且获取待爬取的url，将url从待爬取的url集合移动到已爬取的url集合页面下载，下载器将接收到的url传给互联网，互联网返回html文件给下载器，下载器将其保存到本地，一般的会对下载器...

毕业生必看Python爬虫上手技巧答：1、基本抓取网页 get方法 post方法 2、使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；在urllib 2包中有Proxy Handler类，通过此类可以设置代理访问网页，如下代码片段：3、Cookies处理 cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数...

如何用python爬取网站数据?答：2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所以还用了json这个包（解析json），主要内容如下：程序运行截图如下，已经成功抓取到数据：至此，这里就介绍完了这2种数据的抓取，包括静态数据和动态数据。总的来说，这2个示例不难，都是入门级别的爬虫...

如何爬取网站上的某一信息?答：1、在站内寻找API入口；2、用搜索引擎搜索“某网站API”；3、抓包。有的网站虽然用到了ajax，但是通过抓包还是能够获取XHR里的json数据的（可用抓包工具抓包，也可以通过浏览器按F12抓包：F12-Network-F5刷新）。二、不开放API的网站 1、如果网站是静态页面，那么可以用requests库发送请求，再通过HTML解...

什么是网络蜘蛛答：由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。---这种程序实际是利用html文档之间的链接关系,在Web上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。第一个开发出“蜘蛛”程序的...

大家正在搜

下列属于http响应报文组成部分关于matplotlib库说法不正确 selenium可以用来爬取动态网页吗 HTTP响应由三个部分组成 numpy支持的数据类型有属于反爬虫策略的对应措施大数据处理过程包括 python比较运算符有哪些字符串是有序的还是无序的