如何入门 Python 爬虫

如题所述

推荐答案 2017-07-31

# -*- coding: utf-8 -*-
import re
import urllib2

from collections import deque

queue = deque()
visited = set()
url = '入口页面, 可以换成别的
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'}
req_timeout = 20
queue.append(url)
cnt = 0
while queue:
  url = queue.popleft()  # 队首元素出队
  visited |= {url}  # 标记为已访问
  print(u'已经抓取: ' + str(cnt) + u'   正在抓取 <---  ' + url)
  cnt += 1
  req = urllib2.Request(url,None,req_header)
  urlop = urllib2.urlopen(req,None,req_timeout)
  try:
    data = urlop.read().decode('utf-8')
  except:
    continue
  # 正则表达式提取页面中所有队列, 并判断是否已经访问过, 然后加入待爬队列
  linkre = re.compile('href=\"(.+?)\"')
  for x in linkre.findall(data):
    print(x)
    if 'http' in x and x not in visited:
      queue.append(x)
      print(u'加入队列 --->  ' + x)

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/I3I3GqYIGIppGW8pvW.html

相似回答

如何入门 Python 爬虫答：如果您想入门Python爬虫，可以按照以下步骤进行：1. 学习Python基础知识：了解Python的语法、数据类型、流程控制等基本概念。可以通过在线教程、视频教程或参考书籍来学习。2. 学习网络爬虫基础知识：了解什么是网络爬虫，以及爬虫的原理和基本流程。学习HTTP协议、HTML解析等相关知识。3. 学习Python爬虫库：Pyth...

如何入门 Python 爬虫答：对于想要入门Python爬虫的朋友，我已经有了自己的一套学习路径。首先，要掌握基本的网页解析技术，如使用Python的urllib.request库来发送HTTP请求并获取网页内容。例如，你可以编写如下代码：python import urllib.request if __name__ == '__main__':url = "..."response = urllib.request.urlopen(ur...

python 爬虫入门该怎么学习?答：Python 爬虫入门，您可以从以下几个方面学习：1. 熟悉 Python 编程。2. 了解 HTML。3. 了解网络爬虫的基本原理。4. 学习使用 Python 爬虫库。以下是一些学习资源：- 《手把手带你入门python开发》系列课程。- 《零基础学 Python 爬虫》。- 《Python爬虫基础教程》。

python爬虫要学什么答：1、收集数据 python爬虫程序可用于收集数据。这也是最直接和最常用的方法。由于爬虫程序是一个程序，程序运行得非常快，不会因为重复的事情而感到疲倦，因此使用爬虫程序获取大量数据变得非常简单和快速。2、调研比如要调研一家电商公司，想知道他们的商品销售情况。这家公司声称每月销售额达数亿元。如果你...

爬虫python入门教程答：Python爬虫入门教程简要概述如下：一、**基础概念*** 爬虫，全称网络爬虫，是一种自动获取网页内容的程序。它模拟人的行为去网站抓取数据或返回数据。二、**分类*** 传统爬虫：从一个或若干个初始网页的URL开始，不断抽取新的URL放入队列，直到满足一定条件停止。* 聚焦爬虫：根据一定的网页分析算法过滤...

如何入门 Python 爬虫答：先长话短说summarize一下：你需要学习基本的爬虫工作原理基本的http抓取工具，scrapy Bloom Filter: Bloom Filters by Example 如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq:https://...

python爬虫怎么入门?python爬虫入门介绍答：python爬虫入门介绍：1.首先是获取目标页面，这个对用python来说，很简单。运行结果和打开百度页面，查看源代码一样。这里针对python的语法有几点说明。a).import就是引入的意思，java也用import，C/C++用的是include，作用一样 b).urllib这个是python自带的模块，在以后开发的时候，如果遇到自己需要的功能...

大家正在搜

如何入门python爬虫 Python爬虫入门 python网络爬虫从入门到精通 python爬虫入门案例爬虫python的爬取步骤 Python网络爬虫代码 python爬虫最全教程 python自学爬虫 python爬虫基础教程