当前位置：网站首页>urllib的介绍和基本使用基本使用

urllib的介绍和基本使用基本使用

2022-07-22 18:45:00 【冲锋的禾】

1.urllib是什么

urllib是爬虫常用的一个库，通过他我们能爬取浏览器上的数据

2.urllib的基本使用

#使用urllib获取百度首页的源码
import urllib.request
#(1)定义一个url ：你要访问的页面：baidu.com
url = 'http://www.baidu.com/?tn=59044660_1_hao_pg&H123Tmp=nunew11'

#(2)模拟浏览器给服务器发送请求
response = urllib.request.urlopen(url)

#(3)获取响应中的页面的源码
#read方法 返回的是字节形式二进制数据
#二进制==》字符串 解码 decode（'编码格式'）
content = response.read().decode('utf-8')

#(4)打印数据
print(content)

注意：要用http而不是https，
原因：https相较于http的区别：
1、https的端口是443，而http的端口是80，且两者的连接方式不同；
2、http传输是明文的，而https是用ssl进行加密的，https的安全性更高；
3、https是需要申请证书的，而http不需要。本文操作环境：Windows7系统、Dell G3电脑。

运行结果（截取部分）：