当前位置:网站首页>urllib的介绍和基本使用基本使用

urllib的介绍和基本使用基本使用

2022-07-22 18:45:00 冲锋的禾

1.urllib是什么

        urllib是爬虫常用的一个库,通过他我们能爬取浏览器上的数据

2.urllib的基本使用

#使用urllib获取百度首页的源码
import urllib.request
#(1)定义一个url :你要访问的页面:baidu.com
url = 'http://www.baidu.com/?tn=59044660_1_hao_pg&H123Tmp=nunew11'

#(2)模拟浏览器给服务器发送请求
response = urllib.request.urlopen(url)

#(3)获取响应中的页面的源码
#read方法 返回的是字节形式二进制数据
#二进制==》字符串 解码 decode('编码格式')
content = response.read().decode('utf-8')

#(4)打印数据
print(content)

注意:要用http而不是https,

原因:https相较于http的区别:

1、https的端口是443,而http的端口是80,且两者的连接方式不同;

2、http传输是明文的,而https是用ssl进行加密的,https的安全性更高;

3、https是需要申请证书的,而http不需要。 本文操作环境:Windows7系统、Dell G3电脑。

运行结果(截取部分):

 

原网站

版权声明
本文为[冲锋的禾]所创,转载请带上原文链接,感谢
https://blog.csdn.net/m0_53623945/article/details/125883263