当前位置:网站首页>初学爬虫笔记(收集数据)
初学爬虫笔记(收集数据)
2022-08-04 15:25:00 【总是汗水大过天赋】
import urllib.request
def main():
#1.抓取网页(在这里面逐一解析数据)
baseurl = 'https://movie.douban.com/top250?start='
datalist = getData(baseurl)
#2.保存数据
print()
#抓取网页
def getData(baseurl):
#首先需要获取一页的数据,然后利用循环来获取每一页的信息
datalist = []
for i in range(0,10):
url = baseurl + str(i*25)
html = askURL(url)
return datalist
#请求网页
def askURL(url):
header = {
"User-Agent":"Mozilla/5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 103.0.5060.134MobileSafari / 537.36Edg / 103.0.1264.77"
}
request = urllib.request.Request(url,headers = header)
html = ""
try :
responce = urllib.request.urlopen(request)
html = responce.read().decode()
print(html)
except urllib.error.URLerror as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
if __name__ == '__main__':
main()代码只完成了收集数据的任务,还没有完善,后续会持续更新的!!!(教程来源与B站,如果有冒犯,请私信联络我删除)
‘
边栏推荐
猜你喜欢
随机推荐
QT笔记——Q_INVOKABLE了解
qt 复杂界面信号槽设计
PHP 图片转PDF
7 天能找到 Go 工作吗?学学 Go 数组和指针试试
MVCC实现过程
实战:10 种实现延迟任务的方法,附代码!
ICDE‘22推荐系统论文之Research篇
【伸手党福利】投影仪初学者入门——投影亮度及幕布选择——从入门到精通
C端折戟,转战B端,联想的元宇宙梦能成吗?
Redis-哨兵模式
弄懂#if #ifdef #if defined
【Go事】一眼看穿 Go 的集合和切片
FRED Application: Capillary Electrophoresis System
什么是 DevOps?看这一篇就够了!
JCMsuite Application: Oblique Plane Wave Propagation Transmission Through Aperture
I/O stream summary
SAP ABAP SteamPunk 蒸汽朋克的最新进展 - 嵌入式蒸汽朋克
Byte、Short、Integer、Long内部缓存类的对比与源码分析
uni-app之renderjs
1403. Minimum Subsequence in Non-Increasing Order









