当前位置:网站首页>初学爬虫笔记(收集数据)
初学爬虫笔记(收集数据)
2022-08-04 15:25:00 【总是汗水大过天赋】
import urllib.request
def main():
#1.抓取网页(在这里面逐一解析数据)
baseurl = 'https://movie.douban.com/top250?start='
datalist = getData(baseurl)
#2.保存数据
print()
#抓取网页
def getData(baseurl):
#首先需要获取一页的数据,然后利用循环来获取每一页的信息
datalist = []
for i in range(0,10):
url = baseurl + str(i*25)
html = askURL(url)
return datalist
#请求网页
def askURL(url):
header = {
"User-Agent":"Mozilla/5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 103.0.5060.134MobileSafari / 537.36Edg / 103.0.1264.77"
}
request = urllib.request.Request(url,headers = header)
html = ""
try :
responce = urllib.request.urlopen(request)
html = responce.read().decode()
print(html)
except urllib.error.URLerror as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
if __name__ == '__main__':
main()
代码只完成了收集数据的任务,还没有完善,后续会持续更新的!!!(教程来源与B站,如果有冒犯,请私信联络我删除)
‘
边栏推荐
- 数据链路层-------以太网协议
- Pisanix v0.2.0 发布|新增动态读写分离支持
- remote: Check Access Error, please check your access right or username and password!fatal: Authenti
- 7 天学个Go,Go 结构体 + Go range 来学学
- HarePoint Analytics for SharePoint Online
- 直播系统开发——直播间架构的设计及难点分析
- QT笔记——QUuid了解
- 我说MySQL联合索引遵循最左前缀匹配原则,面试官让我回去等通知
- Next -20- 使用自定义样式 (custom style)
- Tinymce plugins [Tinymce 扩展插件集合]
猜你喜欢
随机推荐
Go 事,Gopher 要学的数字类型,变量,常量,运算符 ,第2篇
Codeforces Round #811 A~F
全球电子产品需求放缓,三星手机越南工厂每周只需要干 3~4 天
Next -18- 添加代码复制按钮
剑指Offer 63.股票的最大利润
Tinymce plugins [Tinymce 扩展插件集合]
Next -19- 开启fancybox查看图片大图
uni-app 从零开始-生命周期(二)
从-99打造Sentinel高可用集群限流中间件
How to fall in love with a programmer
Compound Refractive Lenses for X-ray Focusing
指数族分布与最大熵
程序猿七夕礼物-如何30分钟给女朋友快速搭建专属语聊房
Roslyn 通过 nuget 统一管理信息
基本介绍PLSQL
C# TextBlock 上标
动态数组底层是如何实现的
重构指标之如何监控代码圈复杂度
大众点评搜索相关性技术探索与实践
365天挑战LeetCode1000题——Day 049 非递增顺序的最小子序列 贪心