当前位置：网站首页>初学爬虫笔记（收集数据）

初学爬虫笔记（收集数据）

2022-08-04 15:25:00 【总是汗水大过天赋】

import urllib.request


def main():
    #1.抓取网页（在这里面逐一解析数据）
    baseurl = 'https://movie.douban.com/top250?start='
    datalist = getData(baseurl)

    #2.保存数据
    print()
    #抓取网页
def getData(baseurl):
    #首先需要获取一页的数据，然后利用循环来获取每一页的信息
    datalist = []
    for i in range(0,10):
        url = baseurl + str(i*25)
        html = askURL(url)
    return datalist

#请求网页
def askURL(url):
    header = {
        "User-Agent":"Mozilla/5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 103.0.5060.134MobileSafari / 537.36Edg / 103.0.1264.77"
    }
    request = urllib.request.Request(url,headers = header)
    html = ""
    try :
        responce = urllib.request.urlopen(request)
        html = responce.read().decode()
        print(html)
    except urllib.error.URLerror as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html


if __name__ == '__main__':
    main()

代码只完成了收集数据的任务，还没有完善，后续会持续更新的！！！（教程来源与B站，如果有冒犯，请私信联络我删除）

‘

原网站

版权声明
本文为[总是汗水大过天赋]所创，转载请带上原文链接，感谢
https://blog.csdn.net/m0_65272823/article/details/126092865

当前位置：网站首页>初学爬虫笔记（收集数据）

初学爬虫笔记（收集数据）

边栏推荐

猜你喜欢

随机推荐