当前位置:网站首页>网络爬虫终篇:向10万级网易云用户发送定向消息
网络爬虫终篇:向10万级网易云用户发送定向消息
2022-06-26 21:29:00 【浪漫的数据分析】
本文目标:
上篇我们获得了评论用户ID及主页地址。本篇就可以基于这些数据进行一些数据分析和市场操作。理论上学会了本文的方法,你可以在任何一个网页发送广告信息,本文具有被坏人利用的可能性,因此设置了收费,而这一套爬虫教程,如果在网易云课堂找网课教,学费要1200元左右。网课的暴利还是巨大的。终极目标达成:
1、通过热门歌手,抓取歌曲ID。
2、通过歌曲ID,抓取评论用户ID。
3、通过评论用户ID,发送定向推送消息。
上两篇完成了步骤1、步骤2,本文完成步骤3.
总结篇:requests和selenium的区别:requests无页面的方法获取歌曲ID,速度比较快,但是只能获取一些无需登录的公开网页,如果需要用户登录和验证,requests将无法做到。
selenium的优势在于完全模仿人打开网页的操作,就好像你雇佣了一个助手帮你做事一样,非常直观,也不会被禁止访问。而且对于需要用户登录的界面(如微博等),用selenium能轻松跳过验证的麻烦环节。
上篇我们用MYSQL存储爬取用户的主页信息,本篇将支持错误重做,每处理完一条记录就打一个处理标志位Y,和我们生产系统的做法类似。
步骤1:查询用户lD和主页的表
这里需要查询u
边栏推荐
- [Bayesian classification 4] Bayesian network
- Swagger: how to generate beautiful static document description pages
- StringUtils判断字符串是否为空
- Android IO, a first-line Internet manufacturer, is a collection of real questions for senior Android interviews
- MATLAB与Mysql数据库连接并数据交换(基于ODBC)
- Mr. Sun's version of JDBC (21:34:25, June 12, 2022)
- Leetcode(122)——买卖股票的最佳时机 II
- 如何用 SAP BTP 平台上的图形建模器创建一个 OData 服务
- How to analyze financial expenses
- Godson China Science and technology innovation board is listed: the market value is 35.7 billion yuan, becoming the first share of domestic CPU
猜你喜欢

记录一次Redis大Key的排查

大家都能看得懂的源码(一)ahooks 整体架构篇

leetcode刷题:字符串06(实现 strStr())

API管理之利剑 -- Eolink

How to install mysql8.0 database under Windows system? (Graphic tutorial)

MATLAB与Mysql数据库连接并数据交换(基于ODBC)

KDD2022 | 基于知识增强提示学习的统一会话推荐系统

QT两种方法实现定时器

Student information management system based on SSH Framework

GameFi 活跃用户、交易量、融资额、新项目持续性下滑,Axie、StepN 能摆脱死亡螺旋吗?链游路在何方?
随机推荐
VB.net类库——4给屏幕截图,裁剪
不要做巨嬰了
SAP Commerce Cloud 项目 Spartacus 入门
【贝叶斯分类2】朴素贝叶斯分类器
Stop being a giant baby
About appium trample pit: encountered internal error running command: error: cannot verify the signature of (solved)
leetcode刷题:字符串03(剑指 Offer 05. 替换空格)
[leetcode]- linked list-2
0 basic C language (1)
Cause analysis of 12 MySQL slow queries
[protobuf] some pits brought by protobuf upgrade
第2章 构建自定义语料库
众多碎石3d材质贴图素材一键即可获取
Matrix calculator design for beginners of linear algebra based on Qt development
Configure redis master-slave and sentinel sentinel in the centos7 environment (solve the problem that the sentinel does not switch when the master hangs up in the ECS)
Student information management system based on SSH Framework
剑指 Offer II 098. 路径的数目 / 剑指 Offer II 099. 最小路径之和
c语言简单的登录
Dynamic parameter association using postman
[Bayesian classification 3] semi naive Bayesian classifier