当前位置:网站首页>网络爬虫终篇:向10万级网易云用户发送定向消息
网络爬虫终篇:向10万级网易云用户发送定向消息
2022-06-26 21:29:00 【浪漫的数据分析】
本文目标:
上篇我们获得了评论用户ID及主页地址。本篇就可以基于这些数据进行一些数据分析和市场操作。理论上学会了本文的方法,你可以在任何一个网页发送广告信息,本文具有被坏人利用的可能性,因此设置了收费,而这一套爬虫教程,如果在网易云课堂找网课教,学费要1200元左右。网课的暴利还是巨大的。终极目标达成:
1、通过热门歌手,抓取歌曲ID。
2、通过歌曲ID,抓取评论用户ID。
3、通过评论用户ID,发送定向推送消息。
上两篇完成了步骤1、步骤2,本文完成步骤3.
总结篇:requests和selenium的区别:requests无页面的方法获取歌曲ID,速度比较快,但是只能获取一些无需登录的公开网页,如果需要用户登录和验证,requests将无法做到。
selenium的优势在于完全模仿人打开网页的操作,就好像你雇佣了一个助手帮你做事一样,非常直观,也不会被禁止访问。而且对于需要用户登录的界面(如微博等),用selenium能轻松跳过验证的麻烦环节。
上篇我们用MYSQL存储爬取用户的主页信息,本篇将支持错误重做,每处理完一条记录就打一个处理标志位Y,和我们生产系统的做法类似。
步骤1:查询用户lD和主页的表
这里需要查询u
边栏推荐
- Leetcode(452)——用最少数量的箭引爆气球
- Is it safe to open an online account in case of five-year exemption?
- Background search, how to find the website background
- 孙老师版本JDBC(2022年6月12日21:34:25)
- QT两种方法实现定时器
- leetcode刷题:字符串02( 反转字符串II)
- In 2022, where will the medium and light-weight games go?
- Redis + guava local cache API combination, performance burst!
- 0基础c语言(0)
- [Bayesian classification 2] naive Bayesian classifier
猜你喜欢
随机推荐
传纸条【动态规划】
numpy中mgrid的用法
分布式ID生成系统
DAST black box vulnerability scanner part 5: vulnerability scanning engine and service capability
StringUtils判断字符串是否为空
众多碎石3d材质贴图素材一键即可获取
VB.net类库(进阶版——1)
MATLAB与Mysql数据库连接并数据交换(基于ODBC)
大家都能看得懂的源码(一)ahooks 整体架构篇
The postgraduate entrance examination in these areas is crazy! Which area has the largest number of candidates?
0基础学c语言(2)
【protobuf 】protobuf 升级后带来的一些坑
0 basic C language (1)
SAP Spartacus 中的依赖注入 Dependency Injection 介绍
leetcode刷题:字符串05(剑指 Offer 58 - II. 左旋转字符串)
Twenty five of offer - all paths with a certain value in the binary tree
与 MySQL 建立连接
Mr. Sun's version of JDBC (21:34:25, June 12, 2022)
VB.net类库——4给屏幕截图,裁剪
Sentinelresource annotation details









