当前位置:网站首页>用 SQL 做数据分析的十大常用功能,附面试原题解答!!
用 SQL 做数据分析的十大常用功能,附面试原题解答!!
2022-08-03 02:18:00 【欣一2002】
SQL,数据分析岗的必备技能,你可以不懂Python,R,不懂可视化,不懂机器学习。但SQL,你必须懂。要不然领导让你跑个数据来汇......,哦不,你不懂SQL都无法入职数据分析岗,更别说领导了。
SQL难吗?说实话,要写好,很难很难。但要通过SQL笔试这关,并不难。相信大伙都使用过Excel,用SQL实现excel 常用操作去学,感觉会比较具体。我自身也刚入数据岗不久,本文也是为自己巩固一下SQL。
数据是网上找到的销售数据,命名为sale,长这样:
01. 关联公式:Vlookup
vlookup是excel几乎最常用的公式,一般用于两个表的关联查询等。所以我先创建一个新表:复制sale表并筛选出地区仅为广州的,命名为sale_guang。
create table sale_guang
SELECT * from sale where city="广州";
需求:根据订单明细号关联两表,并且sale_guang只有订单明细号与利润两列
SELECT * from sale a
inner JOIN
(SELECT ordernum,profit from sale_guang) b
on a.ordernum=b.ordernum
02. 对比两列差异
需求:对比sale的订单明细号与sale_guang订单明细号的差异;
SELECT * from sale a
WHERE a.ordernum not in
(SELECT b.ordernum from sale_guang b);
03. 去除重复值
需求:去除业务员编码的重复值
SELECT * FROM sale
where salesnum not in
(SELECT salesnum from sale
GROUP BY salesman
HAVING COUNT(salesnum)>1)
04. 缺失值处理
需求:用0填充缺失值或则删除有地区名称缺失值的行。
--用0填充:
update sale set city = 0 where city = NULL
--删除有缺失值的行:
delete from sale where city = NULL;
05. 多条件筛选
需求:想知道业务员张爱,在北京区域卖的商品订单金额大于等于6000的信息。
SELECT * from sale
where salesman = "张爱"
and city = "北京"
and orderaccount >=6000;
06. 模糊筛选数据
需求:筛选存货名称含有"三星"或则含有"索尼"的信息。
SELECT * from sale
where inventoryname like "%三星%"
or 存货名称 like "%索尼%";
07. 分类汇总
需求:北京区域各业务员的利润总额。
SELECT city,sum(`profit`)
from sale
WHERE city = "北京"
GROUP BY `city`;
08. 条件计算
需求:存货名称含“三星字眼”并且税费高于1000的订单有几个?这些订单的利润总和和平均利润是多少?
--有多少个?
SELECT COUNT(*) from sale
where inventoryname like "%三星%"
and `tax` > 1000 ;
--这些订单的利润总和和平均利润是多少?
SELECT `ordernum`,SUM(profit),AVG(`profit`)
from sale
where inventoryname like "%三星%"
and `tax` > 1000
GROUP BY `ordernum`;
09. 删除数据间的空格
需求:删除存货名称两边的空格。
SELECT trim(inventoryname) from sale;
10. 合并与排序列
需求:计算每个订单号的成本并从高到低排序(成本 = 不含税金额 - 利润)
SELECT city,ordernum,
(Nontaxamount - profit) as cost
from sale
order by cost DESC;
总结:结构化查询语言(Structured Query Language)简称SQL,果然和它名字一样,查询起来得心应手,但做想做数据处理方面,能明细感受到比Python和excel吃力(也可能是我还没学好orz)。
SQL笔试题原题
贴一些我在面试时遇到过的SQL笔试题吧:
某数据服务公司:
Student表
Score表
(1)查询Student表中的所有记录的Sname、Ssex和Class列。
select sname,ssex,class from student;
(2)查询Score表中成绩在60到80之间的所有记录。
select * from score between 60 and 80;
(3)查询95033班和95031班的平均分。
select class,avg(degree) from Score a
join student b
on a.sno = b.sno
GROUP BY CLASS;
总之是比较简单的SQL笔试题了,当时很快就写完了。实际上这不是原题,不过我有印象就是考察这几个知识点,并且蛮简单的。
某手游公司的SQL笔试题(原题)
(1)建立表Student的语句写下来,表Student是由学号Sno,姓名Sname,性别Ssex,年龄Sage,所在系Sdept五个属性组成,其中学号属性不能为空,并且其值是唯一的。
create table Student_new
(sno varchar(20) PRIMARY KEY,
sname varchar(10),ssex char(2),
sage int,sdept varchar(25));
(2)在student 表中查询Sdept是“计算机”的学生所有信息并按SNO列排序。
select * from student
where sdept = "计算机"
order by sno ;
(3)在以上三个表中查询Ccredit为5并且Grade大于60的学生的学号、姓名和性别。
select a.sno,a.sname,a.ssex from student a
join (Course b ,SC c)
on a.sno=c.sno and b.cno =c.cno
where Ccredit = 5 and Grade > 60;
某互联网金融公司SQL笔试题(原题)
(1)表A和表B的交集:
SELECT a.cus_id from `表a` as a
INNER JOIN `表b` as b
on a.cus_id=b.cus_id;
(2)表A和表B的并集:
SELECT * from `表a`
UNION
SELECT * from `表b`;
(3)表A和表B的对称差:
SELECT * from `表a`
where cus_id not in (SELECT * from `表b`)
UNION
SELECT * from `表b`
where cus_id not in (SELECT * from `表a`);
(4)表A中存在但表B中不存在:
SELECT * from `表a`
WHERE cus_id not in (SELECT cus_id from `表b`);
NO.1
往期推荐
Historical articles
【Python自动化办公】分享几个好用到爆的模块,建议收藏!
用Python制作可视化GUI界面,一键实现证件照背景颜色的替换
【硬核原创】盘点Python爬虫中的常见加密算法,建议收藏!!
长按关注- 关于数据分析与可视化 -设为星标,干货速递
分享、收藏、点赞、在看安排一下?
边栏推荐
猜你喜欢
随机推荐
VS中使用BugTrap定位程序崩溃点
Jmeter TCP/UDP测试
【社媒营销】Facebook速推帖子如何运作?值得吗?
数据中台建设(八):数据服务体系建设
常用工具链和虚拟环境-Cygwin
05-分布式计算框架
Postman如何做接口自动化测试?
The LVS load balancing cluster and the deployment of the LVS - NAT experiment
常见钓鱼手法及防范
常用工具链和虚拟环境-msys2与mingw
ROS通信模块:秒懂话题通信
Summary of some interviews
Incorrect datetime value: ‘2022-01-01‘ for function str_to_date
Rust Web(三)—— 通过sqlx连接数据库(MySQL)
Incorrect datetime value: '2022-01-01' for function str_to_date
能添加任意贴图超级复布局的初级智能文本提示器(超级版)
一篇文章玩明白Stack-migration
DTD约束和Schema约束
leetcode:152. 乘积最大子数组
QWidget、QPushButton、