当前位置:网站首页>一次做数据报表的踩坑经历,让我领略了数据同步增量和全量的区别
一次做数据报表的踩坑经历,让我领略了数据同步增量和全量的区别
2022-08-03 14:53:00 【InfoQ】

一、背景介绍

二、问题概述
- 全量导入:定时的将所有数据更新一次,然后重新进行导入。如果数据量不大的话,这种方案就适合,但是考虑到,如果以后数据量庞大的话,这种方案效率不高。
- 增量导入:数据库中的每张表都会有一个更新时间的字段,如果数据有更新,只需要根据更新时间的字段,将最新的一条数据拉过来,然后覆盖掉之前的数据,这样的好处就是,数据量不会变得很大,不会有冗余的脏数据产生,感觉效率挺不错的。

select count(*) from xxx ;


三、聊聊全量和增量
- 数据如果保留多份或者多处使用,就会存在一致性问题,解决一致性问题就需要同步,
- 同步分为两大类:全量和增量
- 每天定时(避开业务高峰期)或者周期性,全量把数据从一个地方拷贝到另外一个地方;
- 采用直接全部覆盖(使用“新”数据覆盖“旧”数据);或者更新逻辑(覆盖前判断下,如果新旧不一致,就更新。
- 增量的基础是全量,就是要使用某种方式先把全量数据拷贝过来,然后再采用增量方式同步更新;
- 抓取某个时刻(更新时间)或者检查点(checkpoint)以后的数据来同步,不是无规律的全量同步。
- 全量是有规律的、周期性的;增量是无规则、无规律的;
- 增量的基础是全量;
- 全量会让新的数据覆盖掉旧的数据,而增量无法覆盖旧数据;

四、总结

边栏推荐
猜你喜欢
DeepLink在转转的实践
System learning Shell regular expressions
MMA安装及使用优化
Currency ATM: Solana Wallet Has Unknown Security Vulnerability, A Large Number Of Users' Digital Assets Are Stolen
Lecture 2 Software Life Cycle
彻底搞懂云桌面配置及实践踩坑【华为云至简致远】
Mysql 生成排序序号
网络中的交换机和路由器
你把 vite打包 玩明白
A high-performance creation book, ASUS Dreadnought Pro15 2022 is completely enough for daily photo editing and editing!
随机推荐
问题1:批量测试(正式测试)之前应该怎么做?
输出1!+2!+3!+......+n!
QT之Mysql驱动
redis的使用方法
PAT乙级-B1010 一元多项式求导(25)
PAT乙级-B1015 德才论(25)
基于ModelArts的动漫头像自动生成丨【华为云至简致远】
liunx服务器nohup不输出日志文件的方法
php类的析构函数:__destruct
devops-2:Jenkins的使用及Pipeline语法讲解
DeepLink在转转的实践
ffplay视频播放原理分析
How to connect a VMware virtual machine to the network "recommended collection"
高性能创作本,日常修图剪辑选华硕无畏Pro15 2022完全足矣!
使用华为HECS云服务器打造Telegraf+Influxdb+Grafana 监控系统【华为云至简致远】
程序员面试必备PHP基础面试题 – 第十八天
连亏四个月,赚不回电费,预制菜经销商恐成“韭菜”?
[The Beauty of Software Engineering - Column Notes] 36 | What exactly do DevOps engineers do?
PAT乙级-B1011 A+B 和 C(15)
【软件工程之美 - 专栏笔记】36 | DevOps工程师到底要做什么事情?