当前位置:网站首页>2Gcsv文件打不开怎么处理,使用byzer工具
2Gcsv文件打不开怎么处理,使用byzer工具
2022-06-26 15:06:00 【MonkeyKing_sunyuhua】
项目需要,需要将客户的环境的数据导出来做对对账分析,客户数据隐秘,不能提供调用接口,需要只能以csv文件的形式发出来。
但是一个2G的csv文件,大部分机器都会自己崩溃。还有一个方法就是拆分工具拆分,但是拆分后分析数据比较麻烦。
有一款Byzer的工具可以满足这个需求
官网地址:
支持私有环境部署,保证数据的隐私,搭建环境如下:
1、准备一台liunx机器,机器配置2核8G左右
2、下载byzer并安装
wget https://download.byzer.org/byzer/2.3.0.1/byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1.tar.gz
tar -zxvf byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1.tar.gz
cd byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1
3、启动byzer
./bin/byzer.sh start
4.可以访问byzer,但是不太友好,可以安装配套的可视化工具notebook

5、下载并安装notebook
wget https://download.byzer.org/byzer-notebook/1.2.0/Byzer-Notebook-1.2.0.tar.gz
tar -xvf Byzer-Notebook-1.2.0.tar.gz
6、notebook依赖mysql,需要提前安装一下mysql
可以使用docker-compose安装,其他的安装方式,自己百度一下
docker-compose.yml 文件
version: "2"
services:
mysql:
container_name: mysql
image: mysql:5.7
restart: always
volumes:
- ./mysql/data:/var/lib/mysql
- ./mysql/init:/docker-entrypoint-initdb.d
- /etc/localtime:/etc/localtime:ro
ports:
- "3306:3306"
environment:
MYSQL_ROOT_PASSWORD: "XXXXX"
TZ: "Asia/Shanghai"
command: --max_allowed_packet=32505856
7、调整notebook关于mysql的配置

路径地址
cd /home/Byzer-Notebook-1.2.0/conf

8、启动notebook
./bin/notebook.sh start

9.注册后即可访问使用

10、点击上传,上传自己的2G的csv文件


因为是2G的文件,上传比较慢,这里需要耐心的等待
11、新建笔记本,对文件进行查看

12、将刚刚导出的csv转化为表结构
load csv.`/tmp/upload/billing.csv` where header="true" as r3;
如果是xlsx文件
load excel.`/tmp/upload/billing.xlsx` where header="true" as r4;
注意
这里是反引号,不是单引号
13、至此就可以查看使用
select * from r3 limit 10 as 2022_06_24_r3;
在这里插入代码片
注意后面要带上 “as 表的别名” 这可能是byzer的特殊的标记方式。
select sum(BlendedCost) from r3 where payerAccountId=417966497442 as 417966497442_count;
支持所有的sql查询方式


附注:
如果出现这个错误,检查一下环境的JDK配置

如果出现访问不了9002,9003端口,检查一下安全组的设置
边栏推荐
- [tcapulusdb knowledge base] tcapulusdb doc acceptance - Introduction to creating game area
- R语言dplyr包summarise_at函数计算dataframe数据中多个数据列(通过向量指定)的均值和中位数、指定na.rm参数配置删除缺失值
- 杜老师说网站更新图解
- 【TcaplusDB知识库】TcaplusDB单据受理-建表审批介绍
- redis集群的重新分片与ASK命令
- SAP gui 770 下载
- Idea shortcut key
- 人力资源导出数据 excel VBA
- 10分钟了解BIM+GIS融合,常见BIM数据格式及特性
- Notes on brushing questions (19) -- binary tree: modification and construction of binary search tree
猜你喜欢

Halcon C# 设置窗体字体,自适应显示图片

Common operation and Principle Exploration of stream

Database - integrity constraints

使用RestCloud ETL Shell组件实现定时调度DataX离线任务
MySQL数据库基本SQL语句教程之高级操作

RestCloud ETL抽取动态库表数据实践

Talk about the RPA direction planning: stick to simple and valuable things for a long time

【TcaplusDB知识库】TcaplusDB单据受理-创建游戏区介绍

【ceph】CephFS 内部实现(三):快照

Inaccurate data accuracy in ETL process
随机推荐
【TcaplusDB知识库】TcaplusDB单据受理-创建游戏区介绍
R language dplyr package summary_ The at function calculates the mean and median of multiple data columns (specified by vectors) in the dataframe data, and specifies na RM parameter configuration dele
Analysis of ble packet capturing debugging information
Seurat转h5ad总结
【TcaplusDB知识库】TcaplusDB单据受理-建表审批介绍
10 minutes to understand bim+gis fusion, common BIM data formats and characteristics
vsomeip3 双机通信文件配置
[tcapulusdb knowledge base] Introduction to tcapulusdb general documents
MongoDB系列之适用场景和不适用场景
Unity C # e-learning (10) -- unitywebrequest (1)
Unity C# 网络学习(九)——WWWFrom
One click GCC script installation
[tcapulusdb knowledge base] Introduction to tcapulusdb data structure
Using restcloud ETL shell component to schedule dataX offline tasks
Restcloud ETL extraction de données de table de base de données dynamique
[tcapulusdb knowledge base] tcapulusdb OMS business personnel permission introduction
Unity C# 网络学习(十)——UnityWebRequest(二)
Advanced operation of MySQL database basic SQL statement tutorial
Unity C# 网络学习(十)——UnityWebRequest(一)
shell脚本多进程并发写法实例(高阶修炼)