当前位置:网站首页>2Gcsv文件打不开怎么处理,使用byzer工具
2Gcsv文件打不开怎么处理,使用byzer工具
2022-06-26 15:06:00 【MonkeyKing_sunyuhua】
项目需要,需要将客户的环境的数据导出来做对对账分析,客户数据隐秘,不能提供调用接口,需要只能以csv文件的形式发出来。
但是一个2G的csv文件,大部分机器都会自己崩溃。还有一个方法就是拆分工具拆分,但是拆分后分析数据比较麻烦。
有一款Byzer的工具可以满足这个需求
官网地址:
支持私有环境部署,保证数据的隐私,搭建环境如下:
1、准备一台liunx机器,机器配置2核8G左右
2、下载byzer并安装
wget https://download.byzer.org/byzer/2.3.0.1/byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1.tar.gz
tar -zxvf byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1.tar.gz
cd byzer-lang-all-in-one-linux-amd64-3.1.1-2.3.0.1
3、启动byzer
./bin/byzer.sh start
4.可以访问byzer,但是不太友好,可以安装配套的可视化工具notebook

5、下载并安装notebook
wget https://download.byzer.org/byzer-notebook/1.2.0/Byzer-Notebook-1.2.0.tar.gz
tar -xvf Byzer-Notebook-1.2.0.tar.gz
6、notebook依赖mysql,需要提前安装一下mysql
可以使用docker-compose安装,其他的安装方式,自己百度一下
docker-compose.yml 文件
version: "2"
services:
mysql:
container_name: mysql
image: mysql:5.7
restart: always
volumes:
- ./mysql/data:/var/lib/mysql
- ./mysql/init:/docker-entrypoint-initdb.d
- /etc/localtime:/etc/localtime:ro
ports:
- "3306:3306"
environment:
MYSQL_ROOT_PASSWORD: "XXXXX"
TZ: "Asia/Shanghai"
command: --max_allowed_packet=32505856
7、调整notebook关于mysql的配置

路径地址
cd /home/Byzer-Notebook-1.2.0/conf

8、启动notebook
./bin/notebook.sh start

9.注册后即可访问使用

10、点击上传,上传自己的2G的csv文件


因为是2G的文件,上传比较慢,这里需要耐心的等待
11、新建笔记本,对文件进行查看

12、将刚刚导出的csv转化为表结构
load csv.`/tmp/upload/billing.csv` where header="true" as r3;
如果是xlsx文件
load excel.`/tmp/upload/billing.xlsx` where header="true" as r4;
注意
这里是反引号,不是单引号
13、至此就可以查看使用
select * from r3 limit 10 as 2022_06_24_r3;
在这里插入代码片
注意后面要带上 “as 表的别名” 这可能是byzer的特殊的标记方式。
select sum(BlendedCost) from r3 where payerAccountId=417966497442 as 417966497442_count;
支持所有的sql查询方式


附注:
如果出现这个错误,检查一下环境的JDK配置

如果出现访问不了9002,9003端口,检查一下安全组的设置
边栏推荐
- R language uses GLM function to build Poisson logarithm linear regression model, processes three-dimensional contingency table data to build saturation model, uses step function to realize stepwise re
- Unity C# 网络学习(九)——WWWFrom
- 数据库-完整性约束
- Pod of kubernetes
- 一键分析硬件/IO/全国网络性能脚本(强推)
- Halcon C# 设置窗体字体,自适应显示图片
- Redis-集群
- 数据库-序列
- Redis集群消息
- [async/await] - the final solution of asynchronous programming
猜你喜欢

【TcaplusDB知识库】TcaplusDB常规单据介绍

【TcaplusDB知识库】TcaplusDB系统用户组介绍

数据库-视图

Vsomeip3 dual computer communication file configuration
![[tcapulusdb knowledge base] tcapulusdb OMS business personnel permission introduction](/img/7b/8c4f1549054ee8c0184495d9e8e378.png)
[tcapulusdb knowledge base] tcapulusdb OMS business personnel permission introduction

【TcaplusDB知识库】TcaplusDB运维单据介绍

Halcon C# 设置窗体字体,自适应显示图片

Function: crypto JS encryption and decryption

【ceph】CephFS 内部实现(四):MDS是如何启动的?--未消化

RestCloud ETL抽取動態庫錶數據實踐
随机推荐
ETL过程中数据精度不准确问题
[tcapulusdb knowledge base] tcapulusdb doc acceptance - Introduction to creating game area
杜老师说网站更新图解
clustermeet
How to load the contour CAD drawing of the engineering coordinate system obtained by the designer into the new earth
Using restcloud ETL shell component to schedule dataX offline tasks
vue中缓存页面 keepAlive使用
JS之手写 bind、apply、call
R language GLM function logistic regression model, using epidisplay package logistic The display function obtains the summary statistical information of the model (initial and adjusted odds ratio and
One click GCC script installation
Is it safe to open a stock account through the account opening link of the broker manager? Or is it safe to open an account in a securities company?
Inaccurate data accuracy in ETL process
[tcapulusdb knowledge base] tcapulusdb doc acceptance - transaction execution introduction
Unity C # e-learning (10) -- unitywebrequest (1)
Bank of Beijing x Huawei: network intelligent operation and maintenance tamps the base of digital transformation service
Unity C# 网络学习(八)——WWW
5张图诠释了容器网络
Analysis of ble packet capturing debugging information
The intersect function in the dplyr package of R language obtains the data lines that exist in both dataframes and the data lines that cross the two dataframes
Principle of TCP reset attack