当前位置:网站首页>R语言:文本(字符串)处理与正则表达式
R语言:文本(字符串)处理与正则表达式
2022-07-31 11:12:00 【Mrrunsen】
处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强,DNA/RNA/AA等生物序列现在已经可以使用R来处理。
nchar 字符的个数
toupper 转换为大写字符
tolower 转换为小写字符
substr 求字符串的字串
grep 基于正则表达式的匹配
sub 基于正则表达式的替换
strsplit 字符串分割
paste 字符向量连接
match 匹配元素位置组成的向量
R语言处理文本的能力虽然不强,但适当用用还是可以大幅提高工作效率的,而且有些文本操作还不得不用。高效处理文本少不了正则表达式(regular expression),虽然R在这方面先天不高效,但它处理字符串的绝大多数函数都使用正则表达式。
0、正则表达式简介:
正则表达式不是R的专属内容,所以用0编号,这里也只简单介绍,更详细的内容请查阅其他文章。
正则表达式是用于描述/匹配一个文本集合的表达式。
所有英文字母、数字和很多可显示的字符本身就是正则表达式,用于匹配它们自己。比如 ‘a’ 就是匹配字母 ‘a’ 的正则表达式
一些特殊的字符在正则表达式中不在用来描述它自身,它们在正则表达式中已经被“转义”,这些字符称为“元字符”。
perl类型的正则表达式中被转义的字符有:. \ | ( ) [ ] { } ^ $ * + ?。被转义的字符已经有特殊的意义,如点号 . 表示任意字符;
方括号表示选择方括号中的任意一个(如[a-z] 表示任意一个小写字符ÿ
边栏推荐
- CoCube群机器人预览→资讯剧透←
- cesium-Web网页优化进阶
- 【Go事】一眼看穿 Go 的集合和切片
- 分布式事务——分布式事务简介、分布式事务框架 Seata(AT模式、Tcc模式、Tcc Vs AT)、分布式事务—MQ
- Initial JDBC programming
- 无法将“node.exe”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。
- 《JUC并发编程 - 高级篇》06 - 共享模型之不可变(不可变类的设计 | 不可变类的使用 | 享元模式)
- 5 open source Rust web development frameworks, which one do you choose?
- “带薪划水”偷刷阿里老哥的面经宝典,三次挑战字节,终成正果
- 透过开发抽奖小程序,体会创新与迭代
猜你喜欢
随机推荐
LeetCode 1161.最大层内元素和:层序遍历
502 bad gateway causes and solutions
What does "chmod 777-R filename" mean?
Usage of JOIN in MySQL
初始JDBC 编程
xmind使用指南(XMind具有下列哪些功能)
解决报错TypeError:unsupported operand type(s) for +: ‘NoneType‘ and ‘str‘
unity computeshader的可读写buffer
Redis缓存面临的缓存雪崩问题
"JUC Concurrent Programming - Advanced" 06 - Immutability of Shared Models (Design of Immutable Classes | Use of Immutable Classes | Flyweight Pattern)
Yarn安装配置(vsftpd安装配置)
ApiPost 真香真强大,是时候丢掉 Postman、Swagger 了
Three ways of single sign-on
Redis缓冲穿透和缓冲击穿工具类的封装
力扣shell刷题
web安全入门-黑苹果MAC系统安装
IBM SPSS Statistics 28软件安装包下载及安装教程
MySQL 的 limit 分页查询及性能问题
unity-shader-2
CoCube群机器人预览→资讯剧透←








