DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task

Overview

项目概述

DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候,领域词汇可以作为一项重要的领域特征加入到模型当中,可以提升领域性模型的性能。

项目由来

1、领域性是自然语言处理中十分重要的一类问题,不同的领域之间在文本形式、用词、表达上都存在差异。而领域词汇作为一个领域的表示是用来区分领域的常规手段,例如,在没有标注语料进行有监督的领域文本分类中,利用领域关键词进行匹配、计数、排序的方式即可以完成这一任务。
2、当前,纵观中文开放语言资源,并未有出现较大规模的领域性资源,如领域的wordembedding词向量、领域的关键词库。而这一资源在传统方法进行文本处理具有较大价值。

为了填补这一空白以及对领域性词库进行基础语言资源建设,本项目被提出。

数据来源

通过对领域垂直网站的解析、领域文本的特征词提取,近几年来对领域词典的收集与整理,人工清洗等处理工作之后, 最终形成了数学科学、人力招聘、天文科学、餐饮食品、外语学习等共计68个领域,共计916万词的较大规模领域词汇库。

数据介绍

数据放在data文件夹下,共68个txt文件,每个文件以领域的名称命名。每个文件中的每一行包括两列(以tab符分开),分别代表词语名称以及对应的权重。文件中的词语按照权重从大到小的方式排列,权重越高,该词对于领域的代表性或区分能力就越强。在使用的过程中,我们可以设定具体的权重域值在选用不同的词语来用于特定任务。

词典样例

序号 领域 个数 举例
1 数学科学 17,287 定义域、值域、半群、悖论、本原多项式、闭包、变换群、边连通度、不变因子、差集、超滤子、存在量词、代数、代数闭域、单射
2 人力招聘 447,606 销售代表、产品经理、销售经理、电话销售、阿里云、客户经理、销售精英、销售工程师、集团总部、销售主管、商务专员、客服专员、课程顾问、Manager、销售助理
3 天文科学 4,135 天体化学、天体力学、白洞、本星系群、不规则星系、垂直圈、地面天文学、第一宇宙速度、动力学宇宙学、方位天文学、高能天体物理学、观测宇宙学、光学天文学、航海天文学、航天动力学
4 餐饮食品 201,163 六堡茶、参龟汤、婆参扒大鸭、虾籽大乌参、红扒鱼肚、蛤什蟆汤、参女、五盖山米茶、皖西黄大茶、涌溪火青、夫妻肺片、普洱茶、六堡散茶、漆蜡妙食、鱼羊鲜
5 外语学习 1,150 褒义、被动语态、比较级、贬义、表语、表语从句、宾补、宾格、宾语、宾语从句、并列复合句、并列句、并列连词、不定代词、不定冠词
6 电影影视 114,577 小查和寇弟的游轮生活、邪斗邪、邪完再邪、和莎莫的五百天、比利曼蒂和死神的大反击、融入那芒芒的大海里、阿扎泽勒、圣棱的星光、他们也忒不仗义了、吉姆贾木许、神探伽俐略、仔表栖议甲弟、叶卡捷琳堡音乐戏剧剧院、锁叶和属于自己的春天、神奇四侠
7 环境科学 7,891 层积云、热岛效应、单区电除尘器、逆温、卷层云、卷积云、卷云、低压槽、厄尔尼诺现象、副热带高压、高压脊、锢囚锋、积雨云、蒙古气旋、气候变化
8 钢铁冶金 89,114 炉料、炉衬、梭车、偏心轮、炉渣流动性、锰矿、软熔带、炉顶、耐热钢、脱碳、除尘风机、连续采煤机、锚杆机、扒渣、齿轮钢
9 印刷印染 464 包装薄膜、包装防伪、标识防伪、玻璃油墨、产品防伪、打样机、电晕笔、分切机、复合机、覆膜机、功能薄膜、挂历印刷、刮墨刀、海报印刷、降解薄膜
10 美容美发 9,662 阿莎露、娜莎迪、内眦赘皮、重睑术、艾茜凯、洗得你净、兰芝、欧莱雅、虾青素、削刀式划剪、扛薄剪、碧欧泉、高丝、赫莲娜、护肤
11 法律诉讼 62,717 行政处罚、送达、书证、行政诉讼法、行政复议、指定管辖、合议庭、第三人、二审、民事诉讼法、诉讼时效、合并审理、法定代表人、司法解释、刑事诉讼法
12 计算机业 55,037 字符串、排序、标识符、队列、访问级别、局部变量、安全类、安全内核、安全识别、安全域、绑定、包过滤、保留字、备份与恢复、编辑程序
13 水利工程 30,584 拦污栅、电动蝶阀、管件、检查井、启闭机、手动蝶阀、手动葫芦、消力池、闸室、帮扎、包箍、边墩、草袋、承插管、粗料石
14 手机数码 10,955 阿尔卡特、金立、奥盛、天时达、大显、首信、多普达、萨基姆、斯达康、索尼爱立信、摩奇、奥乐、柏卡、爱立信、迪比特
15 音乐歌曲 8,276 月亮代表我的心、倒带、搁浅、回到过去、简单爱、菊花台、蒲公英的约定、日不落、听妈妈的话、退后、夜曲、音高、蔡依林、陈好、陈慧琳
16 地产开发 14,708 锦绣花园、东方家园、东方巴黎、和平小区、红河小区、华侨饭店、金河小区、凯旋城、临江花园、世纪花园、世纪嘉园、世茂滨江新城、银河小区、中山花园、丽景苑
17 汉语言学 32,8050 长虫、背时、胰子、刺挠、旮旯、上该、要得、茅房、邋遢、落雨、二杆子、爹爹、宝气、日白、棒老二
18 医药医学 54,9008 毒邪内闭证、参附注射液、邪盛正衰、夹蛇龟肉、夹蛇龟、直接盖髓术间接盖髓术干髓术、参附汤、盖革缪勒计数器、荜澄茄、大敦、南沙参、白虎加人参汤、桡尺近侧关节、归地参术汤、地骨皮
19 网络文学 95,331 竺氏三姐弟、参神契、明道参神契、元婴、缩地术、朱苹、地行术、胖都都、似模似样、水晶血龙参、渡劫、盖运聪、和氏之璧、詹姆、沐王府
20 休闲活动 59,186 说、哪府并哪县、佛挡杀佛、罢罢罢来休休休、万、番、拾玉镯、打金枝、军、吾乃江东小霸王孙伯符、丁广和、会、了、贾、得
21 交通运输 27,230 信号机、北京铁路局、沈阳铁路局、车辆段、车务段、工务段、哈尔滨铁路局、岔心、列车长、蒸汽机车、济南铁路局、南昌铁路局、上海铁路局、郑州铁路局、abs防抱死刹车系统
22 矿业勘探 20,817 捕收剂、矿车、带式输送机、化合水、精煤、炼焦煤、煤仓、煤泥、起泡剂、选煤厂、闭路破碎、粗磨、粗碎、二分器、翻车机
23 地点名称 1,338,275 新村、和平村、胜利村、新建村、太平村、向阳村、团结村、新华村、东山村、前进村、劲霸男装、红旗村、东风村、以纯、光明村
24 船舶工程 5,424 舱壁板、风暴扶手、锚链管、锚链筒、白昼信号灯、车钟、充放电板、电笛、舵杆、舵机、舵叶、发电机屏、海图灯、空气断路器、雷达应答器
25 敏感用词 13,595 抢盐、AV、hz、sm、PK、PX、C4、usk、flg、GCD、gcd、GHB、rfa、sex、TND
26 旅游交通 52,848 报国寺、本溪水洞、大佛寺、大明寺、独乐寺、夫子庙、观音山、广胜寺、寒山寺、黑龙潭、极乐寺、蠡园、隆兴寺、鲁迅故居、明孝陵
27 机械工程 9,164 磨床、铣床、滚子链、键槽、蜗杆、蜗轮、镗床、脱碳、保持架、齿距、齿宽、传动链、大齿轮、导程、碟形弹簧
28 考古挖掘 5,713 二里头文化、辛店文化、朱开沟文化、夏家店文化、彭头山文化、齐家文化、二里岗文化、石家河文化、贾湖骨笛、云纹铜禁、郑振香、半坡遗址、大明宫遗址、阿房宫遗址、汉长安城遗址
29 人文政治 13,189 坚持改革开放、坚持和完善人民代表大会制度、建设社会主义法治国家、我代表中共中央、向香港特别行政区同胞、高举中国特色社会主义伟大旗帜、转变发展方式、多种所有制经济共同发展的基本经济制度、改革开放以来、开辟了中国特色社会主义道路、毛泽东思想、维护世界和平与促进共同发展、病有所医、劳有所得、老有所养
30 电力电气 50,429 高压侧、厂用电率、模芯和模套对准中心调整、栅差、空侧、氢侧、裕度、奥科勃纶、掺的石英光纤、缩颈模、辗页辗页橡辗页塑、揭大盖、拉线模模孔光洁度模角等光学检测仪、铁芯、有功功率
31 网络游戏 52,2150 虎窟佛调行、此佛彼佛、伽邪舍多链、伽那格毒手蛇使、长剑、藏千邪、吸血、金创药、破甲、布鞋、藏邪、长邪、长邪带、长邪护手、长邪戒
32 纺织服装 28,111 平纹布、风衣、夹克、九分裤、里料、棉绳、耳仔、西裤、氨纶、蝙蝠袖、插肩袖、翻领、口袋、裤长、立领
33 办公文教 6,135 硒鼓、李浩东、王嘉豪、彩喷纸、充电辊、磁辊、定影膜、定影组件、粉盒、分离爪、感光鼓、鼓芯、加热组件、墨粉、色带
34 组织机构 369,709 酒店名称、软件学院、校医院、管理学院、北京工业大学、广东工业大学、广东外语外贸大学、广州大学、广州中医药大学、华南理工大学、华南师范大学、网络中心、广州美术学院、河北大学、华南农业大学
35 化学化工 40,316 苛化度苛化作用苛化率、没食子酸、奎哪啶红、助色团、单分子反应、瞞、电子亲合势、阿伏伽德罗数、丁咯地尔、盐酸丁咯地尔、乙烯、磁量子数、副价、均裂、量子数
36 诗词歌赋 772,992 泊思禅寺呈廖明略其地盖干越寺在琵琶洲上、送矰吴尉并属寄声吴交代尉比行余亦行追作、裴纶著作见期行日延宿所居既至裴已行因书寄、送常宁吴尉并属寄声吴交代尉比行余亦行追作、次韵追和钱穆父内翰勰赵伯坚大卿令铄游颍湖、蕃有诗谢萧伯和见访伯和和之节推丈见而同作、僮有弹鹭置池上者予解其缚纵之而不去盖不饮、与硕父沈弟伯仲晚行河堤硕父欲作小亭于其上、王虞部惠佳篇叙述昔与湘潭亡弟游从仍以亡弟、舟中咏落景余清晖轻桡弄溪渚之句盖孟浩然耶、自道场山至何山读故人洪舜俞内翰诗刻追和、龟胜寺枸杞大如椽陈日华发其根而枯堂犹以地、永丰祝子益和予诗见寄许见访以长句谢之且贤、次韵德美碧感旧之什且约胡广仲伯逢季丘来会、舟宿南尉岸下夜夕不寐思丁老小山戏成长韵
37 社会科学 19,231 第三人、承包合同、出资、法定代表人、国有资产、合伙协议、原件、不当得利、法学家、国际经济法、国际私法、民事诉讼法、善意第三人、违法、刑法
38 军事情报 76,249 狙击步枪、突击步枪、无情角斗士的邪纹护手、型潜艇、无情角斗士的邪纹长裤、阿史那弥射、级驱逐舰、胡庆余堂牌参参胶囊、步兵战车、无壳弹、级潜艇、自动步枪、莫折大提起义、勒伯勒东、叶卡捷琳堡号核潜艇
39 农林牧渔 38,611 广叶参属、大参属、毒参属、佛肚苣苔属、革叶荠属、吡弗咯菌素、大苞鞘花属、大丁草属、大爪草属、女菀属、莎菀属、绿尾大蚕蛾、围绿单爪鳃金龟、咯菌腈、天山邪蒿属
40 文学名著 235,996 种柳成行夹流水、皂盖朱轮别似空、豸角当邪触、太虚幻境、满铺着寂寞和黑暗、自惟朴且疏、张生马瘦衣且单、早寒风摵摵、浣溪沙、探春、生命也是这般的一瞥么、并仰空若思、叶尾娜、秦女休行、自弄还自罢
41 新番动漫 152,984 醞、骗、苢、颯、黨、芭、賩、问、覫、鳧、莫、韧、颙、鋨、駩
42 网络用语 23,972 冰天雪地掩面泪奔、好苦、举手、看好你哦、困揉眼睛、来呀挑衅、脸红掩面、列队、皿哪里跑、摸摸头、人击掌、呜呜呜、凹凸曼、拜托啦人、抱抱
43 市场购物 6,3732 缪缪、艾拓、盖奇、杰恩万堡、卡莎布兰卡、娜尔思、阿莎琪、阿她琪、阿枝、艾盟、艾娜斯、艾茜芬、奥联金盟、奥倩、奥诗裳
44 电子工程 6,107 传输线、电偶极子、介电损耗、居里温度、特征阻抗、插入损耗、分频器、椭圆极化、无源网络、线极化、有源网络、圆极化、驻波比、按比例缩小、暗电流
45 金融财经 605,698 L.P.、Ltd.、LLC、数在校数、学生数在校数、Inc.、Limited、质押、LP、拓日新能、拓尔思、国债、中国平安、中国人寿、中信证券
46 古代历史 114,701 大畜利貞不家食吉、恒星什宿度、虞陆张骆陆吾朱传、棍噶扎勒参、大庶长、琅邪、孙和、刺史、召陵之盟、巴而术阿而忒的斤、阿史那思摩、莫折大提、仆射、石重贵、陆景
47 世界哲学 20,627 费尔巴哈、阶级性、经院哲学、拉布里奥拉、李卜克内西、两点论、空亡、纳甲、天刑、阿多诺、鲍威尔、伯恩施坦、布哈林、不可知论、布洛赫
48 通信工程 3,814 单稽指令、未说娩量、中止的椎、副帧、视见区、无线网卡、集合差、工厂说瞄、侧音、数位叠加和、符号差、单地址指令、单地址信息、单赋值语言、单钮鼠标器
49 人物名称 1,572,202 醞、骗、苢、颯、黨、芭、张鑫、賩、问、李娟、李莉、覫、刘佳、莫、鳧
50 世界宗教 132,295 大阿阇黎佛智足、佛前佛后难、佛世差摩竭、东方亦有阿閦鞞佛、鞞侈遮罗那三般那、萨婆僧伽三摩地伽兰地、前佛后佛、第十八祖伽邪舍多、阿悉多伽那、佛不见身知是佛、拘那含牟尼佛、邻阿伽色、阿伽色、大须弥佛、大焰肩佛
51 地理测绘 53,610 侧分泌说、均变说、夹石、底栖的、单钭的、单栅笔石、风棱石、溺谷、无结构腐殖体、大陆车阀说、底辟构造、陆间裂谷系、地柱说、出射角、红帘石
52 民间习俗 1,365 八字官星太多、八字无比劫、八字无官星、八字有比劫、八字有官星、白虎持势、白腊金、背禄逐马、比肩劫财与地支、比肩劫财与天干、比劫、比劫帮身、比劫夺财、比劫克财、壁上土
53 书法艺术 28,266 三击掌、拾玉镯、单弦、苏州弹词、打金枝、副净、慢板、四进士、武松打虎、北京琴书、二人转、河南坠子、湖北大鼓、天津时调、高凤翰
54 期货期权 1,300 热卷、铜、铝、螺纹钢、锡、锌、镍、PTA、动力煤、菜粕、豆粕、硅铁、玉米淀粉、PVC
55 土木工程 56,720 等参单元等参数单元等参元、填石、盖梁、拱脚、嵌岩桩、无侧限抗压强度、翼缘、抹角、似棱体、似棱体公式、单墩单墩、刚度比劲度比、内排水系统、伸缩缝、弯曲刚度抗弯劲度
56 安全工程 4,051 安全性能、疏散时间、隔离栅、灭火器材、安全标志、安全标准、安全防护、安全功能、安全认证、安全设备、安全准则、不安全行为、不安全状态、地下开采、二氧化碳灭火器
57 材料包装 1,473 焊接面、奥丽斯纹、百花纹、百家姓纹、白牛皮、宝石兰、本白、编织纹、彩胶、茶花纹、充皮纸、大鳄鱼纹、大玫瑰纹、灯笼纹、蝶影纹
58 教育教学 111,449 旅游管理、江西师范大学、电子信息科学与技术、西南交通大学、郑州大学、教务处、见恶如探汤、麦比乌斯圈、3、西北大学、北方工业大学、北京第二外国语学院、北京工商大学、北京工业大学、北京化工大学
59 家居装饰 8,668 车脚、搭脚仔凳、汉代陶柜、什景灯、折屏、转屏、眠之堡、松堡王国、阿里斯顿、九牧、林内、奥地雅、白夹竹、大边和抹头、大唐合盛
60 工业设计 7,150 急流槽、弯沉、压实度、沉降缝、底基层、钢筋笼、钢筋砼、浆砌片石、路堑、路缘石、清表、松铺厚度、圆管涵、锥坡、产品设计
61 物理科学 12,989 临界指数、布儒斯特角、产生算符、场点、狄拉克方程、对易、对易关系、反射光栅、夫琅禾费衍射、光阑、归一化、基态、角放大率、勒让德变换、洛伦兹变换
62 体育运动 48,602 奥伦塞彭特、范那佛洛、彼得伯勒联、法恩伯勒、什鲁斯伯里城、大蒙特基奥、哈万特和滑铁卢村、索尔兹伯里城、奥吉贾奥佛埃、奥锡拉库扎、奥伦塞、奇彭纳姆城、艾思莫茨、班伯里联、佛特
63 航空航天 682 副翼、起落架、襟翼、升降舵、油滤、那拉提、戀攀椀、挀栀愀渀最、猀栀愀渀最、被释放、不安全事件、部分功率、不工作、不亮、不能复位
64 建筑装潢 32,826 夹景、侧脚、丁顺隔皮砌式、副景、屏石、栅顶、尾景、佛座、普柏枋、寻杖合角造、侧天窗、单材拱、单风道系统、盖瓦、和玺彩画
65 广告传媒 166 编辑机、彩喷纸、充气模型、促销台、灯箱布、分支器、挂历、光发射机、广告板、广告机、广告牌、广告旗杆、广告条幅、光接收机、光学摄像机
66 汽车行业 10,294 杂物箱、机油泵、倒车镜、倒车雷达、脚踏板、分离轴承、半轴、换挡杆、节温器、转向灯开关、保险杠、滚针轴承、活塞销、通气塞、油箱盖
67 管理科学 20,751 不孕不育、预防成本、最低库存、最高库存、安全班前会、安全标志使用导则、安全色、班前会、班前会记录、搬运分析、班组建设、备品备件、闭环、闭环与关闭、必要动作
68 动植生物 314,030 鳉、尾棘无壳侧鳃、无壳侧鳃属、单序波缘大参、单刺侧红糠虾、非洲侧颈龟属、六结侧颈龟、六峰侧颈龟、南美侧颈龟属、奥氏抖尾地雀、无角陶塞特羊、显脉大参、短梗大参、盖革氏离子计数、蓝无壳侧鳃

项目总结

1、本项目开放了一个涵盖68个领域,带有行业代表性权重的领域词库,规模达到了916万词,是目前开放词典资源中较大规模的一个,填补了一定的空缺。
2,领域词汇库的构建和开放,是一项基础、必要且重要的工作。可以通过领域开放文本进行挖掘,如基于垂直网站解析、文本特征词提取等诸多方法来实现。
3,关于领域词汇知识库的构建方法和理论,可以参考之前写的博客《领域词汇知识库的类型、可用资源与构建技术漫谈》:https://blog.csdn.net/lhy2014/article/details/103995629。
4,语言资源、经典词库的构建,与目前盛行的深度学习自然语言处理并行不悖。将已构建好的领域词库或者知识库融合到深度学习模型当中,是一个很好的前进方向。需要且必要地关注底层语义资源的建设。

关于作者

刘焕勇,liuhuanyong,现任360人工智能研究院算法专家,前中科院软件所工程师,主要研究方向为知识图谱、事件图谱在实际业务中的落地应用。
得语言者得天下,得语言资源者,分得天下,得语言逻辑者,争得天下。
1、个人主页:https://liuhuanyong.github.io。
2、个人博客:https://blog.csdn.net/lhy2014/。
3、个人公众号:老刘说NLP。
欢迎对自然语言处理、知识图谱、事件图谱理论技术、技术实践等落地应用的朋友一同交流。

Owner
liuhuanyong
the man who understand languages get the whole world
liuhuanyong
🤗 Transformers: State-of-the-art Natural Language Processing for Pytorch, TensorFlow, and JAX.

English | 简体中文 | 繁體中文 State-of-the-art Natural Language Processing for Jax, PyTorch and TensorFlow 🤗 Transformers provides thousands of pretrained mo

Hugging Face 77.2k Jan 03, 2023
A Streamlit web app that generates Rick and Morty stories using GPT2.

Rick and Morty Story Generator This project uses a pre-trained GPT2 model, which was fine-tuned on Rick and Morty transcripts, to generate new stories

₸ornike 33 Oct 13, 2022
End-to-end MLOps pipeline of a BERT model for emotion classification.

image source EmoBERT-MLOps The goal of this repository is to build an end-to-end MLOps pipeline based on the MLOps course from Made with ML, but this

Dimitre Oliveira 4 Nov 06, 2022
Ray-based parallel data preprocessing for NLP and ML.

Wrangl Ray-based parallel data preprocessing for NLP and ML. pip install wrangl # for latest pip install git+https://github.com/vzhong/wrangl See exa

Victor Zhong 33 Dec 27, 2022
Artificial Conversational Entity for queries in Eulogio "Amang" Rodriguez Institute of Science and Technology (EARIST)

🤖 Coeus - EARIST A.C.E 💬 Coeus is an Artificial Conversational Entity for queries in Eulogio "Amang" Rodriguez Institute of Science and Technology,

Dids Irwyn Reyes 3 Oct 14, 2022
State of the Art Natural Language Processing

Spark NLP: State of the Art Natural Language Processing Spark NLP is a Natural Language Processing library built on top of Apache Spark ML. It provide

John Snow Labs 3k Jan 05, 2023
A Fast Command Analyser based on Dict and Pydantic

Alconna Alconna 隶属于ArcletProject, 在Cesloi内有内置 Alconna 是 Cesloi-CommandAnalysis 的高级版,支持解析消息链 一般情况下请当作简易的消息链解析器/命令解析器 文档 暂时的文档 Example from arclet.alcon

19 Jan 03, 2023
An open collection of annotated voices in Japanese language

声庭 (Koniwa): オープンな日本語音声とアノテーションのコレクション Koniwa (声庭): An open collection of annotated voices in Japanese language 概要 Koniwa(声庭)は利用・修正・再配布が自由でオープンな音声とアノテ

Koniwa project 32 Dec 14, 2022
[NeurIPS 2021] Code for Learning Signal-Agnostic Manifolds of Neural Fields

Learning Signal-Agnostic Manifolds of Neural Fields This is the uncleaned code for the paper Learning Signal-Agnostic Manifolds of Neural Fields. The

60 Dec 12, 2022
本项目是作者们根据个人面试和经验总结出的自然语言处理(NLP)面试准备的学习笔记与资料,该资料目前包含 自然语言处理各领域的 面试题积累。

【关于 NLP】那些你不知道的事 作者:杨夕、芙蕖、李玲、陈海顺、twilight、LeoLRH、JimmyDU、艾春辉、张永泰、金金金 介绍 本项目是作者们根据个人面试和经验总结出的自然语言处理(NLP)面试准备的学习笔记与资料,该资料目前包含 自然语言处理各领域的 面试题积累。 目录架构 一、【

1.4k Dec 30, 2022
Dé op-de-vlucht Pieton vertaler. Wereldwijd gebruikt door meer dan 1.000+ succesvolle bedrijven!

Dé op-de-vlucht Pieton vertaler. Wereldwijd gebruikt door meer dan 1.000+ succesvolle bedrijven!

Lau 1 Dec 17, 2021
A collection of Korean Text Datasets ready to use using Tensorflow-Datasets.

tfds-korean A collection of Korean Text Datasets ready to use using Tensorflow-Datasets. TensorFlow-Datasets를 이용한 한국어/한글 데이터셋 모음입니다. Dataset Catalog |

Jeong Ukjae 20 Jul 11, 2022
A complete NLP guideline for enthusiasts

NLP-NINJA A complete guide for Natural Language Processing in Python Table of Contents S.No. Topic Level Meaning 1 Tokenization 🤍 Beginner 2 Stemming

MAINAK CHAUDHURI 22 Dec 27, 2022
Semi-automated vocabulary generation from semantic vector models

vec2word Semi-automated vocabulary generation from semantic vector models This script generates a list of potential conlang word forms along with asso

9 Nov 25, 2022
RoNER is a Named Entity Recognition model based on a pre-trained BERT transformer model trained on RONECv2

RoNER RoNER is a Named Entity Recognition model based on a pre-trained BERT transformer model trained on RONECv2. It is meant to be an easy to use, hi

Stefan Dumitrescu 9 Nov 07, 2022
SAINT PyTorch implementation

SAINT-pytorch A Simple pyTorch implementation of "Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing" based on https://arx

Arshad Shaikh 63 Dec 25, 2022
One Stop Anomaly Shop: Anomaly detection using two-phase approach: (a) pre-labeling using statistics, Natural Language Processing and static rules; (b) anomaly scoring using supervised and unsupervised machine learning.

One Stop Anomaly Shop (OSAS) Quick start guide Step 1: Get/build the docker image Option 1: Use precompiled image (might not reflect latest changes):

Adobe, Inc. 148 Dec 26, 2022
Flexible interface for high-performance research using SOTA Transformers leveraging Pytorch Lightning, Transformers, and Hydra.

Flexible interface for high performance research using SOTA Transformers leveraging Pytorch Lightning, Transformers, and Hydra. What is Lightning Tran

Pytorch Lightning 581 Dec 21, 2022
Open-source offline translation library written in Python. Uses OpenNMT for translations

Open source neural machine translation in Python. Designed to be used either as a Python library or desktop application. Uses OpenNMT for translations and PyQt for GUI.

Argos Open Tech 1.6k Jan 01, 2023
Conversational text Analysis using various NLP techniques

Conversational text Analysis using various NLP techniques

Rita Anjana 159 Jan 06, 2023