当前位置:网站首页>Pattern matching: The gestalt approach一种序列的文本相似度方法
Pattern matching: The gestalt approach一种序列的文本相似度方法
2020-11-06 01:28:00 【IT界的小小小学生】
转载请注明原创:https://blog.csdn.net/HHTNAN
Pattern matching: The gestalt approach
python 比较两个序列的相似度,不需要分词
案例1
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="股癣是什么样子的?怎么治疗股癣好?"
print (difflib.SequenceMatcher(None,a,b).ratio())
输出:
0.06666666666666667
案例2
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="做子宫肌瘤微创手术具体费用"
print (difflib.SequenceMatcher(None,a,b).ratio())
输出:
0.769230769
案例3
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="具体费用做子宫肌瘤微创手术"
print (difflib.SequenceMatcher(None,a,b).ratio())
输出:
0.6923076923076923
案例4
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="具体费用子宫肌瘤做微创手术"
print (difflib.SequenceMatcher(None,a,b).ratio())
0.6153846153846154
通过上面的案例可以看出本算法侧重的,是序列的相似性。会忽视主体的词义、语义。
该算法计算返回的分数为共同发现的序列字符数的两倍除以两个字符串中的字符总数; 得分以整数形式返回,反映百分比匹配。
目前猜测算法计算公式,
如果序列中位置没有完全匹配,如案例3,则其计算分数为9/13,9为最大公共字串,13为总字符序列数,案例4为8/13的结果,理解为4+4/13的结果。那么问题来了为什么案例2中最大9为最大公共字串的分数是那么高,应该是有一个位置完全一致得分+1.即其结果理解为9+1/13得到的结果。以上猜想均为根据测试进行猜想,并未进行有效验证,并不权威哦,后面我找到论文后拜读下,再做整理。(值得注意的是再进行过程中是以B字符为基准进行的。)
案例5
import difflib
a=“10个月宝宝贫血”
b=“10个月宝宝流鼻血”
print (difflib.SequenceMatcher(None,a,b).ratio())
输出
0.8235294117647058
(7+8)+1/len(a)+len(b)=7*2/8+9=0.8235294117647058
转载请注明原创:https://blog.csdn.net/HHTNAN
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/87933434
边栏推荐
- 8.2.2 inject bean (interceptor and filter) into filter through delegatingfilterproxy
- 网络安全工程师演示:原来***是这样获取你的计算机管理员权限的!【***】
- PMP考试心得
- 如何在Windows Server 2012及更高版本中将域控制器降级
- (1)ASP.NET Core3.1 Ocelot介绍
- vite + ts 快速搭建 vue3 專案 以及介紹相關特性
- 我们编写 React 组件的最佳实践
- 9.2.2 parse and parseconfiguration method (XML configuration builder analysis) - SSM in depth analysis and project practice
- VUEJS开发规范
- React 高阶组件浅析
猜你喜欢
随机推荐
C语言100题集合004-统计各个年龄阶段的人数
刷了LeetCode的链表专题,我发现了一个秘密!
【C/C++ 2】Clion配置与运行C语言
NodeJs爬虫抓取古代典籍,共计16000个页面心得体会总结及项目分享
9.2.2 parse and parseconfiguration method (XML configuration builder analysis) - SSM in depth analysis and project practice
按指定基准对齐的分组运算
9.2.4 settingselement method (XML configuration builder analysis) - SSM in depth analysis and project practice
字符串的常见算法总结
适合时间序列数据的计算脚本
Vue.js移动端左滑删除组件
数据科学家与机器学习工程师的区别? - kdnuggets
面经手册 · 第16篇《码农会锁,ReentrantLock之公平锁讲解和实现》
Gradient understanding decline
为了省钱,我用1天时间把PHP学了!
python 下载模块加速实现记录
10款好用的自动化测试工具
十二因子原则和云原生微服务 - DZone
【jmeter】實現介面關聯的兩種方式:正則表示式提取器和json提取器
微服务 - 如何解决链路追踪问题
Skywalking系列博客5-apm-customize-enhance-plugin插件使用教程







