当前位置:网站首页>识别“数据陷阱”,发现数据的可疑之处
识别“数据陷阱”,发现数据的可疑之处
2022-07-30 05:50:00 【海森大数据】
我们信任数据,认为数据总是客观情况的客观反映。可事实真的如此吗?
当下,人工智能分析处理数据的速度远超人类分析师,并且能够找出人脑难以发现的行为模式和规律,但是也会犯下人脑不会犯的错误。
复旦大曾学开设了一门新的通识课程,邀请学校多个专业的教授对学生每天可能接触到的信息进行“真伪鉴定”,向学生阐述什么是“伪科学”,一经开课便节节爆满。
这门名叫“似是而非”的新课并非复旦大学首创,它的灵感来源于美国华盛顿大学的“拆穿胡扯”( Calling Bullshit )公开课。

生物学家Carl Bergstrom和数据科学家Jevin West在他们的新书《拆穿胡扯:数据世界的怀疑艺术》(Calling Bullshit: The Art of Scepticism in a Data-Driven World)中,分享了如何识别科学论文、新闻报道、广告、社交媒体内容中误导人的统计方法。
“数字简直是传播胡扯的完美载体。”两位作者说,“它们看上去很客观,但很容易被人利用。”
识别数据陷阱,已然成为当代生活的刚需。

作者伯格斯特龙和韦斯特认为:
数据胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的。
数据胡扯的最终目的,是通过有意为之的操作,使本应该客观的数据,为己所用。
我们暴露在胡扯面前的时间和机率可能远远超过我们所认为的,形式也是五花八门。
那么,应如何避开数据陷阱呢?首先,需要人脑干预。
只有人具备给数据分类打标签的能力,因此不能简单地把数据丢给机器算法,寄希望于人工智能解决所有问题而无须人脑干预。
其次是防止数据删失(data censoring),制作进准的数据模型,数据删失是一种选择偏倚,指的是故意或无意将特定数据从最终分析中剔除,这可能会导致不准确和误导性的结果。如果遗漏了关键数据,研究的结论就可能是无效的。看数据集的时候,一定要关注它没有显示的东西。
提防有缺陷的数据,那些充斥着专业的术语、晦涩的技术、专门的设备的论文可能很难评估。与其尝试把这些元素理出个究竟,建议直接分析数据。无论一篇论文的技术性有多强,如果方法或结论不符合常识,它即可能有严重缺陷。
防止陷入“数据陷阱”,需要保持冷静并明智地使用数据。
边栏推荐
- The Geometric Meaning of Vector Cross Product and the Calculation of Modulus
- export , export default, import complete usage
- 空间顶点到直线的距离计算及其源码
- mpich安装
- Multithreading basics (multithreaded memory, security, communication, thread pools and blocking queues)
- (GGG)JWT
- debian problem
- bin文件夹下的roslyn文件夹
- Equation Derivation Proof of Vector Triple Product
- Test Development Engineer Growth Diary 007 - Bug Priority Definition and Filling Specifications
猜你喜欢

MySQL什么时候用表锁,什么时候用行锁?

Test Development Engineer Growth Diary 001 - Some Introduction to Agile Testing, CI/CD/CT, DecOps

prometheus监控nacos

多线程进阶(CountDownLatch,死锁,线程安全集合类)

Rodrigues:旋转矩阵的向量表达

Graphical relational database design ideas, this is too vivid

《心智社会》—马文·明斯基

LVM and disk quotas

DNS域名解析服务

预测人们对你的第一印象,“AI颜狗”的诞生
随机推荐
DHCP原理与配置
新人误删数据,组长巧用MySQL主从复制延迟挽回损失
Multithreading basics (multithreaded memory, security, communication, thread pools and blocking queues)
prometheus-Federation机制配置
STL源码剖析:bound friend template friend代码测试和理解
B站崩了,如果是你是那晚负责的开发人员你会怎么做?
空间顶点到平面的距离计算的证明及其源码
What happens when @Bean and @Component are used on the same class?
Table with tens of millions of data, how to query the fastest?
阿里二面:列出 Api 接口优化的几个技巧
MySQL什么时候用表锁,什么时候用行锁?
牛客:删除公共字符
AI can identify race from X-rays, but no one knows why
向量三重积的等式推导证明
New material under the plastic restriction order - polylactic acid (PLA)
Let the "label" content in Baidu map generator expand--solution
测试开发工程师成长日记001 - 敏捷测试、CI/CD/CT、DecOps的一些介绍
05-Theos
Huawei released "ten inventions", including computing, intelligent driving and other new fields
@Bean 与 @Component 用在同一个类上,会怎样?