当前位置:网站首页>百度百科数据爬取及内容分类识别
百度百科数据爬取及内容分类识别
2022-07-06 09:11:00 【CHQIUU】
前言
最近在学习知识图谱相关内容,需要爬取一些结构化的数据。下面介绍如何爬取百度百科的数据并提取出有效数据代码实现。
一、分析页面结构
页面可以分为5个区域,如下图标注所示(聚丙烯介绍的页面结构)。
https://baike.baidu.com/wikitag/taglist?tagId=76613
二、使用步骤
1.引入库
代码如下(示例):
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2.读入数据
代码如下(示例):
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
该处使用的url网络请求的数据。
边栏推荐
- C杂讲 文件 初讲
- Cmooc Internet + education
- Contrôle de l'exécution du module d'essai par panneau dans Canoe (primaire)
- Zsh configuration file
- CANoe下载地址以及CAN Demo 16的下载与激活,并附录所有CANoe软件版本
- South China Technology stack cnn+bilstm+attention
- Combined search /dfs solution - leetcode daily question - number of 1020 enclaves
- MySQL实战优化高手06 生产经验:互联网公司的生产环境数据库是如何进行性能测试的?
- 再有人问你数据库缓存一致性的问题,直接把这篇文章发给他
- flask运维脚本(长时间运行)
猜你喜欢
[CV] target detection: derivation of common terms and map evaluation indicators
A necessary soft skill for Software Test Engineers: structured thinking
MySQL real battle optimization expert 11 starts with the addition, deletion and modification of data. Review the status of buffer pool in the database
Docker MySQL solves time zone problems
cmooc互联网+教育
112 pages of mathematical knowledge sorting! Machine learning - a review of fundamentals of mathematics pptx
实现以form-data参数发送post请求
Listen to my advice and learn according to this embedded curriculum content and curriculum system
Contrôle de l'exécution du module d'essai par panneau dans Canoe (primaire)
Carolyn Rosé博士的社交互通演讲记录
随机推荐
16 medical registration system_ [order by appointment]
竞赛vscode配置指南
四川云教和双师模式
MySQL实战优化高手07 生产经验:如何对生产环境中的数据库进行360度无死角压测?
Good blog good material record link
South China Technology stack cnn+bilstm+attention
Why can't TN-C use 2p circuit breaker?
16 医疗挂号系统_【预约下单】
① BOKE
美疾控中心:美国李斯特菌疫情暴发与冰激凌产品有关
CAPL 脚本对.ini 配置文件的高阶操作
C杂讲 动态链表操作 再讲
Super detailed steps for pushing wechat official account H5 messages
Vh6501 Learning Series
[NLP] bert4vec: a sentence vector generation tool based on pre training
A necessary soft skill for Software Test Engineers: structured thinking
Contest3145 - the 37th game of 2021 freshman individual training match_ C: Tour guide
MySQL底层的逻辑架构
MySQL ERROR 1040: Too many connections
Embedded development is much more difficult than MCU? Talk about SCM and embedded development and design experience