当前位置：网站首页>百度百科数据爬取及内容分类识别

百度百科数据爬取及内容分类识别

2022-07-06 09:11:00 【CHQIUU】

文章目录

前言
一、分析页面结构
二、使用步骤
- 1.引入库
- 2.读入数据

前言

最近在学习知识图谱相关内容，需要爬取一些结构化的数据。下面介绍如何爬取百度百科的数据并提取出有效数据代码实现。

一、分析页面结构

页面可以分为5个区域，如下图标注所示（聚丙烯介绍的页面结构）。
在这里插入图片描述
https://baike.baidu.com/wikitag/taglist?tagId=76613

二、使用步骤

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

原网站

版权声明
本文为[CHQIUU]所创，转载请带上原文链接，感谢
https://chqiuu.blog.csdn.net/article/details/118608136