当前位置:网站首页>前嗅ForeSpider教程:抽取数据
前嗅ForeSpider教程:抽取数据
2022-06-30 09:49:00 【全栈程序员站长】
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:
一,如何选择表单
在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。
数据表选择页
1.选择表单
方法一:通过下拉菜单,或填写表单ID,选择已有表单。 方法二:快速建表,点击创建表单,进入快速建表页面,新建表单。(>>详见快速建表) 方法三:自由建表,点击“采集配置”-“数据建表”,点击采“采集表单”后面的。(>>详见自由建表)
数据建表页
2.数据存储方式
指的是数据采集时,在数据库里的存储方式。 ①插入:默认为插入。如遇到数据库中已存在的重复数据,则不再插入。 ②仅更新:如遇到数据库中已存在的重复数据,则用最新采集的数据覆盖掉。 ③追加:如字段的属性是运算字段,则可以进行字段运算。 ④插入并更新:没有重复的记录则插入,有重复记录则更新。
二,如何采集列表/表格数据
识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段,表格/列表的不同行分别存储为数据表的多条记录。以前嗅官网Web服务器(http://www.forenose.com/panne…)为例。
1.创建表单
根据表格内容,创建一个存储表格数据的表单。在选项卡“数据建表”中,创建一个表单。(>>自由建表)
识别列表的表结构
(1)主键 采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“网页主键”。 表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)
主键字段的配置
(2)其他字段 其他字段的变量类型选择“string”,取值类型选择“选区内全部文本”。(>>字段参数)
其他字段的配置
2.创建数据抽取
为数据抽取选择表单
选择表单
3.识别多值
点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。
定位表格
点击“识别多值”,选区扩大到整个表格。点击“确认选区”。
确认多值
4.字段取值
主键字段不需要配置。存储表格内容的字段需要一一取值。(方法一:标准定位/方法二:特征定位) 点击数据抽取的字段,为其一一配置表格不同列的数据。点击相应字段,按Ctrl点击第一列的任意单元格,点击“保存”。
多值字段取值
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/101092.html原文链接:https://javaforall.cn
边栏推荐
- “昆明城市咖啡地圖”活動再度開啟
- The human agent of kDa, Jinbei kd6, takes you to explore the metauniverse
- Koreano essential creates a professional style
- 【Rust每周一库】num-bigint - 大整数
- Skill combing [email protected] intelligent instrument teaching aids based on 51 series single chip microcomputer
- Setting up the d2lbook environment for Li Mu's "hands on learning and deep learning"
- Guolin was crowned the third place of global popularity of perfect master in the third quarter of 2022
- MySQL index, transaction and storage engine of database (2)
- Deployment of efficient and versatile clusters lvs+kept highly available clusters
- 技能梳理[email protected]语音模块+stm32+nfc
猜你喜欢

2022第六季完美童模 合肥赛区 初赛圆满落幕

Guolin was crowned the third place of global popularity of perfect master in the third quarter of 2022

华南产业集团发力数字经济,城链科技发布会成功召开
![[AGC] build service 3- authentication service example](/img/32/44547c00476a055557dd1790e18849.png)
[AGC] build service 3- authentication service example

Open source! Wenxin large model Ernie tiny lightweight technology, accurate and fast, full effect

Basic MySQL operation commands of database

Eth is not connected to the ore pool
[email protected]+adxl345+电机震动+串口输出"/>技能梳理[email protected]+adxl345+电机震动+串口输出

The latest SCI impact factor release: the highest score of domestic journals is 46! Netizen: I understand if

ArcGIS Pro scripting tool (6) -- repairing CAD layer data sources
随机推荐
【Rust日报】2021-01-23 几个新库发布
Compétences Comb 27 @ Body sense Manipulator
Highlight display of Jinbei LB box, adhering to mini special effects
Musk has more than 100 million twitter fans, but he has been lost online for a week
[AGC] build service 3- authentication service example
华南产业集团发力数字经济,城链科技发布会成功召开
Eth is not connected to the ore pool
技能梳理[email protected]+adxl345+电机震动+串口输出
Basic MySQL operation commands of database
六月集训(第30天) —— 拓扑排序
半钢同轴射频线的史密斯圆图查看和网络分析仪E5071C的射频线匹配校准
June training (day 30) - topology sorting
ArcGIS PRO + PS vectorized land use planning map
Skill sorting [email protected]+ Alibaba cloud +nbiot+dht11+bh1750+ soil moisture sensor +oled
机器学习面试准备(一)KNN
GD32 RT-Thread flash驱动函数
乡村振兴公益基金启动暨古茶树非遗保护公益行发布
戴森设计大奖,以可持续化设计改变世界
MySQL advanced SQL statement of database (1)
mysql数据库基础:存储过程和函数