当前位置：网站首页>文献调研（一）：基于集成学习和能耗模式分类的办公楼小时能耗预测

文献调研（一）：基于集成学习和能耗模式分类的办公楼小时能耗预测

2022-06-25 22:11:00 【爱学习的包青蛙】

Hourly energy consumption prediction of an office building based on ensemble learning and energy consumption pattern classification.

这是ENERGY AND BUILDINGS 2021年的一篇文章，该期刊被sci收录，2019年影响因子为4.867。

摘要

准确的建筑能耗预测在建筑能耗管理中起着重要的作用，在该领域，传统的预测方法没有考虑建筑在不同时期的运行状况，导致预测效果不佳。本文提出了一种基于集成学习（ensemble learning ）和能耗模式分类（energy consumption pattern classification）的预测策略，并使用气象站每小时的气象数据和纽约市办公楼的能耗数据进行实验。
本文工作分为三步进行：

使用决策树挖掘能耗模式，并将能耗数据分类。
使用集成学习方法为每个模式建立能耗预测模型。
将该方法的预测精度与无能耗模式分类的集成学习、支持向量回归和人工神经网络三种方法进行比较。此外，作者还通过比较以上方法在不同训练数据量下的性能，来分析它们的鲁棒性。

简介

当前，建筑能耗平均占全球总能耗的30%左右，预计未来该比例仍会快速增长。准确预测建筑能耗是制定各种建筑能效策略的基础，例如故障检测和诊断、能源分配规划和智能电网管理。
近些年，建筑能耗预测领域分方法大致分为三种类型：白盒（white box）方法、灰盒（grey box）方法和人工智能数据驱动（AI data-driven）方法。
白盒模型根据热力学规则预测建筑能耗，并已应用于许多建筑能耗模拟软件，它们基于建筑物的环境参数和建筑物设计细节(例如，建筑物外墙的导热性和暖通空调设计信息)，然而，这样的模拟细节可能不可用，缺乏准确的输入会导致预测不佳；灰箱模型是一种混合模型，它使用简化的物理模型来模拟建筑能源系统，钢筋混凝土热网络模型是一种典型的建筑能耗预测灰箱模型。
上述两种方法都依赖于建筑物本身的特征（结构等），人工智能数据驱动模型则可以在不知道建筑物内部结构和单个组件的情况下进行能耗预测。现在最流行的方法涉及到传统的机器学习算法和深度学习的方法，深度神经网络预测效果佳，但它容易受到训练数据不足的影响。越来越多的研究者把目光放到了集成学习的探索中，即将各种优秀的算法整合起来，进一步提升预测效果，集成学习的优势可以总结为：首先，训练数据可能无法提供足够的信息来选择单一的最优模型，因此，选择性能相当的集成模型可能是一个更好的选择；其次，整合可以克服单一模式的不足，即使模型中的基础学习者得到了不正确的预测，其他基础学习者也可以通过某种方式帮助纠正错误；第三，在实践中，可能根本没有真正的目标函数，集成可以提供相对较好的近似，这意味着更好的泛化性能。
此外，建筑在不同时期的能耗模式应该是有所差异的，因此，在不同时段不同运行工况下，需要对数据进行分区，以提高建筑能耗预测性能。基于这点，有研究者在分析校园能耗情况时，选择了按学期分别处理的策略，为每个学期的能耗分别训练预测模型，提升预测精度。
本文提出了一种基于集成学习方法和能耗模式分类的建筑能耗预测策略。首先识别不同的构建操作，然后基于每个模式建立预测模型。通过探索建筑物的能耗模式，预测模型可以针对不同的情况调整到合适的状态，即使在缺乏数据的情况下，这种策略也可以提高能耗预测的效果。

方法

本文主要解决三个问题：(1)建筑物运营模式划分方法是否可行有效。(2)能耗模式分类能否帮助完成单体建筑的能耗预测任务？(3)在数据可用性不足的情况下，该方法能否很好地工作？
图2是本文的研究框架，包括三个步骤：
1.数据准备：能耗数据是从纽约市的一栋办公楼收集的，气象数据是办公室附近5000米范围内的气象站的数据。使用随机森林算法和皮尔逊相关分析来选择最佳的特征集。
2. 进行能源消费模式分类和预测模型建模。决策树用于挖掘不同数据可用性下的能耗模式，方差分析方法（ANOVA）和事后检验（Post-hoc）用于验证分类模式之间的显著差异。
3. 能源预测模型的评估（12周的预测结果），并将所提出的预测方法与其它三种方法进行比较。

数据准备

1.数据收集

数据集
数据库来源于名为Building Data Genome的开源项目，该项目记录了全球507栋真实非住宅建筑的相关数据，每个建筑数据包括一年内每小时的全建筑电表数据。此外，它还提供各种建筑特征的元数据，包括建筑面积、类型、天气和行业。本文选择了纽约市的一栋典型建筑作为研究案例。该建筑位于校园内，建于2001年，用于办公，总使用面积为169,420平方英尺。表1显示了本文研究采用的数据特征：

能耗数据如图3所示，是从测试建筑的建筑能源管理系统(BEMs)中以一小时的采样速率提取的。

2.数据处理和特征选择

采用quartiles range rule剔除异常数据，其上界和下界如式(7)(8)所示：
在这里插入图片描述
超过上述阈值即视为异常值，去除异常值后，采用相关的python库可以填充缺失的小间隙。样本特征的选择与预测模型的准确性和复杂性有关，本文采用随机森林算法和皮尔逊相关分析进行特征选择。当然，在训练前还要对数据进行最大-最小值标准化处理。

实验设置

1.模拟真实场景

在实际的建筑能耗管理系统中，很容易出现部分数据的缺失，因此，在实验中，模型训练数据的可用性被设置为20%、40%、60%、80%和100%，分别模拟各种真实场景。
在这里插入图片描述

2.利用决策树进行能耗模式分类

考虑到决策树方法可以通过递归树结构以自解释的方式提供可理解的划分规则，将其用于分析建筑能耗的变化规律并对数据进行分类，具体操作与建筑物内人员的占用和气候因素有关。由于工作人员的居住特点和气候特点不会突然变化，建筑通常会保持一定的规则，并按照规则长期运行。识别建筑运行模式还可以帮助研究人员了解建筑的运行性能和能耗情况。然后，通过方差分析和事后检验来验证能耗模式划分的有效性。
具体来说，本文根据建筑每小时能耗与输入特征之间的隐含关系，利用CIT树将能耗划分为不同的使用模式，同一模式下的能耗与特征具有相似的对应关系。即，“时间”、“Mth”、“类型”、“相对湿度”、“温度”和“Wsp”被作为输入变量。首先，CIT树基于能量消耗和每个特征之间的关系，基于显著性检验来计算p值，然后选择P值最小的变量，通过置换尝试所有可能的二进制分割，选择最显著的分割将数据集分成两组。对每个子组重复上述步骤，直到没有显著差异或达到子组的最小节点数。随着树的深度增加，模式划分的结果变得更加精确，但是它也使得模型变得复杂并且容易受到噪声数据的影响。树的深度被限制在三层，这简化了后续预测模型的应用。该模型通过五次重复的后向采样进行训练，以避免数据提取带来的偶然性。
图8示出了能耗模式划分的分类逻辑，树形结构如图9所示。在不同数据提取的情况下，DT的划分规则仍然是一致的，基于三个标准(即时间类型、日类型和月类型)，初始数据集被分为四种模式。首先，从数据库中分离出0、1、2、3、4、5、6、7、8、9和23时的数据，其次，根据“日型”特征进行数据划分。这表明该建筑在工作日和周末的运作方式不同，最后剩下的数据按月份分类。
在这里插入图片描述

最后，通过方差分析和Tukey-HSD测试验证采用上述决策树进行模式分类是有效的，如表3和表4所示，两种方法的P值均小于0.05

3.基于能耗模式和集成学习实现能耗预测

图5显示了堆叠模型的流程图，它由两层组成。第一层是人工神经网络(ANN)和支持向量回归(SVM)模型的组合，其输出用于训练第二层的多层回归(MLR)模型。在模型训练中，采用10重交叉验证，根据验证集的结果确定模型的最优参数。网格搜索法(Grid Search)用于确定最佳预训练模型，表2显示了所有四个参数的搜索范围。支持向量回归机和人工神经网络模型通过网格搜索提供的最佳参数值进行训练。然后，两个基础学习者基于最小二乘法构造MLR，stacking集成模型的最终预测结果是支持向量回归机和人工神经网络的线性组合（10），式中P代表对应模型的输出。
在这里插入图片描述

在这里插入图片描述

4.评估指标

该实验采用3种评价指标：均方根误差(RMSE)、均方根误差的变异系数(CVRMSE)和performance index(PI)。
在这里插入图片描述
PI是本文提出的用于评估鲁棒性的综合评价指标，它将RMSE和CVRMSE合并为一个单一的衡量标准。PI用于比较不同模型的鲁棒性，而不是评估实际值和预测值之间的差异。本文中使用的PI由以下公式定义：