随着物联网和大数据等新兴技术和应用模式的快速发展,人类社会所获得数据的属性(或称特征)规模正以前所未有的速度增长。这其中,冗余和不相关特征的存在不仅会降低算法的学习速度,而且将明显影响其准确度。特征选择的目的是,从数据集的所有特征中选出部分特征构成一个最优特征子集,在减少学习代价的同时使设定的性能指标达到最优。然而,在处理高维数据时,现有大部分进化特征选择方法依然存在“维数灾难”和计算代价高等问题。
近日,太阳成集团122cc智能优化与控制课题组宋贤芳博士、张勇教授和巩敦卫教授在该领域取得研究进展,提出了一种三阶段快速混合特征选择框架,即过滤-聚类-封装式进化框架,研究成果形成了论文“A fast hybrid feature selection based on correlation-guided clustering and particle swarm optimization for high-dimensional data”,该论文以太阳成集团122cc为第一单位,发表在中科院一区期刊《IEEE Transactions on Cybernetics》(IF: 11.079)。论文第一作者为宋贤芳博士,通讯作者为张勇教授和巩敦卫教授。
该框架将特征选择过程分为功能互补的三个阶段。第一阶段,给出一种代计算代价低的自适应过滤式特征选择方法,以删除不相关或弱相关的特征;第二阶段,提出一种相关性引导的快速特征聚类策略,将相似或相冗余特征划分到一个特征类,以减少后续粒子群的搜索空间;第三阶段,设计一种改进的整数粒子群优化算法,从每个特征类中同时选择最具代表性的特征,以形成最终的特征子集。该框架不仅可以明显缩减后续封装式进化方法的搜索空间,避免“维数灾难”,而且能够降低算法的计算代价;提出的快速特征聚类策略,不仅可以合理归类相似特征,缩减后续粒子群的搜索空间,而且能够显著降低特征相关性的计算次数;设计的种群初始化算子和自适应扰动算子,进一步提升了粒子群优化算法的搜索性能。
该成果首次为高维进化特征选择问题提出一种有效的三阶段快速混合特征选择算法。在多个典型实际数据集上的应用表明,所提方法能够有效克服现有方法面临的“维数灾难”和计算代价高的问题,是处理高维特征选择问题的强有力工具。