统计学院学生论文获国际顶级学术会议ACM UbiComp2021收录

9月21-26日,国际顶级学术会议ACM UbiComp2021年度大会在线上召开。统计学院硕士研究生任焱、苏锦华的论文获得UbiComp 2021会议收录。

ACM UbiComp是普适计算领域的国际顶级会议,被中国计算机学会列为A类会议。UbiComp旨在为国际学者、设计师、开发人员和实践者提供一个顶级的多学科交叉交流平台,展示和讨论普适计算在各个方面的新成果,包括设计、开发、部署以及对其社会影响的理解。

UbiComp2021吸引了来自44个国家和地区的近800位学者以线上方式参会交流。SHL-2021是其工作坊之一,此次比赛题目为《如何基于手机传感器数据判断用户所处的交通状态》。

统计学院2017级数据科学与大数据技术专业本科生、2021级统计学专业学术型硕士生任焱入选论文为《Multiple Tree Model Integration for Transportation Mode Recognition》。

比赛题目标为识别每个时间点的八种运动模式,与往年比赛以GPS数据为主不同,今年数据源以手机信号数据为主。这本质上是一个八分类问题,不同类别之间的“距离”是不相同的,另外还有数据不平衡、不同数据源缺失、时间未对齐等问题。往年比赛预测较准确的论文所使用模型可以分为两类:暴力深度模型和传统机器学习。本着探索手机信号各变量与运动模式之间关系的想法,该论文最终采用第二种思路:特征提取+模型训练。

在特征提取阶段,该论文通过大量学习了解手机信号相关的知识,结合统计特征提取模式,初步得到一批潜在变量;进一步地,通过描述统计进行观察,去除没有区分度的冗余变量,最终得到包括点特征和窗口特征的 32 个可解释特征。在模型训练阶段,该论文选用树模型为基本骨架,树模型在分类任务中通常表现良好,且方便对缺失值进行处理。但是由于单个模型可能对八分类任务力不从心,考虑结合了三种基于树模型的结构,三个模型分别进行软分类,对结果进行整合,得到预测结果。最后,由于运动模式存在内在的连续性,再进行数据后处理得到更加合理的结果。该论文的创新之处在于模型集成的再集成和数据后处理方法。

任焱表示,“参加这次比赛实属机缘巧合,但是我想一旦开始就要尽自己所能做好这个任务。从对信号领域知识储备基本为0的起点开始,经过仔细总结往年论文和模式识别领域的相关文章,我对字段的理解和对该领域问题的认识上升了一个台阶。在相对比较熟悉的建模过程中也遇到了不少困难,设计的庞大模型因为计算复杂度被否,尝试的多种组合大多数也以效果不好而失败,但幸运的是我在不断试错和探索中完成了文章。”

统计学院2017级数据科学与大数据技术专业本科生、2021级统计学专业学术型硕士生苏锦华入选论文为《Triple-O for SHL Recognition Challenge: An Ensemble Framework for Multi-class Imbalance and Training-testing Distribution Inconsistency by OvOBinarization with Confidence Weight of One-class Classification》。

比赛提供了3位数据采集者采集的包含静止、步行、跑步、骑自行车、乘坐小轿车、公交车、地铁、火车八类场面标注的手机传感器数据。但每个人在不同场景的先验比例不一致,在同一场景下使用手机的行为模式也不一致,这导致了多分类类别不平衡问题以及训练与实际预测场景下数据分布的不一致性,这两个问题比较严重的体现是:第一,往年比赛中深度学习并未与传统机器学习模型拉开效果与性能上的差异,也就说明深度学习的表征学习的能力在多类别不平衡上甚至可能过度学习噪音信息;第二,训练集和测试集是由不同用户采集的,导致只用训练集训练模型在预测不同用户的行为模式上缺乏泛化能力。论文提出了一种集成方案,深度学习和传统机器学习模型均可以使用该集成方案提高模型在多分类类别不平衡与数据分布不一致场景下的表现。Softmax-based的多分类预测模型在多类别数据不平衡下会由于剩余类别集合(One v.s. Rest)的多模态属性(multi-modal)而导致特定两个类别间的决策边界因平均效应(average effect)而变得次优(sub-optimal),选择OvO集成方式(One v.s. One)将多分类问题拆解为多个二分类问题能缓解多类别不平衡的问题。同时对于训练集和测试集的数据分布迁移问题,论文以一类别分类(One-class classification,常见的如One-class SVM)来判断二分类元学习器的置信边界,在OvO集成投票中以一分类置信值来对投票进行重赋权(Re-Weighting),这样使得模型在对于分布异常的数据(Out-lier)进行较为保守的预测。

苏锦华表示,“起初,我对比赛任务并不是很熟悉,原本以平常心态参加这次比赛,但赛事方对技术论文比较重视,所以有了一次奇妙的非常规参赛体验。把遇到的问题和自己的解决思路梳理清楚,再形成文字表述,加之有时间约束,压力要大很多。逐步完成代码、论文、海报、参会视频等任务后收获了一些成就感。”


来源: 统计学院(https://news.ruc.edu.cn/archives/346331