在小说阅读器读本章去阅读在小说阅读器中沉浸阅读2026年5月4日至8日,数据库与数据工程领域国际顶级会议ICDE 2026(The 42nd IEEE International Conference on Data Engineering)在加拿大蒙特利尔隆重召开并圆满落幕。ICDE作为数据工程领域一年一度的重要学术盛会,是全球数据库、数据管理与数据工程研究者交流前沿成果、探讨技术趋势的重要平台。在此次大会上,中国人民大学信息学院(包括数据工程与知识工程教育部重点实验室)共有10篇论文成功入选,研究内容覆盖数据库存储调优、性能诊断、图数据管理以及库内机器学习等多个方向。会议期间,学院参会师生围绕入选论文进行报告展示,并与国际同行就数据工程领域前沿问题开展深入交流,展现了我校数据库研究团队面向关键技术挑战的创新能力。
在索引推荐方面,论文LLMIA: An Out-of-the-Box Index Advisor via In-Context Learning with LLMs(第一作者:2023级博士生赵心馨;通讯作者:张静教授)提出一种基于大语言模型上下文学习能力的开箱即用索引推荐框架LLMIA。LLMIA借鉴资深数据库管理员的系统运维经验,将高质量示例库与工作负载特征注入模型,先高效生成候选索引,再借助数据库实际反馈进行迭代式精细化调整,从而模拟专家数据库管理员的决策过程。实验结果表明,LLMIA在多个经典OLAP基准和真实商业工作负载上均能提供高质量索引建议,显著降低搜索开销并提升实际时延表现。
赵心馨现场汇报论文
在GPU查询处理方面,论文Improving GPU Tensor Query Processing for Resource-Constrained Environments(第一作者:2025级博士生许骞;通讯作者:张峰教授)提出面向数据分析的内存高效系统TensorSlim。TensorSlim通过三项关键设计缓解这一挑战:首先,构建高度优化的执行引擎,复用缓冲区并尽早释放中间结果,使峰值GPU使用率保持在可控范围;其次,提出张量驱动的处理框架,将峰值GPU内存视为一等约束,并执行面向算子的GPU内存预算管理以指导查询分区;最后,设计依赖感知的混合CPU-GPU查询优化器,用于管理数据流依赖并避免生成大量驻留于GPU的中间结果。实验结果表明,与GPU方案相比,TensorSlim查询速度最高提升25.5倍;与CPU方案相比,平均获得6.4倍加速,并将峰值内存使用量降低73.5%。
在压缩与处理方面,论文A Unified Framework for Compressed and Encrypted Text Direct Processing(第一作者:2021级博士生刘雅妮;通讯作者:张峰教授)针对云存储场景下隐私保护与处理效率难以兼顾的挑战,首次提出“双重同态”理论框架,统一了同态压缩与同态加密两条技术路线,使文本在压缩且加密状态下无需解码即可被直接修改与分析。在此基础上,团队进一步设计了两种具体方案,并实现原型系统DOHO。实验表明,相较现有方案,该工作在处理效率与存储开销上均取得显著优势,为加密数据的高效处理提供了新的解决思路。
刘雅妮现场汇报论文
在存储架构方面,论文Doux: Decoupling Values from Keys for Real-Time Analytics(第一作者:2023级博士生杨世明;通讯作者:刘爽副教授)针对LSM-tree在基于值的范围查询上性能低下的问题,提出双树存储架构Doux。其结合按主键排序的KO-tree与按二级属性值排序的VO-tree,将数据按查询相关的二级属性值组织,从而用高效顺序扫描替代代价高昂的随机I/O。为进一步降低维护开销,Doux引入解耦压缩机制以减轻KO-tree上的写放大,并设计紧凑辅助结构DropMap以减少读放大。大量实验表明,Doux相比现有最优LSM-tree基线,在值范围查询上平均加速5.04倍,在写密集型工作负载下实时数据摄入速度平均提升2.86倍,在读密集型工作负载下点查速度平均提升2.51倍。
杨世明现场汇报论文
在数据库性能诊断方面,论文DBdoctor: A Fine-grained and Non-intrusive Performance Diagnosis Platform for Databases(第一作者:2024级博士生史心悦;第一通讯作者:卞昊穹副教授)提出面向数据库系统的细粒度、非侵入式性能诊断平台DBdoctor。针对现有采样式监控方法难以兼顾低开销与高精度、且缺乏数据库内部执行上下文导致诊断黑盒化的问题,DBdoctor利用eBPF在数据库函数与内核函数上进行事件驱动的指标采集,并通过自适应探针选择和异常感知消息生成机制降低监控开销。同时,系统将原始eBPF事件重构为SQL级时序资源指标和SQL依赖图,从而支持白盒化根因定位。实验和工业部署结果表明,DBdoctor在根因SQL识别和异常根因诊断上显著优于现有方法,同时保持低运行开销,具备良好的生产可用性。
史心悦线上汇报论文
在库内机器学习方面,论文DistVec: Efficient Distributed Machine Learning in Parallel Database Systems(第一作者:张心怡老师;通讯作者:卢卫教授)研究如何在并行数据库系统中直接基于库内数据高效训练大规模embedding向量。现有基于UDAF的训练方法虽然能够支持分布式训练,但在模型同步时通常要求严格一致性,导致较高同步开销,同时数据库存储架构与机器学习工作负载之间也存在适配不足的问题。为此,该工作提出DistVec分布式in-DBMSML训练框架,将分布式机器学习训练任务映射为并发数据库查询,并通过有限陈旧的参数同步机制降低同步成本。进一步地,DistVec设计了面向机器学习工作负载的模型物化、缓冲池淘汰和热点感知缓存等机制,以减少训练过程中的磁盘I/O与远程通信开销,为数据库系统原生支持大规模机器学习训练提供了系统化方案。
张心怡老师线上汇报论文
在HTAP数据库方面,论文Telescope: A Learned What-If Call for Column Store Selection in HTAP Databases(第一作者:2024级博士生张一栋;通讯作者:张超副教授)提出学习型What-If调用框架Telescope,用于高效评估候选列存方案的查询收益。该工作通过HtapFormer模型刻画事务负载对分析查询的影响,实现更准确的HTAP感知代价估计。实验结果表明,Telescope最高可降低42%的计划生成误差和68%的代价估计误差,有效提升了列存推荐质量与端到端查询性能,为混合事务分析处理场景下的数据库优化提供了新的思路
张一栋线上汇报论文
在图数据管理方面,论文L4G: Two-hop Label Management for Group Steiner Tree Search on Graphs(第一作者:2025级硕士研究生冯宵瑶;第一通讯作者:孙亚辉副教授)面向关系数据库关键词搜索中的组斯坦纳树(GST)问题,提出两跳标签管理方案L4G。现有两跳标签加速方法通常需要逐点查询组内成员,查询效率较低,且动态维护过程中存在大量冗余操作。L4G在标签生成阶段引入模拟顶点表示候选组,并打破传统覆盖约束,仅生成GST搜索所需标签;在维护阶段采用批处理、距离递增的统一更新流程,有效避免重复更新。实验表明,L4G可使GST搜索加速3个数量级以上,标签维护速度较现有方法提升一个数量级,冗余操作减少超过90%。
冯宵瑶线上汇报论文
在数据清洗方面,论文EDITOR: Multi-Resolution Cleaning of Multivariate Time Series via Detect-Localize-Repair(第一作者:2022级博士研究生李晨阳;通讯作者:孟小峰教授)提出多分辨率时间序列清洗框架EDITOR,通过将错误检测、定位与修复解耦,实现对不同尺度错误的精准清洗。其中,HSD模块利用双注意力与差异增强UNet结合动态阈值机制,高灵敏度识别潜在错误区域;MGL模块将细粒度错误定位建模为约束优化问题,结合时序与变量依赖关系,通过进化搜索精确定位点级、子序列级及跨变量并发错误;CAR模块采用双向TCN与GCN两阶段修复策略,同时恢复时间连续性和变量间一致性,从而最大限度保留原始数据结构。实验结果表明,EDITOR在五个真实数据集上均优于现有基线方法,并显著提升下游任务性能。