中国人民大学信息学院师生论文被数据库顶会SIGMOD 2026录用
信息来源:中国人民大学信息学院 发布日期:2026年4月26日
在小说阅读器读本章去阅读在小说阅读器中沉浸阅读 近日,国际数据管理领域顶级学术会议SIGMOD 2026(ACM Special Interest Group on Management of Data)公布了论文录用结果。中国人民大学信息学院共有12篇论文(含1篇demo)被录用,充分彰显了学院在数据管理与挖掘领域的深厚科研实力与国际影响力。
SIGMOD是数据库领域的顶尖学术会议,,由中国计算机学会(CCF)推荐为A类会议,与VLDB、SIGIR、SIGKDD一同被我校推荐为数据管理与挖掘领域的A+类会议,代表着该学科的最高学术水平。第52届SIGMOD年会将于2026年5月31日在印度班加罗尔召开,届时将汇聚全球顶尖学者与业界专家,共同探讨数据科学的最新前沿。
Main Conference
论文介绍
论文题目:L3: A GPU-Native Co-Designed Data Format for Learned Lossless Lightweight Compression
作者:夏有阳,张峰,潘俊达,刘奕好,官佳薇,张焕晨,杜小勇
通讯作者:张峰
论文概述:本研究提出了 L3,一种面向 GPU 的新型学习型无损轻量压缩格式,旨在将学习型压缩真正融入 GPU 数据分析流程中,实现压缩、解压、随机访问与查询处理的端到端设备端执行。L3 围绕 GPU 特性协同设计了三项核心机制:其一,提出 SLAP Vertical 存储布局,以 lane-major 方式组织比特打包残差流,提升缓存复用与访存效率;其二,设计 warp-cooperative learned decompression,通过按分区映射线程块、按 warp tile 协同解码和分支消除式 bit extraction,实现高吞吐解压;其三,构建 GPU-native learned compression pipeline,在 GPU 上完成自适应分区、模型选择、元数据生成和最终打包,避免 CPU 成为瓶颈。实验表明,L3 的编码速度较 Tile 和 FastLanes-GPU 快 3–6 倍,解压吞吐达到 1.08–1.90 TB/s,在强相关数据上可实现最高 77× 压缩率,并在随机访问和 SSB 查询中取得优于现有 GPU 基线的方法表现,体现出压缩率、吞吐与查询效率之间的优秀综合权衡。
论文题目:VecBench: A Controllable Benchmark for Filtered Vector Search: [Experiments & Analysis]
作者:张翔,张超,范举,李国良,杜小勇
通讯作者:范举
论文概述:针对以往向量数据库过滤搜索基准在数据规模、查询特征及评估指标上的局限,本文提出综合评估框架 VecBench。主要包含三个核心部分:首先,实现可控数据生成,支持在大规模、高维场景下保持原始数据分布;其次,设计可调节查询合成,通过精准控制选择率与相关性模拟复杂现实负载;最后,构建统一评估体系,涵盖动态更新与并发处理等六大关键维度。通过对 4 种主流数据库下 10 种代表性算法的深度实验,VecBench 揭示了不同技术的性能边界,为向量数据库的算法优化与系统选型提供指导。
论文题目:LICO: An SIMD-Aware High-Performance Learned Inverted Index Compression Framework
作者:朱显宇,刘棋毓,张广怡,沙志炳,廖剑伟,胡莎,陈雷
通讯作者:刘棋毓(非本校)
论文概述:本研究提出了 LICO,这是一种新颖的“学习型倒排索引压缩”框架,它使用具有误差限制的机器学习模型和辅助剩余数组来编码有序整数,并实现无损重建。与诸如 P4Delta 和 Elias-Fano 等经典方案,以及诸如 LA-vector 和 LeCo 等基于学习的方法相比,LICO 具有三个关键优势:(1)一种专门设计用于利用现代硬件提供的并行性的简洁数据结构;(2)无需手动调整超参数即可完全自动适应数据分布;(3)在压缩比率方面具有严格的理论保证。在大规模网络数据集和查询工作负载上的大量实验表明,LICO 在索引大小和查询延迟之间实现了帕累托最优的权衡。
论文题目:HARMONY: A Scalable Distributed Vector Database for High-Throughput Approximate Nearest Neighbor Search
作者:许骞,张峰,李成蹊,曹磊,陈政,翟季冬,杜小勇
论文概述:似最近邻搜索(ANNS)是推荐系统、图像检索和机器学习等数据密集型应用的关键技术。在单机上将ANNS扩展到数十亿高维向量面临内存容量和计算效率的巨大挑战。分布式向量数据库通过多节点并行存储和处理向量来应对这些挑战,但现有方案常因传统分区策略无法有效分配负载,导致负载不均和通信开销过高。本文提出Harmony——一种采用多粒度分区策略的分布式ANNS系统,结合维度分区与向量分区,在均衡各节点计算负载的同时有效降低通信开销。此外,Harmony利用维度分区中距离计算的单调性,引入提前终止剪枝机制,大幅减少计算量和通信量。大量真实数据集实验表明,Harmony优于主流分布式向量数据库,在4节点上平均吞吐量提升4.63倍,在倾斜负载下性能提升58%。
论文题目:Understanding Robustness Issues of Updatable Learned Indexes: [Experiments & Analysis]
作者:骆远辉,谢旻晖,仝一恒,蒋世超,柴云鹏
通讯作者:谢旻晖,柴云鹏
论文概述:学习索引被视为传统索引的有希望的替代品,因为它们表现出色,尤其是在只读工作负载中。先前研究表明,可更新的学习索引在许多情况下表现优异,表明它们几乎可以用于实际应用。然而,与B+树和ART等传统索引不同,可更新的学习索引容易受到实时训练模型的不稳定性,导致其结构本身不确定。这引发了对其鲁棒性的怀疑,阻碍了它们的广泛采用。
在这篇论文中,我们进行了系统的基准测试和分析,以解决这一担忧,证实了最先进的可更新学习索引缺乏鲁棒性的疑虑。我们证明,与先前的研究结果相反,可更新的学习索引无法稳健地超越传统索引,甚至在读写密集型工作负载下会失去其预期的优势。我们进一步揭示了根本原因,包括过拟合模型、不平衡结构、无效调整和过多的空间预留。此外,我们探讨了潜在的缓解方法来解决这些挑战。我们希望我们的研究结果将强调鲁棒性在可更新学习索引设计中的关键重要性,最终为其实际应用铺平道路。
论文题目:Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards
作者:张玉鑫,范梅浩,范举,易鸣洋,骆昱宇,李国良,吴斌,周文超
论文概述:针对现有 RL 方法在复杂 Text-to-SQL 任务中缺乏中间执行反馈与细粒度监督的挑战,REWARD-SQL 提出了 CoCTE(Chain of Common Table Expressions)推理框架,通过将复杂查询分解为一系列可执行且可验证的中间步骤来增强推理的确定性。该框架核心引入了结合 MCTS 轨迹评分与逆熵权重的过程奖励模型(PRM),能有效评估每一步的逻辑正确性并自动抑制冗余步骤。通过将过程奖励集成至 GRPO 强化学习与 Best-of-N 推理筛选中,REWARD-SQL 在 8B 模型规模下显著优于现有解决方案,在显著减少模式链接与复杂操作错误的同时,展现出卓越的跨领域泛化性能与鲁棒性。
论文题目:Performant Synchronization in Geo-Distributed Databases
作者:徐都玲,李彤,孙泽港,陈政,周慰星,张岩峰,卢卫,杜小勇
通讯作者:李彤
论文概述: 该文提出 GeoCoCo,一种面向跨地域分布式数据库的同步优化框架,通过时延感知分组、冗余数据过滤和分层传输,降低广域网同步开销,在保证一致性的同时提升系统吞吐与同步效率。
论文题目:Enabling Efficient Direct Update on Rule-Based Compressed Graph
作者:冯琳,张峰,陈政,唐雨馨,官佳薇,朱晓伟,杜小勇
论文概述:动态图通过插入与删除不断演化,在存储和更新效率方面带来了显著挑战。传统的图压缩方法主要针对静态图进行优化,在动态环境中往往表现不佳,在更新过程中需要进行代价高昂的解压缩与重新压缩操作。为了解决这一问题,我们提出了一种新的理论框架,使得可以在基于规则的压缩图上高效地进行直接更新。此外,我们还引入了一种动态图处理框架,在空间效率、更新响应速度以及查询性能之间取得平衡。
论文题目:AgentTune: An Agent-Based Large Language Model Framework for Database Knob Tuning
作者:李奕言,李好洋,张静,Renata Borovica-Gajic, 王帅,张铁赢,陈建军,师锐,李翠平,陈红
通讯作者:李翠平
论文概述:本文针对数据库参数调优中效率低、成本高和可靠性不足等问题,提出了一种基于大语言模型的多智能体调优框架 AgentTune。该方法将调优过程拆分为多个子任务,交由多个协同工作的智能体分别处理,结合新引入的树状搜索流程,实现了高效且稳定的参数优化。
论文题目:Visualization-Oriented Progressive Time Series Transformation
作者:陈昕,张凌宇,鲍怀威,卢卫,Eugene Wu,禹晓辉,汪云海
通讯作者:汪云海
论文概述:大规模时序数据(如金融交易记录、物联网传感器数据)的可视分析通常涉及对多变量数据进行复杂的变换操作。现有分析系统在处理海量数据时,往往需要对全量数据执行完整的变换与计算,导致计算开销巨大,难以满足交互式分析所要求的毫秒级响应延迟。为此,本文提出了PIVOT,一种面向可视化的增量式时序变换系统。该系统通过智能识别并仅对生成可视化所必需的关键数据点进行选择性变换计算,在保障视觉精度的同时,显著提升了大规模时序数据的交互式探索效率。PIVOT的核心技术贡献体现在两个方面:(1)变换感知的高效查询机制,该机制通过评估分析算子应用于预先构建好的最小–最大值层次结构上产生的值域,引导深度优先搜索,从而能够高效地执行逐点变换计算,避免了对完整数据集的扫描,从根本上降低了查询的计算复杂度;(2)基于像素的误差上界保证策略,该策略能够在不依赖完整计算结果的前提下,实时评估增量生成的可视化结果的准确性,并动态权衡响应延迟与视觉保真度,从而在保证交互流畅性的同时,确保可视化结果的可靠性。在多个十亿级规模的基准数据集上的实验结果表明,PIVOT能够在交互式响应时间内生成高保真度的可视化结果,其性能相较于现有的无损变换方法提升高达一个数量级。
论文题目:Fast Optimal Group Steiner Tree Search using GPUs
作者:李家裕,孙亚辉,马博靖,陈礼邦,胡梦溪,张峰,李荣华
通讯作者:孙亚辉
论文概述:从图中寻找Group Steiner Trees(GSTs)是图数据管理领域的一项重要技术。当前研究依赖 CPU 以串行方式求解最优GST,效率不高。本文利用GPU以并行方式求解最优 GST,克服了上述技术缺陷。为此,本文首先打破传统自底向上的动态规划顺序,提出具备并行友好特性的 GST 求解框架。针对该框架直接在 GPU 执行时面临的严重负载不均衡问题,本文设计了 GST 定制化负载均衡方法,通过核融合、全局内存合并技术高效利用不同并行粒度匹配差异化的GST构建负载。考虑到现有剪枝方法无法直接应用于并行方案,本文对现有剪枝流程进行改进以降低计算负担,并严格证明了解决方案的正确性。此外,受近期数据管理应用启发,本文还提出一种新颖的动态规划算法,用于求解直径约束条件下的最优 GST。多种真实数据集上的实验表明,本文所提技术相较于当前最先进方法实现了 25-2256 倍的加速比,可显著提升数据管理相关应用中的用户体验。
论文题目:Demonstrating DBdoctor: A Fine-grained and Non-intrusive Performance Diagnosis Platform for Databases [Demo]
作者:王正今,胡晓峰,卞昊穹,郭云达,张纪宽,郑祥
通讯作者:卞昊穹
论文概述:由于基于采样方法的固有局限性,现有的数据库诊断工具通常无法捕获瞬时的性能异常:粗粒度的采样可能会遗漏关键的短暂事件,而细粒度的采样则会带来极高的性能开销。此外,它们依赖于从操作系统(OS)或数据库管理系统(DBMS)中获取的粗粒度采样指标,这也阻碍了对复杂异常根因的定位与解决。在本次演示中,我们推出了 DBdoctor 来克服这些局限性。DBdoctor 引领了从“基于采样”向“基于事件”监控的范式转变,它利用自适应、非侵入式的 eBPF 探测技术,以几乎可以忽略不计的开销从数据库实例中持续捕获事件。基于这些事件,它能够构建出数据库上下文(例如事务的时序依赖图),从而实现精确的根因分析。本次演示重点展示了 DBdoctor 如何通过直观的可视化界面和 AI 助手,帮助 DBA(数据库管理员)和 DevOps(研发运营)人员检测细粒度异常、精准识别根本原因,并得出详细且有效的解决方案。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号