学术速递 I中国人民大学信息学院师生论文被数据挖掘领域顶会KDD 2026录用
信息来源:中国人民大学信息学院 发布日期:2026年5月25日
第32届ACM SIGKDD知识发现与数据挖掘国际会议(32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining,KDD 2026)将于2026年8月9日至8月13日在韩国济州召开。中国人民大学信息学院共有7篇论文被录用,充分彰显了学院在数据科学与数据挖掘领域的深厚科研实力与国际影响力。
一年一度的ACM SIGKDD知识发现与数据挖掘国际会议(KDD)是数据挖掘、知识发现、数据科学与人工智能领域最具影响力的国际顶级学术会议之一,长期聚焦大规模数据分析、机器学习、数据挖掘、知识发现、推荐系统、图数据、可信人工智能以及应用数据科学等前沿研究问题。它是全球研究人员、工程实践者、开发人员和行业用户展示原创成果、探索前沿思想、交流技术工具与分享实践经验的重要国际论坛。该会议入选中国计算机学会(CCF)推荐的A类国际学术会议,在国际数据科学与数据挖掘领域享有盛誉并具有广泛的学术影响力。
论文一
论文概述
论文题目:Scaling Agentic Capabilities via Protocol-Grounded Data Synthesis
研究所:数据库系统研究所
论文作者:施文航,董谨豪*,陈逸人,赵哲,卞书青,卢卫,杜小勇
论文简介:
本研究提出了PACE(Protocol-Anchored Constraint Exploration),一种基于协议落地的可扩展智能体数据合成框架 ,旨在解决当前大型语言模型(LLM)无约束生成智能体数据时存在的领域单一、功能浅显,且难以构建复杂长视距调用链的问题 。PACE围绕高质量智能体数据的合成设计了两项核心机制 :其一,构建Protocol-Anchored Environments(协议锚定环境)。该机制通过挖掘真实的Model Context Protocol (MCP) 生态系统,将真实工具转化为可执行的Python代码以确保确定性的状态转移,并利用结构复杂度进行过滤,保障智能体在具有足够功能深度的场景中交互;其二,采用Constraint-Guided Sampling(约束引导采样)策略来探索这些环境。该策略在环境探索中主动执行逻辑依赖和对抗性条件,通过围绕具有复杂依赖关系的高难度写入操作规划参考调用链,并注入要求处理限制或拒绝请求的对抗性策略,强制生成能够反映真实世界执行摩擦与复杂性的长视距轨迹。实验表明,在tau^2-Bench、BFCL和ACEBench等基准测试中,基于PACE合成数据训练的模型显著优于现有的最先进合成基线方法,实现了近3倍的数据效率提升。
论文二
论文题目:BiVCoder: A Multi-Agent Framework for Code Generation via Bidirectional Code-Test Diagnosis
论文作者:李晓阳,董谨豪*,施文航,卢卫,杜小勇
大语言模型(LLMs)在自动化代码生成方面展现出显著潜力,但现有测试驱动的代码生成与修正框架常受测试质量限制。它们通常将自生成测试视为真实标准,导致代码被反复修改以满足错误测试,形成低效调试循环。为解决该问题,我们提出BiVCoder,一个诊断驱动的多智能体框架,核心是一种双向代码-测试诊断机制。BiVCoder包含Coding Agent、Test Agent和Review Agent三类智能体。其中,Review Agent作为诊断与决策中心,通过集成MCP代码-测试执行工具,运行程序并分析失败根因,判断问题来自代码实现缺陷还是测试用例缺陷,再有针对性地调用Coding Agent或Test Agent进行修复。此外,我们提出BiVCoder-SFT,一种面向角色的指令微调方案,通过构建高质量数据集,将Qwen3-4B微调为代码生成、测试生成和代码审查的专门智能体。在HumanEval、MBPP及其更严格的ET变体上的实验表明,BiVCoder具有明显优势。基于GPT-3.5,BiVCoder的Pass@1达到77.3%。BiVCoder-SFT在四个数据集上的平均得分为79.5%,超过其基座模型69.7%,也优于Qwen3-8B的77.8%。同时,BiVCoder还能提升强模型表现,例如将DeepSeek-V3.2在HumanEval上的成绩从87.2%提升至92.1%。
论文三
论文题目:From Outcomes to Mechanisms: A Benchmark for Diagnosing LLM’s Mechanism Hallucination on Data Inference Externalities [ADS]
研究所:数智社会管理与工程研究所
论文作者:李宣颐,冯安堃,景年泽,李泽延,栗雅欣,黄科满*,杜小勇
本文提出了一个面向“机制理解”的大模型智能体评测框架,核心问题是:大语言模型在复杂经济决策场景中即使能够给出看似正确的最终结果,也可能并未真正理解背后的因果链条、激励结构和比较静态规律。论文以“数据推断外部性”下的数据市场为测试场景,构建了一个可计算、可复现的理性智能体求解器,用于生成均衡共享集合、平台定价、福利分解等可验证的理论基准;同时,将大语言模型作为用户智能体嵌入相同的信息结构和行动空间中,比较其决策与理论均衡之间的差异。与传统只关注最终收益、福利或准确率的评测不同,本文进一步设计了三类机制诊断实验:通过提示词信息密度阶梯检验模型是否依赖显式提示,通过参数扰动和弹性一致性得分检验模型是否符合机制蕴含的比较静态方向,通过多轮虚拟博弈反馈实验考察模型能否在机制反馈下稳定修正策略。实验覆盖GPT、DeepSeek、Qwen等12个前沿模型,结果显示,许多模型在单点结果上可以接近理论最优,但在相关性、噪声或隐私偏好变化时会违反理论方向,呈现出“结果正确但机制错误”的机制幻觉现象。总体而言,论文强调大模型决策能力评估应从“结果导向”转向“机制导向”,即不仅看模型是否“答对”,更要检验其是否真正遵循机制中的因果外部性、激励约束和动态稳定性。
论文四
论文题目:Cross-Source Reasoning-based Correction for Author Name Disambiguation
研究所:数据仓库与商务智能研究所
论文作者:张帆进,庞运河,陈波,沈知雨,饶洋辉*,Evgeny Kharlamov,唐杰*
作者同名消歧是学术搜索系统中的一项关键挑战,通常通过冷启动同名消歧和实时消歧方法来解决。然而,现有算法仍然容易受到论文—作者分配过程中累积错误的影响,并且往往忽视不同数据源之间分配结果不一致的问题。依赖专家标注虽然可行,但资源成本高昂。为此,本文从一个新的视角探索作者姓名消歧问题:通过利用不同数据源之间的不一致分配结果进行跨源纠错。我们提出了CrossND,一个集数据精炼、跨源推理和测试时扩展于一体的全栈框架。首先,链式精炼流程对作者档案进行去噪,并生成更加准确的论文—作者匹配概率。其次,监督微调过程结合这些精炼后的信号,并引入一个基于概率软逻辑的跨源纠错模块,用于推断哪些数据源中的分配结果是错误的。第三,测试时扩展进一步提升了预测的准确性和鲁棒性。在真实世界数据集上的实验表明,CrossND能够在无需人工干预的情况下,借助跨源推理持续优于基线方法。CrossND已被部署于实际场景中,用于支持大规模论文—作者分配结果的纠错。
论文五
论文题目:AISE-Bench: A Full-Cycle Curated Benchmark for Information Seeking on Academic Knowledge Graphs
论文作者:张帆进,王正阳,黄瑞璇,张可凡,辛馨,王元淳,赵姝*,Evgeny Kharlamov,唐杰,李涓子*
工具增强的大语言模型(LLM)正逐渐成为能够利用Web搜索引擎、API和代码来解决复杂长程任务的自主智能体。当前用于学术图谱信息检索的工具使用基准通常依赖合成模板、简化的解空间,或局限于以论文为中心的狭窄任务,从而使一些关键挑战尚未得到充分探索,包括真实的用户意图、复杂的多步骤API规划、丰富的API参数填充、带有引用依据的回答,以及对过程和结果的综合评估。我们提出了AISE-Bench,这是一个面向学术知识图谱信息检索的真实世界、全流程标注基准。每个样本都包含经过验证的查询分类体系、完整的API执行轨迹,以及带有参考链接、基于来源依据的回答。为支持高质量标注,我们设计了一套定制化智能体工作流,使标注者能够高效地规划、执行并修订复杂的API工作流。我们进一步构建了一套综合评估框架,用于衡量答案质量、引用依据可靠性、API规划正确性和执行成功率。在评估的14种方法中,即使是表现最强的模型(PLAY2PROMPT搭配Gemini‑3‑Pro)也仅取得中等水平的表现,并且常常在API规划和执行方面遇到困难。AISE-Bench建立了一个具有挑战性的新测试平台,可用于定量评估和改进多步骤API使用型LLM智能体在逐步正确性、有依据的摘要生成以及可追溯推理方面的能力。
论文六
论文题目:SurveyReview: A Reviewer-Aligned Benchmark for Survey Evaluators
论文作者:张宇衡,王元淳,张帆进,赵如玉,李涓子,唐杰,张静*
大语言模型的快速发展已将综述写作从耗时数月的人工工作转变为自动化过程。随着生成规模不断扩大,可靠评估成为瓶颈,而LLM也越来越多地被用作综述评估器。然而,现有方法在很大程度上依赖现成的LLM-as-a-judge方法,缺乏与人类审稿人进行系统性对齐的机制,同时也缺少用于量化其与人类审稿人一致性的系统框架。为弥补这一空白,我们提出了SurveyReview,这是一个与审稿人对齐的、多维度的综述评估基准和数据集。我们收集并标注了675篇综述论文和1630份审稿报告。我们通过将自由形式的评论转换为四个维度的评分(可读性、批判性、全面性、结构性)并配以支持性理由,对真实的同行评审报告进行了结构化处理。我们进一步发布了标准化的训练/测试划分和评估框架,用于衡量自动评估器与人类审稿人之间的一致性。为验证该基准,我们开发了SurveyAlign,这是一个强基线评估器,通过在标注数据上使用LoRA微调Qwen3-32B构建,并针对知识密集型维度引入外部知识进行增强。在测试集上,SurveyReviewer相较于基于提示的GPT-5.2评审方法显著提升了与审稿人的一致性,在四个维度上的平均MSE从2.28降至1.38,MAE从1.15降至0.69。我们的贡献主要有两点:(1)我们建立了首个多维度、与审稿人对齐的综述评审数据集,并提供了可复现的评估框架;(2)我们开发了一个强基线评估器,显著提升了与人类审稿人的一致性,为未来研究提供了参考。
论文七
论文题目:Black-Box Embedding Inversion Attack on Vector Database
论文作者:孙丽超,吴云乘*,沙海潮,罗欣剑,易鸣洋,张美慧,李翠平,陈红*
本研究针对外包向量数据库场景的嵌入向量,提出了一种新的黑盒图像嵌入反演攻击方法,能够在无法访问嵌入模型结构和参数的情况下,从图像嵌入中重构出高质量图像。具体而言,本研究利用与数据拥有者私有图像分布相近的辅助数据集训练条件扩散模型,使其学习目标数据域中的视觉结构与语义特征。进一步地,设计了一种嵌入引导的交叉注意力机制,将图像嵌入作为条件信号融入生成过程,从而引导模型生成与目标嵌入更加一致的图像。为降低计算开销,将扩散过程转移到预训练VQGAN的潜在空间中进行,并结合确定性解码,在提升生成效率的同时保持重构图像的结构完整性和视觉保真度。在真实世界数据集和主流嵌入模型上的实验结果表明,所提方法在重构质量上显著优于四种现有先进基线方法。实验结果进一步揭示,图像嵌入可能泄露大量敏感视觉信息,说明在向量数据库外包场景中,仍需设计更加有效的隐私保护机制。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号