高瓴人工智能学院师生论文被国际学术会议SIGIR 2025录用
信息来源:高瓴人工智能学院官方微信 发布日期:2025年04月10日
4月5日,中国计算机学会(CCF)推荐的A类国际学术会议SIGIR 2025论文接收结果公布。中国人民大学高瓴人工智能学院师生有20篇论文被录用。SIGIR全称为[ACM Special Interest Group on Information Retrieval](国际计算机协会信息检索大会),被认为是信息检索领域的顶级国际会议之一。SIGIR 2025会议将于7月13日至17日在意大利举行,展示人工智能与信息检索领域的最新进展和突破性研究。
论文介绍
论文题目:Mitigating Source Bias with LLM Alignment (Full Research Paper)
作 者:戴孙浩,周雨琦,庞亮,李茁洋,杜昭成,王刚,徐君
通讯作者:徐君
论文概述:最近的研究发现大语言模型(LLMs)与基于预训练语言模型(PLM)的神经检索器之间存在复杂耦合,导致了一种被称为源偏差(source bias)的现象:即使语义相当,检索模型仍倾向于对LLM生成内容赋予更高的相关性评分。随着LLM的快速发展和广泛应用,有效缓解源偏差已成为信息检索系统可持续发展的重要挑战。现有方法主要从检索模型侧入手,以“被动防御”的方式在生成内容进入检索流程后再进行干预。然而,这类方案在工业实践中面临高频模型更新、高成本维护等问题,且难以从根本上解决源偏差。为此,我们提出了一种从LLM侧出发、在数据生成阶段“主动对齐“输出的新思路,并设计了一个用于源偏差缓解的LLM对齐框架。我们首先通过自动化的偏好数据构建流程生成了10,830条高质量对齐样本。该流程利用LLM对原始人类创作的文档进行多次改写,并借助PLM-based检索模型为每条改写文档打分,构建出具备细粒度偏好差异的偏好对。为充分利用这些连续型偏好分值并提升对齐效率,我们在策略训练中引入了带权重的损失函数,同时在梯度分析中证明该方法具有良好的抗噪能力。在多个检索数据集与PLM-based检索器上的实验表明,使用我们的方法对齐后的大模型不仅能显著降低源偏差,同时还能保持其通用能力。
论文介绍
论文题目:MGIPF: Multi-Granularity Interest Prediction Framework for Personalized Recommendation(Full Research Paper)
作 者:冯若轩*,田震*,彭求实,毛佳昕,赵鑫,胡迪,张长旺
通讯作者:胡迪,张长旺
论文概述:个性化推荐系统专注于预测用户兴趣,已在各类应用中显著提升了用户体验。然而,现有方法通常是通过拟合细粒度标签(如点击标签)来隐式建模用户偏好,却常常忽略了输入数据中本身蕴含的粗粒度兴趣信息。单纯依赖细粒度标签可能会对兴趣建模产生负面影响,限制模型性能,因为这些标签在现实场景中往往带有不可避免的噪声。此外,大多数现有方法在面对缺乏支持样本的情况时,难以有效建模用户的多粒度兴趣,尤其在长尾现象严重的情况下,性能表现不佳。为了解决上述问题,我们提出了一种新颖的学习框架——多粒度兴趣预测框架(MGIPF),以更好地建模用户的多样化兴趣。与以往工作不同,我们的核心思想是同时利用粗粒度和细粒度的兴趣信息来监督模型训练。具体而言,我们引入了一种伪标签方法,从原始数据中显式挖掘用户潜在的多粒度兴趣,并设计了粗粒度兴趣预测模块,协同利用多粒度监督信号来增强对低频商品的学习。相应的粗粒度损失被软加权,以考虑正负样本在多粒度偏好上的置信度差异。值得强调的是,该框架轻量灵活,能够有效适配主流推荐模型,建立端到端的完整训练流程。我们在三个公开数据集上进行了大量实验,验证了该方法的有效性。
论文介绍
论文题目:Generative Recommender with End-to-End Learnable Item Tokenization(Full Research Paper)
作 者:刘恩泽*,郑博文*,凌程,胡澜涛,李晗,赵鑫
通讯作者:赵鑫
论文概述:生成式推荐作为一种直接生成物品标识符以完成推荐任务的新范式,逐渐成为推荐系统领域的研究热点。尽管具备潜力,这类系统面临的主要挑战在于如何构建与推荐系统良好适配的有效物品标识符。现有方法通常将物品分词(item tokenization)过程与生成式推荐训练割裂为独立阶段,导致物品分词与推荐任务存在偏差。为解决这一关键问题,我们提出ETEGRec,通过统一框架将物品分词与生成式推荐有机整合。该框架基于双编码器-解码器架构构建,包含物品分词器和生成式推荐器两个核心组件。为了实现这两个组件之间的知识融合,我们设计了一种面向推荐的对齐策略,其包含两个优化目标:序列-物品对齐与偏好-语义对齐。这些目标有效耦合了物品分词器和生成式推荐器的学习过程,促进二者的协同增强。此外,我们提出了交替优化技术以确保整个框架稳定高效的训练。在公开基准数据集上的实验结果证明了我们方法的有效性。
论文介绍
论文题目:The Truth Becomes Clearer Through Debate! Multi-Agent Systems with Large Language Models Unmask Fake News(Full Research Paper)
作 者:刘雨涵,刘宇轩,张晓庆,陈秀颖,严睿
通讯作者:陈秀颖,严睿
论文概述:在当今的数字环境中,虚假新闻通过社交网络的快速传播带来了显著的社会挑战。现有的大多数检测方法要么使用传统的分类模型,但这些模型存在可解释性差和泛化能力有限的问题;要么为大型语言模型设计特定的提示词,让其直接生成解释和结果,但这种方式未能充分发挥大型语言模型的推理能力。本文提出了一个基于大型语言模型的多智能体系统,名为 TruEDebate(TED),旨在提升虚假新闻检测的可解释性和有效性。TED 引入了受正式辩论设置启发的严格辩论流程。我们的方法包含两个关键的创新组件:DebateFlow Agents 和 InsightFlow Agents。DebateFlow Agents 将多个智能体分为两个团队,一方支持新闻的真实性,另一方则提出质疑。这些智能体依次进行开篇陈词、交叉质询、反驳和总结陈述,模拟类似人类话语分析的严格辩论过程,从而实现对新闻内容的深入评估。与此同时,InsightFlow Agents 包括两个专门的子智能体:Synthesis Agent 和 Analysis Agent。Synthesis Agent 负责总结整个辩论过程,提供一个总体观点,确保评估的一致性与全面性。Analysis Agent 采用一个具备角色感知的编码器和辩论图结构,结合角色嵌入,并通过注意力机制建模辩论角色与论点之间的交互,从而得出最终判断。结果表明 TED 框架在多个评价指标上优于传统方法。更重要的是,TED 提升了虚假新闻检测的可解释性,通过揭示逻辑推理和结构化的辩论过程,从而得出准确的结论。
论文介绍
论文题目:Distributionally Robust Optimization for Unbiased Learning to Rank(Full Research Paper)
作 者:牛泽春,梅朗,陈冲,毛佳昕
通讯作者:毛佳昕
论文概述:无偏排序学习(Unbiased Learning to Rank,ULTR)旨在使用历史点击日志来训练排序模型。现有的无偏排序学习工作聚焦于缓解点击日志中存在的各种偏差,如位置偏差、信任偏差和表示偏差,以得到查询-文档对的真实相关度。然而,他们忽视了训练数据(即历史点击日志)和测试数据(即在线数据)之间的固有的分布迁移。在本文中,我们首先在一个真实的开源ULTR数据集上验证和分析了分布迁移问题。为解决这一问题,我们提出了分布鲁棒的无偏排序学习方法(Distributionally Robust Unbiased Learning to Rank, DRO-ULTR)。具体地,我们为现有的两类无偏排序学习方法设计了两种基于分组的分布鲁棒优化框架,分别使用逐点的点击预测损失和列表式反事实排序损失。实验结果表明,我们提出的框架能够增强多种无偏排序学习方法对分布迁移的鲁棒性。
论文介绍
论文题目:Bridging Short Videos and Streamers with Multi-Graph Contrastive Learning for Live Streaming Recommendation(Full Research Paper)
作 者:渠常乐,赵丽琴,牛亚男,张骁,徐君
通讯作者:张骁
论文概述:流式推荐在互联网内容分发中发挥着重要作用,它能够根据用户的实时行为与偏好,自适应地调整推荐策略或内容,提升用户体验。随着直播业的迅速发展,直播流推荐作为流式推荐的重要应用之一,受到了广泛关注。精准的直播流推荐不仅可以帮助用户快速发现感兴趣的直播内容,还可助力主播吸引更多观众,对直播平台的生态意义重大。然而,直播中用户反馈数据稀疏问题却严重制约了直播流推荐的准确性。现有的跨域推荐方法主要依赖于重叠用户或物品在不同领域间进行信息迁移,而忽视了非重叠短视频与主播之间的强关联性。本文提出了多图对比学习框架MGCCDR,该框架利用重叠用户与非重叠物品来增强跨域信息的传递有效性。通过全局图学习全局表示,建立主播与短视频之间的关联,构建了用户、作者与短视频之间的二部图,并引入多图学习方法,从目标域视角、源域视角以及跨域视角捕捉用户实时偏好。为了应对不同图在最终直播流推荐任务中贡献程度的差异,设计了一种基于注意力机制的方法,有效整合图表示以促进跨域信息的动态聚合。在商业和公开数据集上的实验表明:所提出的MGCCDR方法在性能上显著优于现有的方法。
论文介绍
论文题目:LLM-based Search Assistant with Holistically Guided MCTS for Intricate Information Seeking(Full Research Paper)
作 者:任瑞阳*,王禹淏*,李军毅*,蒋锦昊,赵鑫,王文杰,Tat-Seng Chua
通讯作者:赵鑫,王文杰
论文概述:在数字信息爆炸的时代,真实世界中的信息获取任务往往需要多步的网页搜索和复杂的信息整合,过程繁琐且容易出错。针对这一挑战,本研究基于全局引导的蒙特卡洛树搜索提出了一种全新的大语言模型驱动的搜索助手框架HG-MCTS。该方法将信息获取任务构建为一个逐步构建知识的过程,并引入记忆模块、自适应子目标清单和多视角奖励机制,全面提升复杂查询的覆盖性与准确性。其中,自适应清单用于动态生成子目标,引导搜索过程覆盖复杂查询的多个维度;多视角奖励机制则结合检索质量、探索深度及任务进展情况,为搜索路径提供反馈。该方法有效平衡了局部探索与全局引导,显著减少了冗余搜索路径,确保所有关键信息点均被准确覆盖。
论文介绍
论文题目:Retrieval Augmented Generation with Collaborative Filtering for Personalized Text Generation(Full Research Paper)
作 者:石腾,徐君,张骁,臧晓雪,郑凯,宋洋,李晗
通讯作者:徐君
论文概述:本文聚焦于提升大语言模型(LLM)的个性化生成能力,尤其是在用户个性化的检索增强生成(Personalized Retrieval-Augmented Generation,简称RAG)任务中。传统的个性化RAG方法主要依赖当前用户的历史文档来反映其偏好,从而提升生成质量,但忽略了“相似用户的历史”也可以作为重要的信息源,辅助当前用户的个性化生成。受推荐系统中协同过滤思想的启发,本文提出了一种名为 CFRAG 的方法,将协同过滤机制引入RAG框架,用于文本生成任务中的个性化建模。CFRAG面临两个主要挑战:(1)在缺乏明确用户相似性标签的情况下,如何引入协同信息?(2)如何从多个用户的历史中有效检索支持个性化生成的文档?为解决第一个挑战,本文通过对比学习构建用户表示,以此检索相似用户并引入他们的历史内容。针对第二个挑战,CFRAG设计了个性化的检索器和重排序模块,不仅考虑用户偏好,还借助LLM的反馈信号对检索器与重排序器进行优化,从而更好地服务于生成任务。实验在语言模型个性化基准数据集 LaMP 上进行,结果验证了CFRAG的有效性,并通过进一步分析证明协同信息对个性化生成具有显著提升作用。
论文介绍
论文题目:ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding (Full Research Paper)
作 者:孙忠祥,王启鹏,俞蔚捷,臧晓雪,郑恺,徐君,张骁,宋洋,李晗
通讯作者:徐君
论文概述:基于检索增强生成(RAG)的大型语言模型(LLMs)在知识密集型任务中展现了潜力,但其推理能力,特别是在复杂的多步推理方面,仍然有限。尽管近期有研究探索将RAG与链式思维推理结合,或通过过程奖励模型(PRM)结合测试时搜索,但这些方法面临多个不可信的挑战,包括缺乏解释、PRM训练数据的偏差、PRM评分中的早期步骤偏差,以及忽视未能完全优化推理潜力的后期训练。为了解决这些问题,我们提出了通过可信过程奖励增强推理的框架(ReARTeR),该框架通过后期训练和测试时扩展增强RAG系统的推理能力。在测试时,ReARTeR引入了通过过程奖励模型进行的可信过程奖励,用于准确的标量评分,并通过过程解释模型(PEM)生成自然语言解释,实现步骤细化。在后期训练中,我们利用受可信过程奖励引导的蒙特卡罗树搜索收集高质量的步骤级偏好数据,并通过迭代偏好优化来优化模型。ReARTeR解决了三个关键问题:(1)PRM与PEM之间的不匹配,通过离策略偏好学习进行处理;(2)PRM训练数据中的偏差,通过平衡注释方法并为困难示例加入更强的注释进行缓解;(3)PRM中的早期步骤偏差,通过基于时间差的前瞻搜索策略加以解决。在多步推理基准上的实验结果表明,ReARTeR显著提高了推理性能,突显了其推进RAG系统推理能力的潜力。
论文介绍
论文题目:Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User(Full Research Paper)
作 者:王晓磊,夏纯烜,李军毅,孟繁哲,黄雷,王锦鹏,赵鑫,文继荣
通讯作者:赵鑫
论文概述:对话式推荐系统借助多轮交互捕捉用户偏好并提供个性化推荐,其关键挑战是从对话中有效理解用户偏好。过往研究针对对话上下文信息不足问题,引入知识图谱、大语言模型等外部知识源,设计对齐策略用于理解偏好和推荐。但用户偏好复杂,即便有丰富外部知识,精准推荐仍具挑战,且频繁用户参与会降低体验。为解决该问题,我们提出基于生成式奖励模型的模拟用户,用于与系统自动交互。模拟用户对推荐商品反馈,助其捕捉复杂偏好。受生成式奖励模型启发,设计生成式商品评分(粗粒度反馈)和基于属性的商品评价(细粒度反馈)两种行为,并统一为指令格式,经指令微调构建模拟用户。为平衡效果与效率,借鉴奖励引导搜索范式,交互用集束搜索,还提出高效候选排名法优化推荐结果。大量公开数据集实验验证了该方法的有效性、高效性和可迁移性。
论文介绍
论文题目:Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation(Full Research Paper)
作 者:王禹淏*,任瑞阳*,王雨程,赵鑫,刘璟,吴华,王海峰
通讯作者:赵鑫,刘璟
论文概述:本论文尝试对大型语言模型在检索增强生成场景中,融合参数化知识与检索到的知识的机制进行探索。在宏观层面通过知识流动分析,将知识利用过程划分为四个阶段:知识精炼、知识引出、知识表达和知识竞争,并观察到检索文档的相关性会影响知识流动。在模块层面,初步探讨了神经元激活、多头注意力机制和多层感知机在知识整合中的不同作用。
论文介绍
论文题目:Understanding Accuracy-Fairness Trade-offs in Re-ranking through Elasticity in Economics (Full Research Paper)
作 者:徐晨,赵居甲,王文杰,庞亮,徐君,Tat-Seng Chua, Maarten de Rijke
通讯作者:徐君
论文概述:公平性在重排序任务中日益成为一个重要因素。已有研究表明,排序准确性与物品公平性之间存在权衡关系。然而,这种权衡背后的机制仍未被充分理解。可以将重排序类比为经济交易过程中的动态。准确性与公平性的权衡关系类似于商品税负转移过程中的耦合机制。
在重排序中引入公平性考量,就如同对供应方征收商品税,这种成本最终会转嫁给消费者。类似地,物品端的公平性约束会导致用户端准确性的下降。在经济学中,衡量商品税从供应商(即物品公平性)向消费者(即准确性损失)转移程度的概念,被正式定义为弹性(elasticity)。而在重排序任务中,公平性与准确性的权衡也受到不同物品群体间效用弹性的影响。这一洞察揭示了当前公平重排序评估的局限性——现有方法往往只依赖单一的公平性指标,难以全面衡量算法的公平性表现。围绕“弹性”这一核心概念,本文提出了两项重要贡献:1. 我们引入了**弹性公平曲线(Elastic Fairness Curve, EF-Curve)**作为一种评估框架。该框架能够在不同弹性水平下对算法性能进行对比分析,从而帮助选择最合适的公平重排序策略。2. 我们提出了一种新的公平重排序算法ElasticRank,该算法通过弹性计算,在一个曲率空间中动态调整物品间的距离。在三个广泛使用的排序数据集上的实验证明,该方法在效果与效率上均具优势。
论文介绍
论文题目:LLM-Empowered Creator Simulation for Long-Term Evaluation of Recommender Systems Under Information Asymmetry (Full Research Paper)
作 者:叶潇芃,徐晨,孙忠祥,徐君,王刚,董振华,文继荣
通讯作者:徐君
论文概述:维护推荐系统(RS)的长期可持续性至关重要。传统的推荐系统评估方法主要关注用户的即时反馈(例如点击),但往往忽视了由内容创作者引发的长期影响。在现实世界中,内容创作者可以通过分析用户反馈和偏好趋势,策略性地创作并上传新内容到平台。尽管已有研究尝试对创作者行为进行建模,但它们通常忽视了这些行为是在信息不对称的条件下发生的。这种不对称源于:创作者一般只能获取自己所创作内容的用户反馈,而平台则掌握完整的反馈数据。然而,现有的推荐系统模拟器通常没有考虑这一点,导致长期评估结果不准确。为了解决这一问题,我们提出了一种基于大型语言模型(LLM)的创作者模拟智能体 CreAgent。通过引入博弈论中的信念机制和“快-慢思维”框架,我们能够有效模拟信息不对称下的创作者行为。为了进一步提升 CreAgent 的模拟能力,我们采用近端策略优化算法(PPO)对其进行微调。我们的可信度验证实验表明,该模拟环境能够较好地复现现实平台与创作者的行为,从而提升推荐系统长期评估的可靠性。此外,借助这一模拟器,我们还能进一步研究诸如公平性、多样性等算法是否有助于提升不同利益相关者的长期表现。
论文介绍
论文题目:Hybrid Advertising in the Sponsored Search(Full Research Paper)
作 者:张振*,李维安*,王宇涵,祁琦,黄坤
通讯作者:祁琦
论文概述:在线广告是电商平台的主要收入来源。传统的商业模型是商店出价在广告拍卖中获取展现机会。近期我们团队与美团合作提出了联合拍卖这一新的广告商业模式并已上线使用。联合拍卖模式下一个广告位会展示一家商店和一个品牌的赞助bundle。与传统模式相比,它使平台能同时从品牌方和商店收取费用,从而提高收益。然而,在实际应用中,不同的广告模式可能会吸引不同的用户群体,适用于不同类型的商品和品牌,带来不同的点击量。联合拍卖是否一定比传统广告模式的收益更高?如果不是,有没有一种广告模式能带来更高收益?为了解决这两个问题,我们提出了一种名为“Hybrid广告”的全新模型,如图1所示。
图 1:传统广告模型、联合广告模型和Hybrid广告模型。
在这种模型中,每个广告位可以分配给商店或bundle。为了找到Hybrid广告中的最佳拍卖机制,同时确保近似激励相容和个体理性,我们引入了HRegNet,这是一种专为该目标设计的神经网络架构,如图2所示。大量的模拟数据实验和真实数据实验表明,HRegNet生成的机制相较于已有的基准方法显著提高了平台收入。
图 2:HRegNet的架构设计用于包含m家商店、n个品牌、k个广告位和R个bundle的场景。获胜bundle的最大数量为 C。
论文介绍
论文题目:Exploring the Escalation of Source Bias in User, Data, and Recommender System Feedback Loop (Full Research Paper)
作 者:周雨琦,戴孙浩,庞亮,王刚,董振华,徐君,文继荣
通讯作者:徐君
论文概述:推荐系统在信息获取中发挥关键作用,使用户内容得以被推荐。随着大型语言模型的兴起,以文本为主要形式的AIGC已成为内容生态系统的核心组成部分。理解AIGC对推荐系统性能和动态的影响变得尤为重要。为此,我们构建了一个包含AIGC的环境,以探索其短期影响。实验结果表AIGC在推荐系统中排名更高,这一现象反映了来源偏差的问题。进一步地,我们引入包含四个现实模拟器的反馈循环,模拟用户对AIGC与其他内容的点击行为,生成新的训练数据。结果显示,模型在持续学习用户点击后,对AIGC的偏好增强,带来两方面问题:1. 短期内,源偏差鼓励使用LLM进行内容创作,增加AIGC比例,造成流量分配不均;2.长期来看,AIGC会随着反馈循环而逐渐主导内容生态并导致推荐性能会出现下降。为了解决这些问题,我们提出了一种基于L1损失优化的去偏方法,以维持内容生态的长期平衡。为缓解上述问题,我们提出一种基于L1损失优化的去偏方法,用于维持生态平衡。在真实的AIGC环境中,该方法可实现AIGC与人类内容的合理共存。
论文介绍
论文题目:NExT-Search: Rebuilding User Feedback Ecosystem for Generative AI Search (Full Perspective Paper)
作 者:戴孙浩,王文杰,庞亮,徐君,See-Kiong Ng,文继荣,Tat-Seng Chua
通讯作者:王文杰 庞亮
论文概述:以大语言模型(LLMs)为基础的生成式AI搜索正在重塑信息获取的方式,为用户提供了端到端的答案,极大地降低了用户手动浏览与总结多个网页的繁琐时间成本。然而,虽然这种新范式提升了便捷性,却也破坏了传统网页搜索中长期依赖的用户反馈循环机制。传统网页搜索通过用户的点击行为、停留时间等精细化反馈,不断地优化搜索排序模型;而生成式AI搜索的链路更加长而复杂,包括查询分解、文档检索和答案生成多个阶段,但其获得的用户反馈却通常非常粗粒度(仅针对最终答案),导致反馈难以映射回具体的中间阶段,阻碍了各个中间阶段的持续优化(比如难以利用反馈来更新检索模型)。
为了解决上述问题,我们提出了一个名为NExT-Search的新一代搜索范式,旨在重新引入精细化、过程级别的用户反馈机制。这一提案包含两个互补的模式:用户调试模式(User Debug Mode)允许有意愿的用户在关键阶段进行干预,例如优化查询分解、评估检索到的文档以及修改初步生成的答案;影子用户模式(Shadow User Mode)则创建个性化的用户代理,在用户参与度较低时模拟用户偏好,提供辅助反馈。同时,我们还提出了反馈存储(Feedback Store)的构想,使用户能够共享甚至商业化自身的反馈数据,以进一步激励用户参与。此外,我们探讨了如何通过在线自适应(Online Adaptation)和离线更新(Offline Update)两种方式利用这些反馈数据:前者在实时搜索过程中动态优化当前结果,后者则通过汇总交互日志,定期精细调整搜索流程的各阶段模型。我们期望通过NExT-Search范式,重新建立一个可持续的、富有反馈循环的搜索生态系统,使用户的深度参与有助于持续提升生成式AI搜索的性能。需要指出的是,NExT-Search目前仍处于构想阶段,尚未经过大规模实验验证,希望这一充满潜力的新范式能够吸引学术界和产业界的关注与探索,共同推进生成式AI搜索技术的持续演进。
论文介绍
论文题目:Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study(Resource & Reproducibility Paper)
作 者:牛泽春,张智霖,毛佳昕,艾清遥,文继荣
通讯作者:毛佳昕
论文概述:反事实排序学习 (Counterfactual Learning to Rank,CLTR)旨在使用大量的用户交互数据来训练排序模型。虽然当用户行为假设正确且倾向估计准确时,CLTR模型在理论上是无偏的,但由于缺乏广泛可用的大规模真实点击日志,其有效性通常通过基于模拟的实验进行评估。然而,现有的基于模拟的实验都有一定的局限性,因为它们可能存在以下一个或多个缺陷:1) 使用性能弱的生产排序模型来生成初始排序列表,2) 依赖简化的用户模拟模型来生成用户点击,3) 生成固定数量的合成点击日志。因此,CLTR 模型在复杂多样情况下的鲁棒性在很大程度上是未知的,需要进一步研究。为了解决这个问题,在本文中,我们旨在通过大量更丰富的基于模拟的实验,研究现有 CLTR 模型的鲁棒性,这些实验 (1) 使用具有不同排序性能的生产排序模型,(2) 利用具有不同用户行为假设的多个用户模拟模型,以及 (3) 为训练查询生成不同数量的合成会话。我们发现 IPS-DCM、DLA-PBM 和 UPE 模型在各种模拟设置下都比其他 CLTR 模型表现出更好的鲁棒性。此外,当生产排序模型强大且训练会话数量有限时,现有的 CLTR 模型通常无法超越简单的基于点击的基线模型,这表明迫切需要针对这些条件发展新的 CLTR 算法。
论文介绍
论文题目:SAGraph: A Large-Scale Social Graph Dataset with Comprehensive Context for Influencer Selection in Marketing ( Resource & Reproducibility Paper)
作者:张晓庆,刘雨涵,王建周,胡振兴,陈秀颖,严睿
通讯作者:陈秀颖,严睿
论文概述:在影响者营销研究中,传统方法通常将用户态度、互动频率、广告内容等复杂因素简化为数值指标,难以全面捕捉营销活动的深层特征。为此,我们提出SAGraph——基于微博平台构建的多维度营销数据集,涵盖六大商品类别的推广活动。该数据集整合了社交网络多维数据,包括345,039份用户画像、完整互动记录(130万条评论、55.4万次转发及4.4万条帖文),并创新性地融合用户画像、内容特征与时序交互模式,支持对营销效果的深度解析。通过传统基线方法与前沿大语言模型的对比实验,我们验证了内容分析对影响者效果预测的关键作用。数据集与代码已开源:
https://github.com/xiaoqzhwhu/SAGraph/。
论文介绍
论文题目:FairDiverse: A Comprehensive Toolkit for Fairness- and Diversity-aware Information Retrieval (Resource paper)
作 者:徐晨*,邓智睿*,Clara Rus*, 叶潇芃,刘圆娜,徐君,窦志成,文继荣,Maarten de Rijke
通讯作者:徐君, 窦志成
论文概述:在现代信息检索(Information Retrieval, IR)中,仅关注准确性已不再足够。为了维护一个健康的生态系统,尤其需要满足公平性与多样性的要求。为此,研究者们已提出了多种数据集、算法与评估方法。这些算法通常在不同的指标、数据集和实验设置下进行测试,导致结果难以统一比较,也增加了评估的复杂性。因此,亟需一个全面的信息检索工具包,用于在各类IR任务中对关注公平性与多样性的算法进行标准化评估。为了解决这一问题,我们提出了一个开源、标准化的工具包——FairDiverse。首先,FairDiverse 提供了一个完整框架,可将关注公平性与多样性的方案(包括预处理、处理中和后处理方法)灵活集成到信息检索流程的不同阶段。其次,FairDiverse 支持在两类基础IR任务(搜索与推荐)中,评估多达28种公平性与多样性算法,结合16种基础模型,建立了一个系统性基准评测平台。
最后,FairDiverse 具备高度可扩展性,提供多种API,便于信息检索研究者快速开发自身的公平性与多样性模型,并与现有方法进行公平比较。该项目已在 GitHub 开源,链接为https://github.com/XuChen0427/FairDiverse
论文介绍
论文题目:Exploring Human-Like Thinking in Search Simulations with Large Language Models(Short Paper)
作 者:张尔含,王星竹,公培元,杨子璇,毛佳昕
通讯作者:毛佳昕
论文概述:模拟用户搜索行为是信息检索中的一项关键任务,可用于用户行为建模、数据增强以及系统评估。近年来,大型语言模型(LLMs)的发展为生成类人行为(如查询、浏览和点击)开辟了新可能性。在本研究中,我们探索了通过利用LLMs将类人的思维过程整合到搜索模拟中的方法,旨在模拟用户的隐藏认知过程。具体而言,在给定搜索任务和上下文的情况下,我们首先引导LLMs“像人一样思考”,然后再执行相应的操作。由于现有搜索数据集通常不包含用户的思考过程,我们开展了一项用户研究,收集了一个包含用户显式思维的新数据集。在此基础上,我们研究了引入类人思维对模拟性能的影响,并通过有监督微调(SFT)训练LLMs,学习模仿人类的思维与行为。我们的实验从两个维度探讨了LLMs在用户模拟中的应用:(1)是否引入显式思维,以及(2)是否在包含思维过程的数据集上进行微调。实验结果展示了在用户模拟中引入类人思维的可行性与潜力,尽管在某些指标上的性能提升仍然有限。我们相信,这项探索为推进搜索模拟中的用户行为建模提供了新的方向与启发。
Copyright ©2016 中国人民大学理工学科建设处 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号