统计与大数据研究院马维长聘副教授团队发布两项统计论文智能校对与证明核查开源工具
信息来源:中国人民大学统计与大数据研究院 发布日期:2026年5月11日
近日,中国人民大学统计与大数据研究院马维长聘副教授团队发布两项面向统计与机器学习理论研究的开源工具:proofread-stat-paper 与proofcheck-stat-paper。两项工具均基于 Claude Code 平台构建,分别解决学术论文投稿前的语言与技术细节校对,以及附录证明逻辑链的系统性核查问题,为统计/ML 理论方向的研究者提供从"写对"到"证牢"的自动化辅助。
一、proofread-stat-paper:
投稿前的语言与技术双审校对
在学术写作中,语言层面的疏漏(拼写错误、语法不当、措辞欠佳)与技术表述层面的不一致(符号未定义、假设缺失、索引范围错误)往往是审稿意见中的高频问题。尤其对于篇幅较长的理论论文,人工逐行排查耗时且容易遗漏。
proofread-stat-paper 以两个 Claude Code 斜杠命令的形式提供,开箱即用:
/proofread-grammar:负责语法、拼写、措辞、标点、大小写等语言层面的校对;
/proofread-technical:负责符号一致性、假设声明完整性、逻辑跳跃、索引错误、渐近论证规范性和统计方法论表述准确性等技术层面的审阅。
两个命令均支持全文运行,亦可按章节名称或行号范围(如 L200-500)精准限定校对区域,适配论文写作不同阶段的分区检查需求。
在输出设计上,该工具通过双色标注机制区分两类问题:语法与技术审阅结果注入同一 LaTeX 源文件,语法类问题以红色 \grammarcheck 标注原文,技术类问题以蓝色 \techcheck 标记问题位置。两类命令共享批注文件,互不覆盖。编译后即获得一目了然、红蓝双色的审阅稿。同时,所有发现按类别(语法报告)或严重度(技术报告)汇总输出至独立审阅报告文件,便于作者逐条复核。
红蓝双色标注效果(Simulation 章节),红色=语法标注,蓝色=技术标注
该工具安装过程零依赖:将命令文件复制至项目或用户配置目录即可使用,无需额外安装任何包或环境。
二、proofcheck-stat-paper:
附录证明的六步系统性核查
语言与技术细节的校对解决的是表层问题。统计/ML 理论论文更棘手的挑战在于:附录中的证明逻辑链条是否完整且自洽。这类论文的附录往往篇幅较长(30 页以上为常态),引理嵌套层级深、支撑引理与主定理之间存在复杂的间接依赖、符号在不同章节间隐式复用——上述特征使得人工逐行核查不仅效率极低,且难以保证跨页依赖的一致性。
针对这一问题,proofcheck-stat-paper 提供了一套方法论与工具包,将证明核查拆解为六个阶段(Pass 0–5),按修复成本从低到高依次执行:
Pass 0 — 索引(Indexing):逐项提取论文中所有定理、引理、定义与方程,建立交叉引用审计与符号账本。在投入时间理解证明之前,先排查断裂的引用标签和未定义的符号——此类问题无需理解证明内容即可被识别。
Pass 1 — 关键路径(Critical Path):沿主定理的依赖链,按拓扑顺序逐条验证基础引理。若处于依赖链底层的引理存在错误,其支撑的所有上层推导均无法成立——目的是尽早发现此类结构性缺陷。
Pass 2 — 支撑引理(Support Lemmas):补完关键路径之外的剩余证明单元。此类引理通常彼此独立,可并行检查,执行效率较高。
Pass 3 — 全局一致性(Global Consistency):针对"局部正确但全局矛盾"的横截面缺陷。单一引理证明可能无误,但合并考量时可能出现符号定义在不同单元间漂移、假设在传递过程中被弱化或强化,甚至出现循环依赖。这是该工具与常规语法检查的主要区别。
Pass 4 — 对抗审查(Adversarial Review):从审稿人视角主动搜索反例、边界条件和隐藏假设,检验所引用的外部定理在被引条件下是否严格成立。
Pass 5 — 终期报告(Final Report):将所有发现按"已验证通过""条件验证(依赖上游未检查前提)""待解决问题""总体可验证性判断"四个层级汇总,形成结构化的审阅档案。
Pass 0–5 六步核查流程图
内置审阅规则:工具在方法论层面预置了严重度分级标准(S0–S3,从主定理不成立到符号轻微不清)、19 种常见证明失败模式(涵盖量词顺序错误、不等式方向反转、渐近展开余项条件缺失、隐式假设不可满足等典型问题),以及 5 类论文类型适配策略(渐近理论、集中不等式、优化算法、马尔可夫链、M-估计)。
对于新论文,使用者无需手动设计检查方案。运行 bootstrap 流程并提交论文 LaTeX 源文件后,工具将提取证明架构,生成检查计划(CHECK_PLAN.md)与按依赖排序的分阶段执行方案(EXECUTION_ORDER.md)。所有检查产出位于论文对应的审计目录下,工具核心文件不受修改。该工具同时支持作者修改后的增量复查,可识别变更并集中复查受影响的部分。
三、两个工具的协同定位
两个工具的职责边界清晰:
proofread-stat-paper 关注的是单个陈述的正确性:符号是否一致、假设是否已声明、索引范围是否遗漏——它回答"这句话/这个公式写对了没有"。
proofcheck-stat-paper 关注的是整体逻辑链的完备性:依赖关系是否正确、每一步推导在给定条件下是否成立、所有局部正确的命题拼合后是否依然自洽——它回答"这个证明站不站得住"。
前者适用于投稿前的语言与技术细节清扫,后者适用于对长附录证明结构从假设到结论的端到端验证。二者组合,覆盖了从语言校对到证明审查的完整流程。
四、开源信息
两项工具均已通过 MIT 协议开源,代码托管于 GitHub:
proofread-stat-paper:github.com/maweiruc/proofread-stat-paper
proofcheck-stat-paper:github.com/maweiruc/proofcheck-stat-paper
项目推荐配合 DeepSeek-V4-Pro[1M] 模型及 max efforts 模式使用,充分利用长上下文窗口的优势。团队欢迎学界同仁提出改进建议和使用反馈。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号