科普案例 I 基于多层网络分解的癌症在线健康社区跨癌种与时序情感分析
信息来源: 中国人民大学健康大数据研究院 发布日期:2026年2月24日 22:16
编者按
党的二十大报告强调“推进健康中国建设,把保障人民健康放在优先发展的战略位置”,明确提出要重视心理健康和精神卫生。《健康中国行动(2019—2030年)》中也将“促进心理健康”列为重要专项行动之一。
中国人民大学健康大数据研究院持续聚焦健康医疗领域的前沿议题,通过大数据与统计建模方法,探索疾病与健康行为背后的复杂模式。本期推出《基于多层网络分解的癌症在线健康社区跨癌种与时序情感分析》案例。随着精准医疗和人文关怀理念的持续发展,深入了解不同癌种癌症患者的情感表达模式及演变规律,不仅有助于把握患者群体的心理需求特征,更能为开展精准心理支持和实施有针对性的健康干预提供科学依据。本案例创新性地构建了融合"癌种共性—癌种特异性—时序动态"的多层网络模型,对美国癌症协会在线社区八类主要癌症患者近二十年的发帖数据进行了系统分析,为完善癌症全周期特异性健康管理提供数据支持与方法借鉴。
基于多层网络分解的癌症在线健康社区跨癌种与时序情感分析
一、研究背景
癌症的诊断与治疗过程常伴随焦虑、悲伤、恐惧等一系列复杂情绪,不仅影响患者心理适应,也与内分泌、免疫功能及治疗依从性密切相关。在线健康社区(OHC)为患者、家属及相关人员提供了匿名化表达与情感支持的平台,成为研究癌症情感表达的重要数据来源。然而,现有研究多局限于单一癌种或静态分析,缺乏对多癌种共性与特性、以及情绪随时间动态变化的系统建模。
二、数据和研究目标
在线健康社区发帖数据具有时间跨度长、癌种覆盖广、情感信息丰富等独特优势。本研究选取美国癌症协会(ACS)旗下Cancer Survivors Network(CSN)平台中八类主要癌症(肺、肾、乳腺、卵巢、前列腺、头颈、结直肠癌及淋巴瘤)在2003年9月至2022年9月期间发布的超过66万条公开帖文,旨在提出一种基于词共现网络的多层分解模型,系统分析多癌种OHC发帖中的情感表达结构,识别跨癌种的共性特征、癌种特异性模式及其随时间的变化规律,从而为癌症心理干预和患者支持提供数据驱动的见解。
三、研究结果
本文提出包含三种成分潜在空间模型:设第 类癌症在时间 的邻接矩阵为 ,其连接概率满足 其中 为所有癌种共享且时不变的基线网络结构, 为癌种特异性成分, 为全局时变成分。为进一步提取结构特征,本文对 施加聚类约束,即假定其可分入K个群组,同一组内癌种共享相同的 结构;对 则采用分组最小极大凹惩罚(Group MCP)实现变化点检测,从而识别出情感表达发生显著跃迁的时点。该模型通过约束各成分的低秩性降低参数复杂度,并采用ADMM算法进行参数估计。
在时间维度上,本研究识别出三个显著的变化点,分别为2008/09、2009/03和2018/09,这些时间点与社交媒体平台兴起、移动健康应用普及以及数据隐私政策加强等外部社会技术变迁高度吻合。尤其是2018年之后,网络整体密度显著下降,反映出公众对健康信息共享的态度趋于谨慎,平台互动模式发生结构性转变。
图1 情感表达网络在不同癌症中的密度箱线图,随时间变化而绘制。颜色差异代表断点的存在。
在癌种差异方面,本研究通过聚类分析发现肺癌、肾癌和卵巢癌的情感表达模式最为接近,其网络密度显著低于其他类别,情感表达相对抑制,与这三种癌症较高的恶性程度和不良预后形成对应;头颈癌与淋巴瘤聚为一类,乳腺与结直肠癌聚为另一类,而前列腺癌则独自成簇,说明不同癌种在情感表达方式上存在明显的疾病特异性。
图2 情感表达网络密度的山脊线图,不同颜色对应于癌症类型的聚类。
进一步从语义网络层面来看,每一类癌症都表现出独特的“专属情感词”,如肺/肾/卵巢癌中专属词“hopeless”与“pain”“care”等词高度共现,反映出患者面对预后较差疾病时的绝望感;前列腺癌的相关帖子则更多使用“superior”“conflict”“threat”等与理性判断和身份相关的词汇;而乳腺和结直肠癌患者则更频繁地使用“shame”“guilt”“grief”等与身体意象和亲密性相关的负面情绪词,体现出该类癌症对患者心理和社会功能的深层影响。
四、结论
本研究最终通过多癌种共性特性分析与患者情绪时序变化的双重视角,揭示了癌症患者情感表达的复杂结构,为面向特定癌种和时期的心理支持策略提供了实证依据。
在实践应用层面,本研究为针对不同癌种患者群体的精准心理社会支持提供了科学依据。例如,对于情感表达抑制的肺/肾/卵巢癌患者,应主动筛查其心理困扰,加强情感疏导干预;对于情感表达丰富但负面情绪强烈的乳腺/结直肠癌患者,则应重点关注其身体意象、亲密关系等议题的心理支持。
在方法论层面,本研究提出的分析框架不仅适用于癌症领域,也可推广至其它慢性病、心理健康等在线社区的研究中,为从复杂动态文本数据中提取有价值的结构化信息提供了新范式。
中国人民大学健康大数据研究院于2023年5月获批成立,为学校首批建设的16个创新高地之一。研究院聚焦国民健康中的数据科学挑战,面向国民健康测度、评估、管理等社会重大现实问题开展基础研究与应用研究,致力于服务“健康中国”国家战略重大需求、构建健康大数据领域国内领先、国际一流的创新型研究高地。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号