理光在自然语言处理顶级会议ACL 2024官方比赛中荣获第一

2024-08-27 09:56:34

近日，理光中国研究院（以下简称SRCB）在自然语言处理顶级会议Association of Computational Linguistics 2024(以下简称ACL)的官方比赛Social Media Mining for Health Research and Applications Workshop and Shared Tasks 2024(以下简称SMM4H)中获得共享竞赛任务提取和规范化英文推文中的药物不良事件（ADEs）赛道的第一名，并受邀分享了技术方案。

全球聚焦，学界盛会

ACL是一个国际性学术组织，致力于推动计算语言学领域的研究、开发和应用。每年一度的ACL大会，以其前沿的研究议题、权威的学术报告和广泛的行业参与，吸引着全球学者和专业人士的目光，被誉为自然语言处理领域的风向标。

SMM4H是一个专注于社交媒体数据挖掘在健康研究和应用中的年会和竞赛活动。今年第九届SMM4H的主题为 "Large Language Models (LLMs) and Generalizability for Social Media NLP"，聚焦于探索大语言模型（LLMs）在社交媒体自然语言处理（NLP）任务中的应用及其泛化能力。在这个跨学科的平台上，与会者共同探讨如何有效运用最前沿的技术通过社交媒体数据洞察和解决现实世界中的健康问题。SMM4H不仅为参与者提供了一个展示研究成果、交流创新思想的舞台，更为推动健康科学研究与实践的进步贡献了重要力量。

攻坚克难，再创佳绩

SRCB在SMM4H 2024共享竞赛任务中挑战的课题是“提取和规范化英文推文中的药物不良事件（ADEs）”，任务内容是从嘈杂的社交媒体推文中精确提取出由药物引发的不良反应，并将其映射为MedDRA词典中的标准化医学术语。MedDRA词典（全称Medical Dictionary for Regulatory Activities）是一个国际权威的标准化医学术语集，用于帮助不同国家和地区的药品监管机构、制药公司、临床研究人员以及医疗保健专业人员之间进行有效的沟通和数据交换。

*竞赛任务描述

面对非结构化数据的复杂性、噪音和背景信息的干扰、多义性问题以及数据稀疏性等多重任务挑战，理光团队通过以下技术有效地提高了不良事件信息提取和术语规范化的性能：

1.提出了一个包含ADEs抽取、MedDRA术语检索和MedDRA术语过滤模块的体系架构，有效地缓解了传统方法使用的流程所带来的误差传播，提升了术语规范化的准确性。

2.创新性地提出了四种基于大语言模型的数据增强方法，充分发挥了大语言模型生成高质量文本内容的能力。

3.通过使用医学领域训练样本对文本嵌入模型进行微调，显著提高了MedDRA术语的召回率。

理光团队提出的体系架构，通过分析社交媒体上的用户反馈，能够补充临床试验中未报告的药物副作用信息，为药物安全性评估提供了新的视角。实时监测公共健康趋势以及分析社交媒体数据，能够快速反映社会中某些药物的使用情况和相关风险，为公共卫生决策提供了有力的数据支持。对于制药公司和监管机构来说，这一系统提供了实时挖掘社交媒体上的ADEs信息的能力，有助于及早发现并应对潜在的公共健康问题。