天眼查显示,第四范式(北京)技术有限公司“针对大语言模型的评测方法、装置、设备及存储介质”专利公布,申请公布日为2024年10月29日,申请公布号为CN118862868A。
本公开涉及一种针对大语言模型的评测方法、装置、设备及存储介质。构建适用于大语言模型的对抗性任务,所述对抗性任务需要多个参与者参与执行,且所述对抗性任务的执行依赖于参与者的语言理解能力和/或逻辑推理能力;调用多个大语言模型执行所述对抗性任务,每个所述大语言模型对应至少一个参与者;基于任务执行信息对所述多个大语言模型进行评测。由于对抗性任务的多样性和对手的不确定性,大语言模型无法通过提前拟合数据集的方式进行数据攻击和评测作弊。因此,可以规避固定数据集的评测方式所存在的缺陷。