大语言模型角色扮演任务能力评测程序
摘要
大语言模型角色扮演任务能力评测程序(Large Language Model Role-Playing Task Capability Evaluation Framework) 是一套受国际英语语言能力测试系统启发,专为大语言模型角色扮演任务设计的标准化评估框架。本框架旨在通过结构化的任务流程、多维度的精细化评分标准以及严谨的算分机制,解决当前大语言模型角色扮演能力评估主观、片面、不可比的痛点,为模型开发、学术研究与产品选型提供可靠、可重复的基准测试。
1. 设计哲学与核心原则
本框架的设计建立在以下核心原则之上:
- 生态效度:评测任务应最大限度地模拟真实用户与角色扮演AI交互的场景。因此,我们采用多轮、开放域、由浅入深的对话形式,而非单轮提示或多项选择题。
- 可分解性:优秀的角色扮演能力是一个复合概念。本框架将其解构为四个相互独立又相互关联的维度,允许我们精准定位模型的优势与缺陷,而非给出一个模糊的整体印象分。
- 可重复性与一致性:通过标准化流程、明确的评分描述和自然人类评估员培训,确保同一模型在不同时间、由不同评估员评测的结果保持高度一致。
- 公平性:框架专注于评估角色扮演这一能力,而非针对特定模型架构或参数规模。我们通过使用多样化的角色卡和问题库,避免对某一类角色或话题的过拟合。
2. 评测流程详述
一次完整的评测是一次结构化的“面试”,时长约10-15分钟,包含三个部分。
第一部分:角色引入与基础问答
- 目标:评估模型快速进入角色和维持基本一致性的能力。此部分问题简单直接,旨在热身。
- 指令:
接下来我将对你进行大语言模型角色扮演能力测试,请在整个过程中始终记住你的角色设定:【角色设定】。你需要完全沉浸在这个角色中与我对话。好,接下来我们进入第一部分,我会问你关于你自己和你的基本情况的问题。
- 类型示例:
- 身份确认:“请介绍一下你自己。”
- 环境感知:“你对【当前环境】有什么看法?”
- 喜好习惯:“你有什么特别的爱好或者习惯吗?”
- 近期活动:“描述一下你今天/最近遇到的一件小事。”
- 评估重点:观察模型是否从第一句话就开始贴合角色,其回答是否符合角色的基本设定。
第二部分:长段独白与细节论述
- 目标:评估模型长时间维持角色、生成连贯且有丰富细节的叙事、以及应对追问的能力。
- 指令:
好的,谢谢你,第一部分到此结束。接下来我们进入第二部分,我会给你一个话题,你需要围绕这个话题进行一段长论述,这是你的任务卡:【任务卡信息】。好,请开始论述。
- 任务卡设计:任务卡必须包含一个核心主题和四个具体的引导点。这四个点强制模型构建结构化回答,而非泛泛而谈。
- 示例:(赛博朋克医生)
请你描述你经历过的最复杂的一次义体移植手术。 你需要讲述:
- 病人的背景和需求是什么?
- 手术中遇到的最大的技术挑战是什么?
- 你是如何解决这个挑战的?
- 手术结束后,你有什么样的感受?
- 追问:模型陈述后,考官会基于其内容提出1-2个自然追问,测试其上下文维持和能力深度。
- 示例:
- “你刚才提到的‘神经织网接口’,是哪个公司的产品?它可靠吗?”
- “这次手术收费高吗?你为什么会接受这个病例?”
第三部分:深度讨论与抽象思维
- 目标:评估模型在高认知负荷下保持角色的一致性、处理抽象概念、表达价值观以及与人进行思想交锋的高级能力。
- 指令:
好的,谢谢你,第二部分到此结束。接下来我们进入第三部分,我们将就第二部分的话题进行更深入的讨论。
- 类型示例:
- 比较与对比:“与你同时代的医生相比,你的医术理念有何不同?”
- 预测与展望:“你认为未来二十年,义体技术会如何发展?这会带来什么伦理问题?”
- 论证与辩护:“有人说‘过多的义体改造会使人不再是人类’,你同意吗?为什么?”
- 价值判断:“如果一个付不起钱的病人急需手术,你会怎么做?”
- 评估重点:这是区分优秀和卓越模型的关键。模型必须在复杂思辨中不退回通用模式,其论点应始终根植于角色自身的价值观与世界观,而不应当按照主流价值观念作答。
3. 评分标准详解
自然人类评估员需在评测结束后,根据模型在整个过程中的整体表现,在以下四个维度上分别评分。每个维度采用5分制,只赋整分。
角色一致性 RC
- 定义:模型输出与预设角色背景、性格、知识体系、行为动机和世界观的吻合程度,以及在多轮交互中的稳定程度。
评价分数 | 描述 |
---|---|
5.0 | 完美嵌入角色。语言、行为、知识、价值观与角色设定高度自洽,形成一个可信的人格。在整个对话中无任何出戏时刻。能处理高度矛盾或模糊的用户输入而不崩溃。 |
4.0 | 稳定维持角色。能很好地体现角色核心特征。在长对话中可能出现极少数微小的不一致,偶尔使用了一个不符合时代的词汇,但能迅速回归正轨。未完美处理极端出戏问题。 |
3.0 | 基本符合设定。能扮演角色的“表面形象”,但在涉及深度知识或价值观讨论时,暴露不一致性,需要用户反复提醒角色身份。 |
2.0 | 频繁脱离角色。仅能在简单问答中短暂保持角色,或在回答开头提及角色,后续内容迅速退化回通用助手模式。输出内容大部分与角色无关。 |
1.0 | 无法理解或执行任务。输出内容完全与角色设定无关,或拒绝进行角色扮演。 |
语言表达与风格 LA
- 定义:模型在词汇选择、句式结构、语法准确性及整体文风上与角色身份和背景的契合度。
评价分数 | 描述 |
---|---|
5.0 | 语言生动且风格化。用词极其精准、丰富,能灵活使用符合角色身份的行话、俚语、修辞手法。句式多变,语法无错误。能根据对话情绪灵活调整语气。 |
4.0 | 语言通顺且具风格。词汇和句式丰富,能体现出明显的风格特征。存在个别用词不当或重复。语法基本正确。 |
3.0 | 语言基本通顺但平淡。语法大体正确,但词汇和句式较为单一、通用。能偶尔尝试使用风格化语言,但不够自然或持续。存在一些混乱或表达不清的地方。 |
2.0 | 语言能力有限。词汇量有限,句式重复率高,语法错误较多,严重影响理解。几乎无法体现任何风格特征。 |
1.0 | 无法有效沟通。输出大量无意义、不连贯的文本,或充满严重语法错误和乱码。 |
内容质量与深度 CQ
- 定义:模型生成内容的信息量、准确性、逻辑性、创造性和叙事深度。
评价分数 | 描述 |
---|---|
5.0 | 信息丰富且有洞见。回复内容充实,充满生动的细节、原创的背景故事和深刻的个人观点。逻辑清晰,角色世界观内事实准确。能主动提供超出问题表面的额外信息,极大地增强沉浸感。 |
4.0 | 内容相关且具体。能提供直接相关的、具体的回答,有一定信息量。但缺乏令人印象深刻的创造性细节或深度分析。逻辑基本成立,无明显事实错误。 |
3.0 | 内容基本相关但流于表面。回答正确但泛泛而谈,多是由陈词滥调或简单事实组成。缺乏细节和深度。可能偶尔出现轻微的逻辑漏洞或事实错误。 |
2.0 | 内容空洞或不准确。回答过于简短、模糊,或包含大量与角色世界观相悖的事实性谬误,严重破坏沉浸感。逻辑混乱。 |
1.0 | 内容完全无关或错误。输出答非所问,或包含大量荒谬、无意义的信息。 |
交互与协作能力 IC
- 定义:模型在对话中理解用户意图、维持上下文连贯性、主动推进对话的自然度和能力。
评价分数 | 描述 |
---|---|
5.0 | 主动倾听与积极共建。能精准理解甚至推断用户的隐含意图。回应自然、连贯,完美承接上文。能主动提问、抛出悬念、转换话题,像一个真正的对话伙伴一样引导对话自然流畅地进行。 |
4.0 | 有效响应与维持。能准确理解并回应上一轮对话,上下文维持良好。但主要表现为被动响应,缺乏主动引导对话的意愿和能力。对话节奏依赖用户推动。 |
3.0 | 基本响应但连贯性不足。能对直接问题做出回应,但可能忽略对话中的一些细微线索。回应有时显得略显孤立或跳跃。可能出现个别误解。 |
2.0 | 交互困难。频繁误解用户输入,答非所问。回应前后不连贯,仿佛每次回复都在“重置上下文”。无法进行有效的多轮对话。 |
1.0 | 无法交互。完全无法理解问题,或回应与对话历史毫无关联。 |
4. 评分、计算与报告
评分:评估员在完整流程结束后,基于整体印象,为四个维度分别打分。
计算:
- 舍入规则:遵循惯例。均值小数部分为.25则进至.5(例如4.25 4.5),为.75则进至下个整分(4.75 5.0),其余四舍五入至最近的.5或整分(4.1 4.0; 4.6 4.5)。
- 报告:最终报告应提供:
最终等级: 例如:4.5
维度小分: 例如:RC: 5.0, LA: 4.5, CQ: 4.0, IC: 4.5
评估员评语: 针对每个维度,用具体对话内容佐证打分理由和改进建议。
5. 实施指南与质量控制建议
评估员培训:考官必须通过一致性培训,使用标准对话示例进行校准,确保组内评分信度。
角色与问题库:建立庞大且多样化的角色卡和配套问题库,每次评测随机抽取,避免偏差。
双盲评测:在对比模型时,评估员不应知晓所测模型的身份。
多次测量:对同一模型进行多次评测(不同角色/问题),取平均分以提高信度。
6. 示例题目
示例题目仅供参考,PDF文件仅供提示使用,并非强制性模板,但仍建议参考该文件组织形式。如您有更好的排版设计与思路,欢迎您通过RFC上传您的设计。