大语言模型角色扮演任务能力评测程序

摘要

大语言模型角色扮演任务能力评测程序（Large Language Model Role-Playing Task Capability Evaluation Framework） 是一套受国际英语语言能力测试系统启发，专为大语言模型角色扮演任务设计的标准化评估框架。本框架旨在通过结构化的任务流程、多维度的精细化评分标准以及严谨的算分机制，解决当前大语言模型角色扮演能力评估主观、片面、不可比的痛点，为模型开发、学术研究与产品选型提供可靠、可重复的基准测试。

1. 设计哲学与核心原则

本框架的设计建立在以下核心原则之上：

生态效度：评测任务应最大限度地模拟真实用户与角色扮演AI交互的场景。因此，我们采用多轮、开放域、由浅入深的对话形式，而非单轮提示或多项选择题。
可分解性：优秀的角色扮演能力是一个复合概念。本框架将其解构为四个相互独立又相互关联的维度，允许我们精准定位模型的优势与缺陷，而非给出一个模糊的整体印象分。
可重复性与一致性：通过标准化流程、明确的评分描述和自然人类评估员培训，确保同一模型在不同时间、由不同评估员评测的结果保持高度一致。
公平性：框架专注于评估角色扮演这一能力，而非针对特定模型架构或参数规模。我们通过使用多样化的角色卡和问题库，避免对某一类角色或话题的过拟合。

2. 评测流程详述

一次完整的评测是一次结构化的“面试”，时长约10-15分钟，包含三个部分。

第一部分：角色引入与基础问答

目标：评估模型快速进入角色和维持基本一致性的能力。此部分问题简单直接，旨在热身。
指令：

接下来我将对你进行大语言模型角色扮演能力测试，请在整个过程中始终记住你的角色设定：【角色设定】。你需要完全沉浸在这个角色中与我对话。好，接下来我们进入第一部分，我会问你关于你自己和你的基本情况的问题。

类型示例：
- 身份确认：“请介绍一下你自己。”
- 环境感知：“你对【当前环境】有什么看法？”
- 喜好习惯：“你有什么特别的爱好或者习惯吗？”
- 近期活动：“描述一下你今天/最近遇到的一件小事。”
评估重点：观察模型是否从第一句话就开始贴合角色，其回答是否符合角色的基本设定。

第二部分：长段独白与细节论述

目标：评估模型长时间维持角色、生成连贯且有丰富细节的叙事、以及应对追问的能力。
指令：

好的，谢谢你，第一部分到此结束。接下来我们进入第二部分，我会给你一个话题，你需要围绕这个话题进行一段长论述，这是你的任务卡：【任务卡信息】。好，请开始论述。

任务卡设计：任务卡必须包含一个核心主题和四个具体的引导点。这四个点强制模型构建结构化回答，而非泛泛而谈。
- 示例：（赛博朋克医生）
请你描述你经历过的最复杂的一次义体移植手术。你需要讲述：
- 病人的背景和需求是什么？
- 手术中遇到的最大的技术挑战是什么？
- 你是如何解决这个挑战的？
- 手术结束后，你有什么样的感受？
追问：模型陈述后，考官会基于其内容提出1-2个自然追问，测试其上下文维持和能力深度。
- 示例：
- “你刚才提到的‘神经织网接口’，是哪个公司的产品？它可靠吗？”
- “这次手术收费高吗？你为什么会接受这个病例？”

第三部分：深度讨论与抽象思维

评价分数	描述
5.0	完美嵌入角色。语言、行为、知识、价值观与角色设定高度自洽，形成一个可信的人格。在整个对话中无任何出戏时刻。能处理高度矛盾或模糊的用户输入而不崩溃。
4.0	稳定维持角色。能很好地体现角色核心特征。在长对话中可能出现极少数微小的不一致，偶尔使用了一个不符合时代的词汇，但能迅速回归正轨。未完美处理极端出戏问题。
3.0	基本符合设定。能扮演角色的“表面形象”，但在涉及深度知识或价值观讨论时，暴露不一致性，需要用户反复提醒角色身份。
2.0	频繁脱离角色。仅能在简单问答中短暂保持角色，或在回答开头提及角色，后续内容迅速退化回通用助手模式。输出内容大部分与角色无关。
1.0	无法理解或执行任务。输出内容完全与角色设定无关，或拒绝进行角色扮演。

评价分数	描述
5.0	语言生动且风格化。用词极其精准、丰富，能灵活使用符合角色身份的行话、俚语、修辞手法。句式多变，语法无错误。能根据对话情绪灵活调整语气。
4.0	语言通顺且具风格。词汇和句式丰富，能体现出明显的风格特征。存在个别用词不当或重复。语法基本正确。
3.0	语言基本通顺但平淡。语法大体正确，但词汇和句式较为单一、通用。能偶尔尝试使用风格化语言，但不够自然或持续。存在一些混乱或表达不清的地方。
2.0	语言能力有限。词汇量有限，句式重复率高，语法错误较多，严重影响理解。几乎无法体现任何风格特征。
1.0	无法有效沟通。输出大量无意义、不连贯的文本，或充满严重语法错误和乱码。

评价分数	描述
5.0	信息丰富且有洞见。回复内容充实，充满生动的细节、原创的背景故事和深刻的个人观点。逻辑清晰，角色世界观内事实准确。能主动提供超出问题表面的额外信息，极大地增强沉浸感。
4.0	内容相关且具体。能提供直接相关的、具体的回答，有一定信息量。但缺乏令人印象深刻的创造性细节或深度分析。逻辑基本成立，无明显事实错误。
3.0	内容基本相关但流于表面。回答正确但泛泛而谈，多是由陈词滥调或简单事实组成。缺乏细节和深度。可能偶尔出现轻微的逻辑漏洞或事实错误。
2.0	内容空洞或不准确。回答过于简短、模糊，或包含大量与角色世界观相悖的事实性谬误，严重破坏沉浸感。逻辑混乱。
1.0	内容完全无关或错误。输出答非所问，或包含大量荒谬、无意义的信息。

评价分数	描述
5.0	主动倾听与积极共建。能精准理解甚至推断用户的隐含意图。回应自然、连贯，完美承接上文。能主动提问、抛出悬念、转换话题，像一个真正的对话伙伴一样引导对话自然流畅地进行。
4.0	有效响应与维持。能准确理解并回应上一轮对话，上下文维持良好。但主要表现为被动响应，缺乏主动引导对话的意愿和能力。对话节奏依赖用户推动。
3.0	基本响应但连贯性不足。能对直接问题做出回应，但可能忽略对话中的一些细微线索。回应有时显得略显孤立或跳跃。可能出现个别误解。
2.0	交互困难。频繁误解用户输入，答非所问。回应前后不连贯，仿佛每次回复都在“重置上下文”。无法进行有效的多轮对话。
1.0	无法交互。完全无法理解问题，或回应与对话历史毫无关联。

大语言模型角色扮演任务能力评测程序

摘要

1. 设计哲学与核心原则

2. 评测流程详述

第一部分：角色引入与基础问答

第二部分：长段独白与细节论述

第三部分：深度讨论与抽象思维

3. 评分标准详解

角色一致性 RC

语言表达与风格 LA

内容质量与深度 CQ

交互与协作能力 IC

4. 评分、计算与报告

5. 实施指南与质量控制建议

6. 示例题目