QA(AI Agent 方向)
关于 Cola
Cola 是一个运行在端上的 AI Agent——有记忆、有人格、能主动行动的 AgentOS。
它的输出不是确定性的 API 返回值,而是带有意图、情绪、上下文记忆的行为序列。测试 Cola,不是验证"按钮点了有没有反应",而是判断"这个 Agent 的行为像不像一个靠谱的伙伴"。
团队不到二十人,早期阶段,节奏快,品质要求高。
为什么这个岗位跟传统 QA 不一样
传统 QA 的核心假设是:给定输入,输出应该是确定的。
但 Cola 是 AI Agent——同一个问题问两次,回答可能不同;同一个操作在不同记忆状态下,行为可能不同;"正确"不是二元的,而是一个连续谱。
你需要建立的不是"通过/不通过"的判断,而是:这个行为在这个上下文里,是否合理、自然、符合设计意图。
这更像是产品感知,而不是测试执行。
你会做什么
定义"好"的标准 — 当 Agent 的行为没有标准答案时,你来判断什么是合格的、什么是惊艳的、什么是不可接受的
从用户视角发现体验问题 — 不是等开发提测才介入,而是持续使用产品,像真实用户一样感受,发现那些"功能没 bug 但体验不对"的问题
设计评测维度 — 记忆一致性、人格稳定性、主动行为的恰当性、对话自然度、情绪感知准确性……这些维度需要你来定义和持续迭代
构建质量反馈闭环 — 发现问题 → 归因(是 prompt 问题、模型问题、工程问题还是设计问题)→ 推动修复 → 验证
必须具备
产品感知力
能区分"能用"和"好用",对体验粗糙有天然不适感
能站在用户角度感受产品,不是从开发视角检查功能
对"这里不对但我说不清为什么"这种感觉有追根溯源的能力
AI 产品理解
理解 LLM 的不确定性,知道 AI 产品的"bug"和传统软件的"bug"本质不同
能在非确定性输出里建立质量评判框架
用过 AI 产品,对什么是好的 AI 交互有体感
系统性思维
能设计评测维度和场景矩阵,不是凭感觉随机点点
能归因问题——是设计问题、实现问题、模型问题还是 prompt 问题
能把模糊的"感觉不对"转化为可追踪、可复现、可衡量的描述
加分项
能写代码 — 能搭自动化评测脚本、能写爬虫抓对比数据、能自己跑批量测试。不要求全栈,但 scripting 能力会让你效率翻倍
有 AI 产品测试经验 — 测过对话系统、推荐系统、Agent 系统,知道怎么评估非确定性输出
心理学/语言学背景 — 能从认知层判断对话是否自然、人格是否一致
有 0→1 经验 — 在早期产品里从零建立过质量体系,不是在成熟 QA 流程里跑用例
自己是重度 AI 用户 — 日常高频使用各种 AI 产品,对好坏有直觉
这个岗位可能不适合你,如果……
你的工作方式是等开发提测、按用例执行、报 bug 关 bug——我们需要更主动的角色
你习惯用"通过率"衡量质量——AI 产品的质量不是通过率能概括的
你没用过 AI 产品,对 LLM 的行为模式不熟悉
工作方式
线下办公,需要高频使用产品并主动反馈
质量标准和评测维度由你来定义和迭代,不是等别人给清单
一句话总结
我们在找:能在 AI Agent 产品里定义"好"的标准的人。有产品感知力,理解不确定性,能把"感觉不对"变成可行动的质量信号。
如果你觉得"测试 AI 的行为是否像一个靠谱的伙伴"这件事很有意思——聊聊
