← 返回职位

QA(AI Agent 方向)

北京Junior / Senior / C-level全职17 天前

关于 Cola

Cola 是一个运行在端上的 AI Agent——有记忆、有人格、能主动行动的 AgentOS。

它的输出不是确定性的 API 返回值,而是带有意图、情绪、上下文记忆的行为序列。测试 Cola,不是验证"按钮点了有没有反应",而是判断"这个 Agent 的行为像不像一个靠谱的伙伴"。

团队不到二十人,早期阶段,节奏快,品质要求高。

为什么这个岗位跟传统 QA 不一样

传统 QA 的核心假设是:给定输入,输出应该是确定的。

但 Cola 是 AI Agent——同一个问题问两次,回答可能不同;同一个操作在不同记忆状态下,行为可能不同;"正确"不是二元的,而是一个连续谱。

你需要建立的不是"通过/不通过"的判断,而是:这个行为在这个上下文里,是否合理、自然、符合设计意图。

这更像是产品感知,而不是测试执行。

你会做什么

定义"好"的标准 — 当 Agent 的行为没有标准答案时,你来判断什么是合格的、什么是惊艳的、什么是不可接受的

从用户视角发现体验问题 — 不是等开发提测才介入,而是持续使用产品,像真实用户一样感受,发现那些"功能没 bug 但体验不对"的问题

设计评测维度 — 记忆一致性、人格稳定性、主动行为的恰当性、对话自然度、情绪感知准确性……这些维度需要你来定义和持续迭代

构建质量反馈闭环 — 发现问题 → 归因(是 prompt 问题、模型问题、工程问题还是设计问题)→ 推动修复 → 验证

必须具备

产品感知力

能区分"能用"和"好用",对体验粗糙有天然不适感

能站在用户角度感受产品,不是从开发视角检查功能

对"这里不对但我说不清为什么"这种感觉有追根溯源的能力

AI 产品理解

理解 LLM 的不确定性,知道 AI 产品的"bug"和传统软件的"bug"本质不同

能在非确定性输出里建立质量评判框架

用过 AI 产品,对什么是好的 AI 交互有体感

系统性思维

能设计评测维度和场景矩阵,不是凭感觉随机点点

能归因问题——是设计问题、实现问题、模型问题还是 prompt 问题

能把模糊的"感觉不对"转化为可追踪、可复现、可衡量的描述

加分项

能写代码 — 能搭自动化评测脚本、能写爬虫抓对比数据、能自己跑批量测试。不要求全栈,但 scripting 能力会让你效率翻倍

有 AI 产品测试经验 — 测过对话系统、推荐系统、Agent 系统,知道怎么评估非确定性输出

心理学/语言学背景 — 能从认知层判断对话是否自然、人格是否一致

有 0→1 经验 — 在早期产品里从零建立过质量体系,不是在成熟 QA 流程里跑用例

自己是重度 AI 用户 — 日常高频使用各种 AI 产品,对好坏有直觉

这个岗位可能不适合你,如果……

你的工作方式是等开发提测、按用例执行、报 bug 关 bug——我们需要更主动的角色

你习惯用"通过率"衡量质量——AI 产品的质量不是通过率能概括的

你没用过 AI 产品,对 LLM 的行为模式不熟悉

工作方式

线下办公,需要高频使用产品并主动反馈

质量标准和评测维度由你来定义和迭代,不是等别人给清单

一句话总结

我们在找:能在 AI Agent 产品里定义"好"的标准的人。有产品感知力,理解不确定性,能把"感觉不对"变成可行动的质量信号。

如果你觉得"测试 AI 的行为是否像一个靠谱的伙伴"这件事很有意思——聊聊

团队的其他职位
了解这群人
ColaOS
首个有灵魂的操作系统 当 2030 年,面对已经拥有完整灵魂的她,你准会回想起第一次与 Cola 开启对话的那个遥远午后。
2-10 人·新加坡