Lulula

做中文世界顶级的实时语音 Agent——一个实时、有情绪、带 3D 沉浸音效、always-on 的端到端语音对话系统，对标海外标杆 Sesame 与 Thinking Machines Lab。

2-10 人办公室或远程北京海淀端到端语音3D 空间音效全双工对话

创始团队

孙长昊

Founder & CEO

Dr.Sam

首席语音科学家 & 语音模型负责人

孙靖凯

Co-founder & 核心工程负责人

现在的 AI 都是人去适应机器——打字、写 prompt。Lulula 想反过来，让 Agent 适配人的交互带宽，给 AI 真正的声音、身体感与空间环境感。

不是拼接 ASR + LLM + TTS 的管线，而是端到端大模型同时生成语音、动作声、行为——能在对话中主动打断、给出即时回应（back channel），像真人一样自然交互。

除了视觉，Lulula 用 3D 沉浸听觉让 AI 的存在感「如在身边」——开心时拍手、cheers 时碰杯，带空间与时间的逻辑关系。

Fun facts

Lulula 入选奇绩创坛 2026 春季营（S26），在路演日亮相。

创始团队多为字节前同事，核心成员分别来自百度文心、字节扣子与豆包团队，语音算法负责人为顶尖博士，累计发表音频顶会论文 20 余篇。

Lulula 的 Agent 性格鲜明，能与用户自然互动甚至会「怼」用户，交互行为自然涌现——不只是语音助手，更像一个有态度的 AI 伙伴。

技术栈

端到端语音对话系统，核心指标：