邮箱:215114768@qq.com哈喽,大家好,今天这篇科技人物稿,就来聊聊朱哲清,这位在大模型狂热时代逆势坚守强化学习十年的 “信仰者”,如何从 Meta 边缘团队负责人逆袭成获千万融资的创业者,更见证行业从质疑到认可的转折。
在人工智能领域,当行业集体陷入“参数即正义”的大模型竞赛时,强化学习这条更慢、更难的赛道显得格格不入。
但对朱哲清而言,过去十年的每一次选择,都在践行强化学习的核心逻辑,在不确定环境中,锚定长期价值大化。
从斯坦福博士到Meta AI团队掌舵人,再到Pokee AI创始人,他的逆势坚守不仅为自己赢得了千万融资,更恰逢强化学习行业迎来“迟到的正名”。
如今,随着强化学习在复杂理、多智能体协同等领域的价值凸显,这位“信仰者”的十年深耕,正成为AI行业多元发展的重要注脚。
逆势择路,在质疑中锚定科研初心
2016年,AlphaGo击败李世石的瞬间,不仅让强化学习走进大众视野,更在当时还是大二学生的朱哲清心中埋下了种子。
他敏锐地意识到,仅靠模仿人类棋谱的监督学习,永远无法实现超越人类的智能,只有让机器主动与环境交互、在奖惩中探索,才能触及智能的本质。
这一判断,让他在强化学习被视为“科研玩具”的年代,毅然将其定为终身科研方向。
彼时的强化学习,正处于“高光后的低谷”。
尽管AlphaGo带来了短暂热度,但仿真环境的局限、真实世界的高试错成本,让技术落地举步维艰。
据行业观察,当时多数企业更倾向于投入见快的监督学习项目,强化学习研究者往往面临经费短缺、成果难落地的困境。
但朱哲清的坚持,源于对强化学习底层逻辑的笃信,正如强化学习奠基者理查德·萨顿所言,婴儿的学习本质是目标驱动的探索,跌倒的负反馈与抓握的正反馈,才是智能进化的核心动力。
商业破局,在Meta打响“翻身仗”
2017年提前毕业加入Facebook(后更名Meta)后,朱哲清很快遭遇了现实的“冷水”。
2020年,他接手的应用强化学习组已濒临解散,20人团队缩减至3人,近30个项目无一看,经费持续削减。在致追求营收的商业巨头中,强化学习须用业绩说话。
朱哲清的破局之道是“减法与聚焦”。
他砍掉所有虚无项目,将精力锁定在广告系统优化等核心场景。当时Meta广告预算调控依赖传统PID控制器,虽稳定但缺乏动态博弈灵活。
他创新引入“元策略”框架,保留原有控制器结构,仅用强化学习训练关键参数,铁皮保温施工既规避了业务震荡风险,又通过模拟验证与真实测试,实现了转化指标的显著提升。
这场“翻身仗”的背后,是科研团队的妥协与坚持,为争取A/B测试机会,研究员们不得不承担产品组的基础代码工作,才换得技术落地的契机。
这一突破也印证了强化学习的商业价值。
正如阿里巴巴ROLL团队后来在研究中证实的,强化学习通过高的策略优化,能显著提升复杂系统的运行能。
朱哲清用硬业绩为强化学习在Meta赢得了话语权,也形成了独特的广逻辑:先拿下关键客户,再以点带面打开局面。
从“天方夜谭”到千万融资
2024年10月,朱哲清离开Meta创办Pokee AI,立志打造具备卓越理与工具调用能力的RL Agent。
但在大模型规模定律横扫行业的背景下,他的想法被多数投资人视为“不切实际”。
当时主流观点认为,只要模型足够大,理能力会自然形成,无需门的强化学习架构。融资初期,他只能用单张NVIDIA RTX 4090显卡跑通的Demo寻求认可。
行业的转折悄然发生。
2025年3月,萨顿获得图灵奖,这是计算机高荣誉次明确授予强化学习研究者,被业内视为“迟到的正名”。
同年年初,DeepSeek-R1等新一代理模型公开报告显示,强化学习是实现复杂理、长程规划的关键,两者并非替代而是互补关系。
这一变化让资本态度逆转,2025年7月,Pokee AI完成1200万美元种子轮融资,此前拒他的投资人纷纷回头。
据新华网报道,2024年北京大学杨耀东课题组的多智能体强化学习研究已在智慧交通、电网领域落地,实现30%能源利用率提升和50%能耗降低,证明了技术的广泛应用价值。
强化学习从“小众赛道”走向行业共识,朱哲清的十年坚守终于迎来行业风口。
破解Agent落地核心瓶颈
融资成功后,朱哲清并未止步于技术落地,而是开始反思Agent的架构革新。
他质疑行业盛行的RAG(检索增强生成)路径,认为将长文本切割向量化会产生20%-30%的信息损耗,在模型长上下文能力爆发的当下,一体化模型才是更优解。
这一判断与他对工具生态的思考一脉相承。
创业过程中,他曾踩过MCP协议的“大坑”,这种被视为AI“USB接口”的工具接入协议,开源社区99%的工具均无法实际使用。
朱哲清意识到,根源在于工具生态的底层错位:现有工具为人类设计,充斥着无语义的ID标识,导致模型调用时频繁“幻觉”。
他提出的解决方案是二次封装现有工具,打造AI原生工具生态,让Agent通过强化学习探索优工具组。
在技术路线上,他选择了介于萨顿纯粹强化学习与纯大模型之间的“混路线”:保留Transformer架构的基础模板,用强化学习构建决策与适应能力的“骨架”。
这种弹策略,既规避了从零训练的常识缺失,又发挥了强化学习的核心优势,让Agent具备未知场景下的“边做边学”能力。