绵阳罐体保温施工十年逆势押注 RL! 萨顿图灵奖正名, Pokee AI 融资 1200 万反转全场

你的位置：湖南铁皮保温施工_鑫诚防腐保温工程有限公司 > 联系鑫诚 > 绵阳罐体保温施工十年逆势押注 RL! 萨顿图灵奖正名, Pokee AI 融资 1200 万反转全场

时间：2026-01-04 13:46:42 点击：159 次

邮箱：215114768@qq.com

哈喽，大家好，今天这篇科技人物稿，就来聊聊朱哲清，这位在大模型狂热时代逆势坚守强化学习十年的 “信仰者”，如何从 Meta 边缘团队负责人逆袭成获千万融资的创业者，更见证行业从质疑到认可的转折。

在人工智能领域，当行业集体陷入“参数即正义”的大模型竞赛时，强化学习这条更慢、更难的赛道显得格格不入。

但对朱哲清而言，过去十年的每一次选择，都在践行强化学习的核心逻辑，在不确定环境中，锚定长期价值大化。

从斯坦福博士到Meta AI团队掌舵人，再到Pokee AI创始人，他的逆势坚守不仅为自己赢得了千万融资，更恰逢强化学习行业迎来“迟到的正名”。

如今，随着强化学习在复杂理、多智能体协同等领域的价值凸显，这位“信仰者”的十年深耕，正成为AI行业多元发展的重要注脚。

逆势择路，在质疑中锚定科研初心

2016年，AlphaGo击败李世石的瞬间，不仅让强化学习走进大众视野，更在当时还是大二学生的朱哲清心中埋下了种子。

他敏锐地意识到，仅靠模仿人类棋谱的监督学习，永远无法实现超越人类的智能，只有让机器主动与环境交互、在奖惩中探索，才能触及智能的本质。

这一判断，让他在强化学习被视为“科研玩具”的年代，毅然将其定为终身科研方向。

彼时的强化学习，正处于“高光后的低谷”。

尽管AlphaGo带来了短暂热度，但仿真环境的局限、真实世界的高试错成本，让技术落地举步维艰。

据行业观察，当时多数企业更倾向于投入见快的监督学习项目，强化学习研究者往往面临经费短缺、成果难落地的困境。

但朱哲清的坚持，源于对强化学习底层逻辑的笃信，正如强化学习奠基者理查德·萨顿所言，婴儿的学习本质是目标驱动的探索，跌倒的负反馈与抓握的正反馈，才是智能进化的核心动力。

商业破局，在Meta打响“翻身仗”

2017年提前毕业加入Facebook（后更名Meta）后，朱哲清很快遭遇了现实的“冷水”。

2020年，他接手的应用强化学习组已濒临解散，20人团队缩减至3人，近30个项目无一看，经费持续削减。在致追求营收的商业巨头中，强化学习须用业绩说话。

朱哲清的破局之道是“减法与聚焦”。

他砍掉所有虚无项目，将精力锁定在广告系统优化等核心场景。当时Meta广告预算调控依赖传统PID控制器，虽稳定但缺乏动态博弈灵活。

他创新引入“元策略”框架，保留原有控制器结构，仅用强化学习训练关键参数，铁皮保温施工既规避了业务震荡风险，又通过模拟验证与真实测试，实现了转化指标的显著提升。

这场“翻身仗”的背后，是科研团队的妥协与坚持，为争取A/B测试机会，研究员们不得不承担产品组的基础代码工作，才换得技术落地的契机。

这一突破也印证了强化学习的商业价值。

正如阿里巴巴ROLL团队后来在研究中证实的，强化学习通过高的策略优化，能显著提升复杂系统的运行能。

朱哲清用硬业绩为强化学习在Meta赢得了话语权，也形成了独特的广逻辑：先拿下关键客户，再以点带面打开局面。

从“天方夜谭”到千万融资

2024年10月，朱哲清离开Meta创办Pokee AI，立志打造具备卓越理与工具调用能力的RL Agent。

但在大模型规模定律横扫行业的背景下，他的想法被多数投资人视为“不切实际”。

当时主流观点认为，只要模型足够大，理能力会自然形成，无需门的强化学习架构。融资初期，他只能用单张NVIDIA RTX 4090显卡跑通的Demo寻求认可。

行业的转折悄然发生。

2025年3月，萨顿获得图灵奖，这是计算机高荣誉次明确授予强化学习研究者，被业内视为“迟到的正名”。

同年年初，DeepSeek-R1等新一代理模型公开报告显示，强化学习是实现复杂理、长程规划的关键，两者并非替代而是互补关系。

这一变化让资本态度逆转，2025年7月，Pokee AI完成1200万美元种子轮融资，此前拒他的投资人纷纷回头。

据新华网报道，2024年北京大学杨耀东课题组的多智能体强化学习研究已在智慧交通、电网领域落地，实现30%能源利用率提升和50%能耗降低，证明了技术的广泛应用价值。

强化学习从“小众赛道”走向行业共识，朱哲清的十年坚守终于迎来行业风口。

破解Agent落地核心瓶颈

融资成功后，朱哲清并未止步于技术落地，而是开始反思Agent的架构革新。

他质疑行业盛行的RAG（检索增强生成）路径，认为将长文本切割向量化会产生20%-30%的信息损耗，在模型长上下文能力爆发的当下，一体化模型才是更优解。

这一判断与他对工具生态的思考一脉相承。

创业过程中，他曾踩过MCP协议的“大坑”，这种被视为AI“USB接口”的工具接入协议，开源社区99%的工具均无法实际使用。

朱哲清意识到，根源在于工具生态的底层错位：现有工具为人类设计，充斥着无语义的ID标识，导致模型调用时频繁“幻觉”。

他提出的解决方案是二次封装现有工具，打造AI原生工具生态，让Agent通过强化学习探索优工具组。

在技术路线上，他选择了介于萨顿纯粹强化学习与纯大模型之间的“混路线”：保留Transformer架构的基础模板，用强化学习构建决策与适应能力的“骨架”。

绵阳罐体保温施工 十年逆势押注 RL! 萨顿图灵奖正名, Pokee AI 融资 1200 万反转全场