你的位置:湖南铁皮保温施工_鑫诚防腐保温工程有限公司 > 联系鑫诚 > 绵阳罐体保温施工 十年逆势押注 RL! 萨顿图灵奖正名, Pokee AI 融资 1200 万反转全场

绵阳罐体保温施工 十年逆势押注 RL! 萨顿图灵奖正名, Pokee AI 融资 1200 万反转全场

时间:2026-01-04 13:46:42 点击:159 次
铁皮保温施工邮箱:215114768@qq.com

哈喽,大家好,今天这篇科技人物稿,就来聊聊朱哲清,这位在大模型狂热时代逆势坚守强化学习十年的 “信仰者”,如何从 Meta 边缘团队负责人逆袭成获千万融资的创业者,更见证行业从质疑到认可的转折。

在人工智能领域,当行业集体陷入“参数即正义”的大模型竞赛时,强化学习这条更慢、更难的赛道显得格格不入。

但对朱哲清而言,过去十年的每一次选择,都在践行强化学习的核心逻辑,在不确定环境中,锚定长期价值大化。

从斯坦福博士到Meta AI团队掌舵人,再到Pokee AI创始人,他的逆势坚守不仅为自己赢得了千万融资,更恰逢强化学习行业迎来“迟到的正名”。

如今,随着强化学习在复杂理、多智能体协同等领域的价值凸显,这位“信仰者”的十年深耕,正成为AI行业多元发展的重要注脚。

逆势择路,在质疑中锚定科研初心

2016年,AlphaGo击败李世石的瞬间,不仅让强化学习走进大众视野,更在当时还是大二学生的朱哲清心中埋下了种子。

他敏锐地意识到,仅靠模仿人类棋谱的监督学习,永远无法实现超越人类的智能,只有让机器主动与环境交互、在奖惩中探索,才能触及智能的本质。

这一判断,让他在强化学习被视为“科研玩具”的年代,毅然将其定为终身科研方向。

彼时的强化学习,正处于“高光后的低谷”。

尽管AlphaGo带来了短暂热度,但仿真环境的局限、真实世界的高试错成本,让技术落地举步维艰。

据行业观察,当时多数企业更倾向于投入见快的监督学习项目,强化学习研究者往往面临经费短缺、成果难落地的困境。

但朱哲清的坚持,源于对强化学习底层逻辑的笃信,正如强化学习奠基者理查德·萨顿所言,婴儿的学习本质是目标驱动的探索,跌倒的负反馈与抓握的正反馈,才是智能进化的核心动力。

商业破局,在Meta打响“翻身仗”

2017年提前毕业加入Facebook(后更名Meta)后,朱哲清很快遭遇了现实的“冷水”。

2020年,他接手的应用强化学习组已濒临解散,20人团队缩减至3人,近30个项目无一看,经费持续削减。在致追求营收的商业巨头中,强化学习须用业绩说话。

朱哲清的破局之道是“减法与聚焦”。

他砍掉所有虚无项目,将精力锁定在广告系统优化等核心场景。当时Meta广告预算调控依赖传统PID控制器,虽稳定但缺乏动态博弈灵活。

他创新引入“元策略”框架,保留原有控制器结构,仅用强化学习训练关键参数,铁皮保温施工既规避了业务震荡风险,又通过模拟验证与真实测试,实现了转化指标的显著提升。

这场“翻身仗”的背后,是科研团队的妥协与坚持,为争取A/B测试机会,研究员们不得不承担产品组的基础代码工作,才换得技术落地的契机。

这一突破也印证了强化学习的商业价值。

正如阿里巴巴ROLL团队后来在研究中证实的,强化学习通过高的策略优化,能显著提升复杂系统的运行能。

朱哲清用硬业绩为强化学习在Meta赢得了话语权,也形成了独特的广逻辑:先拿下关键客户,再以点带面打开局面。

从“天方夜谭”到千万融资

2024年10月,朱哲清离开Meta创办Pokee AI,立志打造具备卓越理与工具调用能力的RL Agent。

但在大模型规模定律横扫行业的背景下,他的想法被多数投资人视为“不切实际”。

当时主流观点认为,只要模型足够大,理能力会自然形成,无需门的强化学习架构。融资初期,他只能用单张NVIDIA RTX 4090显卡跑通的Demo寻求认可。

行业的转折悄然发生。

2025年3月,萨顿获得图灵奖,这是计算机高荣誉次明确授予强化学习研究者,被业内视为“迟到的正名”。

同年年初,DeepSeek-R1等新一代理模型公开报告显示,强化学习是实现复杂理、长程规划的关键,两者并非替代而是互补关系。

这一变化让资本态度逆转,2025年7月,Pokee AI完成1200万美元种子轮融资,此前拒他的投资人纷纷回头。

据新华网报道,2024年北京大学杨耀东课题组的多智能体强化学习研究已在智慧交通、电网领域落地,实现30%能源利用率提升和50%能耗降低,证明了技术的广泛应用价值。

强化学习从“小众赛道”走向行业共识,朱哲清的十年坚守终于迎来行业风口。

破解Agent落地核心瓶颈

融资成功后,朱哲清并未止步于技术落地,而是开始反思Agent的架构革新。

他质疑行业盛行的RAG(检索增强生成)路径,认为将长文本切割向量化会产生20%-30%的信息损耗,在模型长上下文能力爆发的当下,一体化模型才是更优解。

这一判断与他对工具生态的思考一脉相承。

创业过程中,他曾踩过MCP协议的“大坑”,这种被视为AI“USB接口”的工具接入协议,开源社区99%的工具均无法实际使用。

朱哲清意识到,根源在于工具生态的底层错位:现有工具为人类设计,充斥着无语义的ID标识,导致模型调用时频繁“幻觉”。

他提出的解决方案是二次封装现有工具,打造AI原生工具生态,让Agent通过强化学习探索优工具组。

在技术路线上,他选择了介于萨顿纯粹强化学习与纯大模型之间的“混路线”:保留Transformer架构的基础模板,用强化学习构建决策与适应能力的“骨架”。

这种弹策略,既规避了从零训练的常识缺失,又发挥了强化学习的核心优势,让Agent具备未知场景下的“边做边学”能力。

服务热线
官方网站:hntpi.yajunyuandoor.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:2852320325
邮箱:w365jzcom@qq.com
地址:武汉东湖新技术开发区光谷大道国际企业中心
关注公众号

Powered by 湖南铁皮保温施工_鑫诚防腐保温工程有限公司 RSS地图 HTML地图

Copyright Powered by365建站 © 2025-2034