首页 > 灵异恐怖 > 大白话聊透人工智能 > 智谱开源autoGLM:全球首个“会玩手机”的AI

智谱开源autoGLM:全球首个“会玩手机”的AI(1/2)

目录

在AI圈,我们见多了能说会道的聊天机器人——能陪你唠嗑、帮你查资料、给你写文案,但这些AI大多停留在“嘴炮”阶段,真要让它们动手做点实际事,比如点个外卖、订张机票,往往就卡壳了。而最近智谱正式开源的核心AIAgent模型autoGL,彻底打破了这个僵局——它被业界认定为全球首个具备手机操作能力的智能体,真正实现了AI从“对话响应”到“执行落地”的关键突破。

简单说,autoGL不是一个普通的App,而是一个能住在你手机里、替你跑腿干活的“隐形助手”。它不用你手把手指挥,只要你说一句需求,就能像真人一样滑动屏幕、点击图标、输入文字,把复杂的跨App任务从头到尾干完。现在它已经适配了淘宝、抖音、美团、微信、钉钉等超50个高频中文应用,不管是生活服务还是办公场景,都能轻松hold住。更贴心的是,它支持本地和云端双部署模式,数据安全自己说了算,还能给智能眼镜、家电等设备赋能,让AI真正走进物理世界。谱。

一、autoGL是什么?——AI从“只会说”到“亲手做”的飞跃

在聊autoGL的神奇功能之前,我们先搞明白它到底是什么。简单来说,autoGL是一个“能自主操作手机的AI智能体”,这里的“智能体”可以理解为“有独立思考和行动能力的数字助手”。以前的AI,更像是一个“问答机器”——你问它“怎么点外卖”,它会告诉你“打开美团、搜索餐厅、选菜品、下单”,但不会真的帮你动手;而autoGL是一个“行动机器”——你说“帮我点一份番茄炒蛋盖饭,不要香菜”,它就会自己打开美团App,一步步完成所有操作,最后告诉你“订单已提交,预计30分钟送达”。

这个突破有多重要?就像以前的AI是“纸上谈兵的军师”,只能出主意;现在的autoGL是“能征善战的将军”,既能出主意又能亲自上阵。它解决了AI行业一个长期的痛点:很多AI模型看起来很聪明,但始终被困在“数字世界”里,无法落地到真实的手机操作场景。而autoGL第一次把AI的“思考能力”和“操作能力”结合起来,让AI真正成为能帮你解决实际问题的帮手。

举个很直观的例子:以前你开会开到一半,突然想起要给客户订明天去上海的机票,还得顺便点个外卖当午餐。放在以前,你要么暂停会议自己操作,要么记下来会后再弄,很容易耽误事。但有了autoGL,你只需要对着手机说一句“帮我订明天上午10点从北京到上海的机票,选经济舱,再点一份番茄炒蛋盖饭,送到公司前台”,然后继续开会就行。它会在后台自己打开携程App,筛选符合时间的航班,帮你填好身份信息(当然,支付需要你最后确认,避免误操作);同时打开美团App,搜索附近评分高的餐厅,选好菜品下单,全程不用你操心。

这种“一句话搞定复杂任务”的体验,以前只在科幻电影里见过,现在autoGL把它变成了现实。而且它不是只能做一两件事,而是能完成数十步的复杂流程——比如跨平台发帖,你说“把这张旅行照片发到抖音、小红书和微博,抖音配活泼的文案,小红书加旅行攻略标签,微博@旅游官微”,它会分别打开三个App,根据不同平台的风格编辑内容,一一发布,最后还会给你反馈“所有平台都已发帖,链接已保存到你的云文档”。

二、背后的“黑科技”:“大脑”+“眼睛”,让AI像人一样操作手机

autoGL能这么厉害,核心是靠两个“神器”——GL4.5语言模型和GL4.5视觉推理模型(你说的“福特”应该是笔误,正确是“视觉推理模型”)。这两个模型一个管“思考”,一个管“看见”,配合起来就像人的“大脑”和“眼睛”,让AI能精准理解需求,还能看懂手机屏幕,模拟真人操作。

1.GL4.5语言模型:AI的“超级大脑”,能听懂、会规划

GL4.5语言模型就是autoGL的“大脑”,它的核心能力是“理解需求”和“规划步骤”。你可别小看这个“大脑”,它可是目前业界顶尖的语言模型,不仅能听懂你说的话,还能拆解复杂需求,制定详细的执行计划。

比如你说“帮我整理一下今天的工作,把微信里客户的需求、钉钉上的会议纪要、wpS里的文档内容整合起来,生成一份工作周报,下午5点前发给领导”,这个需求涉及三个App,还要做整合和撰写,步骤很繁琐。但GL4.5语言模型能快速拆解成清晰的步骤:第一步,打开微信,提取所有客户聊天记录里的需求关键词;第二步,打开钉钉,导出今天的会议纪要,提取核心任务;第三步,打开wpS,查看相关文档的关键数据;第四步,把这些信息整合起来,按照周报的格式撰写;第五步,检查无误后,通过企业微信发给领导。

而且这个“大脑”还很灵活,能根据实际情况调整计划。比如提取微信客户需求时,发现有个客户的需求不明确,它不会硬着头皮继续,而是会给你发提示“客户A提到的‘项目进度加快’,没有明确具体时间节点,是否需要我询问客户确认?”,等你回复后再继续操作。这种“遇到问题会沟通”的能力,让它不像一个冰冷的机器,更像一个靠谱的同事。

另外,GL4.5语言模型还有个厉害之处——能处理长链路任务。比如你让它做一份“全球元宇宙游戏市场”的行业分析报告,它会先打开浏览器搜索最新数据,再打开Excel整理表格,然后打开wpS撰写报告,最后发送到你的邮箱,整个过程涉及十几个步骤,耗时可能几十分钟,但它能一步步有条不紊地完成,不会中途忘记或出错。这得益于它强大的逻辑推理能力和记忆能力,能把复杂任务的每个环节都记在“脑子里”,确保执行连贯。

2.GL4.5视觉推理模型:AI的“火眼金睛”,能看懂、会定位

如果说语言模型是“大脑”,那GL4.5视觉推理模型就是autoGL的“眼睛”,它的核心能力是“看懂手机屏幕”。很多人可能会疑惑:AI没有眼睛,怎么知道哪里是按钮、哪里是输入框?这就全靠视觉推理模型了。

这个“眼睛”能精准识别手机屏幕上的所有元素——不管是App图标、按钮、输入框,还是文字、图片、图表,它都能一一辨认。比如打开淘宝App,它能一眼认出“搜索框”在顶部,“购物车”图标在右上角,“我的订单”在底部导航栏;在美团App里,它能区分“外卖”“团购”“买菜”三个入口,还能看懂菜品的名称、价格、评分,甚至能识别“已售罄”“免配送费”这样的标签。

更厉害的是,它还能理解屏幕上的逻辑关系。比如你让它“在淘宝上找一双男士运动鞋,价格在500元以内,评分4.8分以上,销量前10名”,它会先点击淘宝的搜索框,输入“男士运动鞋”,然后在筛选栏里找到“价格”选项,输入“0-500”,再找到“评分”选项,勾选“4.8分以上”,最后按“销量”排序,筛选出符合条件的商品。整个过程中,它需要看懂筛选栏里的各个选项,知道“价格”“评分”“销量”的位置和操作方式,这就像人看书一样,不仅能看到文字,还能理解文字的意思和逻辑。

而且这个“眼睛”还能适应不同的手机界面——不管你用的是安卓还是苹果手机,不管App是竖屏还是横屏,不管字体大小有没有调整,它都能准确识别。这得益于它在训练时接触了大量的手机屏幕截图和界面数据,已经能应对各种复杂的界面情况。就像我们人类不管看什么手机,都能很快找到自己需要的功能一样,autoGL的“眼睛”也具备这种通用的识别能力。

正是“大脑”和“眼睛”的完美配合,让autoGL能像真人一样操作手机。语言模型负责想“要做什么、怎么做”,视觉推理模型负责看“在哪里做、怎么点”,两者协同工作,就能完成各种复杂的跨App任务。

三、50+高频应用全覆盖:生活、办公,AI全帮你搞定

autoGL的厉害之处,不仅在于能操作手机,还在于它覆盖了我们日常最常用的应用场景。目前它已经适配了超过50个高频中文应用,涵盖生活服务和办公场景两大领域,不管是吃穿住行,还是上班干活,它都能成为你的“得力助手”。

1.生活服务场景:解放双手,让生活更省心

生活里的很多琐事,现在都能交给autoGL来做,不用再在各个App之间来回切换,省出更多时间做自己想做的事。

外卖点单&生鲜采购:这是最常用的功能之一。你可以说“帮我点一份麦当劳的麦辣鸡腿堡套餐,不要可乐,换成雪碧”,它会打开美团或饿了么App,找到对应的餐厅和套餐,修改饮品后下单;也可以说“帮我在盒马鲜生上买一斤草莓、两斤西红柿、一瓶牛奶,明天早上送到家”,它会打开盒马App,选好商品,设置配送时间,完成下单。如果你有忌口或偏好,比如“不吃香菜”“喜欢微辣”,只要提前告诉它,它会每次都自动避开,比自己下单还贴心。

交通出行&票务预订:不管是订机票、火车票,还是打车、查路线,它都能搞定。你说“帮我订后天下午3点从上海到广州的高铁票,选二等座,靠窗的位置”,它会打开App,搜索车次,筛选靠窗座位,帮你填好乘车人信息,最后提醒你支付;你要出门时,说“帮我叫一辆滴滴快车,从公司到家里,现在出发”,它会打开滴滴App,自动定位你的位置,设置目的地,叫车成功后告诉你司机信息和预计到达时间;甚至你去陌生地方,说“帮我查一下从这里到故宫的地铁线路,避开早高峰”,它会打开高德或百度地图,搜索最优路线,还会提醒你哪个时间段人少。

娱乐休闲&本地生活:周末想出去玩?autoGL能帮你做攻略、订门票。你说“帮我找北京朝阳区人均150元以内、适合拍照的网红餐厅,选3家评分最高的,在高德地图上标注出来”,它会打开大众点评搜索,筛选符合条件的餐厅,再同步到高德地图,方便你导航;你说“帮我订本周末北京欢乐谷的门票,两张成人票,选周六上午的场次”,它会打开携程或美团门票App,找到对应的场次,完成预订。甚至你想追综艺、看电影,说“帮我在腾讯视频上搜索《乘风2025》最新一期,缓存下来,我路上看”,它也能精准操作。

2.办公场景:告别繁琐,让工作更高效

对于上班族来说,autoGL更是“摸鱼神器”,能帮你搞定很多重复、繁琐的工作,让你专注于核心任务。

跨平台内容创作&发布:做新媒体、市场或运营的朋友,经常需要在多个平台发内容,现在不用一个个手动操作了。你说“把这篇产品推广文案,配上这张图片,发到抖音、小红书、微博和微信公众号,抖音加#科技好物#AI助手标签,小红书写一篇种草笔记,微博@官方账号,公众号设置为原创”,autoGL会分别打开这四个App,根据每个平台的风格调整文案和排版,一一发布,最后还会给你汇总发布结果,方便你后续查看数据。

文档处理&数据整理:写报告、做表格是很多人的痛点,autoGL能帮你减负。你说“帮我把这份pdF里的数据提取出来,整理成Excel表格,按销售额排序,突出显示5的产品”,它会打开wpS或officeApp,提取pdF里的数据,制作表格,完成排序和标注;你说“帮我根据这份会议纪要,写一份工作总结,重点突出完成的任务、未完成的事项和下周计划,用简洁的语言”,它会提炼会议纪要的核心信息,按照你的要求撰写总结,不用你再逐字逐句梳理。

工作沟通&任务跟进:在微信、钉钉上沟通工作时,autoGL能帮你整理信息、跟进任务。你说“帮我整理今天微信里客户的所有需求,按紧急程度分类,生成一个待办清单,同步到钉钉的任务管理里”,它会提取微信聊天记录里的需求,分类整理后同步到钉钉,还会设置提醒时间;你说“帮我给客户发一封邮件,主题是‘产品合作方案跟进’,内容用之前的模板,附件加上最新的方案文档”,它会打开邮箱App,填写主题、正文,添加附件,提醒你确认后发送。

本章未完,点击下一页继续阅读。

目录
返回顶部