尚未有 iOS 19 正式发布,然而我却抢先在 iPhone 上感受到了苹果最新的 AI 魅力。当我打开某些应用或与 Siri 交互时,仿佛进入了一个全新的智能世界。它的语言理解能力更加出色,能精准地理解我的各种指令和需求,无论是查询信息、设置提醒还是进行有趣的对话,都能迅速给出满意的答案和反馈。那种流畅自然的交互体验,让我对苹果在 AI 领域的探索和创新充满期待,仿佛提前窥见了未来科技的一角,着实令人兴奋不已。
都 2025 年了,还有谁没用上苹果 AI?
本来,只有我们国行 iPhone 用户在苦等,但没想到,海外也没好到哪去。去年 WWDC 上苹果画的那些 AI 大饼,iPhone 用户都快到 iOS 19 还没吃完。
发布会看得热血沸腾,现实里却心灰意冷。
就在我以为苹果今年大概率也“稳中摆烂”的时候,突然发现苹果最近低调开源了一款小模型:FastVLM。
模型 GitHub 下载地址:https://github.com/apple/ml-fastvlm
没搞发布会,也没在官网上大张旗鼓宣传,本来我也没太在意,但当技术部老哥将这款模型在顶配 iPhone 16 Pro Max 跑起来后,我承认有些坐不住了。
一句话概括,这个模型很“苹果”。
模型启动速度极快,识别图像的能力也不错,全程本地执行,没有云端那一套操作,看起来不惊艳,但用起来……有点意思。
我承认,有那么一瞬间,我觉得苹果 AI 又支棱起来了。
作为一组可以在 iPhone、iPad、Mac 等设备上本地运行的视觉语言模型(Vision-Language Model), FastVLM 包括三种参数量级:FastVLM-0.5B、1.5B 和 7B。
普通用户也能将其部署到 iPhone 上,只是需要一定的技术门槛。苹果研究团队在 GitHub 提供了完整的安装教程,有技术基础的用户可以参考:
https://github.com/apple/ml-fastvlm/tree/main/app
我用iPhone跑这款“苹果味”的模型,结果……
实测下来,7B 的大模型虽然聪明,但真不太听使唤,动不动就发热、闪退。于是我们只能退而求其次,把体验重心放在了更轻量的 0.5B 和 1.5B 上。
但说实话,即便是这两个“小号”模型,实际体验依然带来了不少惊喜。
比如昨天下班路上,我随手用手机对准了地铁站的售票机,FastVLM-1.5B 几乎瞬间就完成了场景解析,并对图片进行文字描述,真·所见即所得,丝毫不卡顿。
屏幕显示的 TTFT(Time To First Token)仅为 1211 毫秒。也就是说,从发出请求到模型返回第一个 Token,整个流程用时不到 1.3 秒,交互手感相当丝滑。
不仅如此,日常生活中常见的物体,比如花草植物、城市高楼,FastVLM 均能轻松识别。
即使是一些略带抽象的玩偶,也能做到有效识别。
特斯拉汽车的倒影也观察到了,虽然没有具体说出电脑屏幕上的猪猪侠的名字,但也能大致识别出基本特征。
当然,它也不是没有短板,英文识别准确率挺高,但中文嘛,还有待优化,比如“注意行人,减速慢行”识别为了“禁止行人进入,限制通行”,意思也大相径庭。
FastVLM-0.5B 的响应速度更快,TTFT 基本可以维持在 1000ms 以内,几乎是刚对准事物,就已经开始输出。
你听过不少“系统级优化”这个词,真正能将它做成产品体验差异的厂商,屈指可数。FastVLM 的处理能力与响应速度便是苹果一个典型的例子。
FastVLM 是苹果自研的端侧视觉语言模型(VLM),整个栈从底到顶都由自家搞定,底层依托自研 AI 框架 MLX 构建,并基于全新视觉编码骨干网络 FastViT-HD。
FastViT-HD 的设计核心就是如何在极限算力下榨出最多的性能。
苹果研究团队的做法是融合了卷积和 Transformer 架构,一边保低延迟,一边保表征能力,并通过多尺度特征融合与新增下采样阶段,大大减少了视觉 token 数量。同时,它支持原生高分辨率输入,避免传统 ViT 架构中的切块策略。
结果就是,在苹果公布的测试中,FastViT-HD 的 TTFT(Time To First Token)比同类模型快了 85 倍,在实际对比 ConvNeXt 等架构时,推理速度也快出了 2 到 3 倍。
而且重点来了,正如论文所提到的,这是跑在 M1 MacBook Pro 上的真实数据,换句话说,FastVLM 从一开始就已经为消费级终端的实际部署做好了准备。
FastViT-HD 的另一个操作也很“苹果”。
传统做法是先把 token 一股脑生成出来,再靠后处理把低价值的剪掉,本质上是补救方案,而 FastViT-HD 属于原生设计的前置优化,能直接输出少量高质量的视觉 token,无需再经过额外的 token 剪枝或采样流程。
ViT 慢的根源在于 self-attention 的二次复杂度,token 数量越多,计算负担越大。而 FastViT-HD 在 256×256 分辨率下,仅输出 16 个 token,既提升了推理速度,又显著降低资源消耗,真正实现了“边跑边理解”。
此外,FastVLM 还在算法层面引入了帕累托最优曲线(Pareto frontier)。
通俗来说,开发者可以据此找到“性能最强 × 延迟最小”的模型搭配组合,避免过去那种凭经验试错的方式,这对于部署在不同算力层级的终端设备极具指导意义。
在模型训练上,FastVLM 用了更少数据却能达到更强效果。
论文显示,FastVLM 在多个 TextVQA、MMMU、SeedBench 等基准测试中;在训练数据仅为其他方法的 1/3~1/5 情况下,仍可实现堪比甚至超越主流模型(如 MM1、Cambrian-1)的效果。
那么,这么一个又快又小、还能本地运行的模型,苹果究竟是拿它来干嘛的?答案可能藏在苹果的下一块屏幕里:智能眼镜。
GPT-4V塞不进智能眼镜,但它可以
据外媒 9to5Mac 报道,FastVLM 或将部署到苹果智能眼镜。
这并非空穴来风,过去一年,关于苹果智能眼镜的消息陆续涌现。据彭博社记者 Mark Gurman 的最新说法,苹果计划在 2027 年前后推出一款轻量级智能眼镜。
为此,苹果正在研发一颗专用于智能眼镜的低功耗芯片 N401,主打多摄像头调度与 AI 支持,预计将在 2026 年底或 2027 年进入量产。
换句话说,这将是一台 AI-first 的设备。
在这样的设备上,云端模型几乎无用武之地,反而依赖类似 FastVLM 这样的视觉语言模型作为感知层的基础设施,并且,你无法把一个 GPT-4V 塞进智能眼镜里,但 FastVLM 可以。
FastVLM 快、小等特点,更像是为设备形态的收敛所服务:
体积小,适合部署在端侧;
响应快,符合智能眼镜的场景感知;
以及无需联网,数据不出本地,天然安全。
尽管苹果在去年 WWDC 大会上所画的大饼至今尚未实现,但这并不妨碍苹果是有野心的,去年苹果 WWDC 就已经明确传递出一个信号:AI 不再只是功能级的补丁,而是要被深深嵌入到系统底层。
和许多 AI 公司以 API 为接口、以调用为主线不同,苹果的目标不是打造一个“有 AI 的产品”,而是“将 AI 变成产品本身的一部分”,乃至成为 OS 的底层组成。
这种思路,也契合苹果长期的产品策略,也就是从硬件定义软件,再用系统定义体验。
今年,这一趋势仍在持续推进,并显现出“端侧优先”更强的导向。这不仅体现在 iPhone 上,也开始蔓延至 iPad、Mac,乃至尚未亮相的新一代智能硬件形态。
而在苹果公司即将成立 20 周年的重要节点,外界自然开始关注是否会有新的硬件形态破壳而出,比如传闻已久的可折叠 iPhone、更轻薄的 Vision Pro,以及上文所说的智能眼镜。
尽管这些设备大概率不会在 WWDC 上以“新品发布”的形式正式亮相,但苹果一贯的风格,便是在系统与开发者生态中埋下伏笔。
这些看不见的地方,才是 WWDC 真正值得关注的信号。
相应地,从底层架构上来看,FastVLM 具备开放性、模块化,这也意味着能够被系统原生组件、第三方 App,乃至未来的智能眼镜系统一键调取使用。
事实上,这类“视觉理解 + 语言推理”的功能,并不是什么新鲜事。
最近 OPPO 就与阶跃星辰合作推出了“一键问屏”功能。用户只需拍一张图,小布助手便能自动识别图像中的关键信息,完成智能视觉搜索、问答和推理任务。
在模型层面,字节最近发布的轻量级多模态推理模型 Seed1.5-VL,就凭借仅 532M 的视觉编码器和 200 亿语言参数,在多个基准测试中的测试成绩与许多顶级模型不相上下,而且支持带图深度问答。
从功能体验来看,FastVLM 与上述产品相比似乎并无明显差异。但其真正的底层支点,其实来自苹果在 2023 年推出的一项关键基础设施:AI 框架 MLX。
MLX 是苹果首次系统性地开源一整套深度学习框架,专为苹果芯片打造。尽管 M 系列芯片早已建立起硬件性能优势,但此前一直缺乏自家统一的 AI 编程生态,而 MLX 补上了关键一环。
MLX 在形式上类似“PyTorch”,补齐了软件层的原生 AI 生态;能够鼓励开发者直接在 MacBook 上训练与部署模型,在内存管理、模型编译与运行效率方面表现出色。
基于这样的逻辑,我们甚至可以重新理解苹果生态中各类设备的角色:
iPhone 是一个通用智能终端、Watch 是一个健康监测中心、Vision Pro 是一个空间计算平台,那么未来的苹果智能眼镜也将更往原生运行 AI 模型的智能终端靠近。
不是提供一个超级 App,不是拼 API 市场份额,苹果选择为未来五到十年的硬件形态铺路。
FastVLM 的参数可以更新,性能可以迭代,但苹果要表达的,不是模型本身的竞争力,而是模型将如何成为系统的一部分、设备的一部分,甚至成为你生活的一部分。
而这,正是下个月 WWDC 2025 大会最值得关注的动向。
本文来自微信公众号:APPSO,作者:李四