报告公布两款多语言、多模态基础模型:一款约 3 B 参数的 本地模型(针对 Apple Silicon 优化),和一款基于 Parallel‑Track Mixture‑of‑Experts(PT‑MoE) 的 服务器模型,部署于 Private Cloud Compute。
本地模型通过 KV‑Cache Sharing 把 37.5 % 的层去掉 KV 投影并与前层共享缓存,令 TTFT 缩短约 37 %。
服务器模型将解码器拆分为并行“轨道”,每 N 层同步一次,最多可削减 87.5 % 同步开销;再叠加 MoE 层提高稀疏计算效率。
数据来自 Applebot 负责任抓取、授权语料与高质量合成内容,规模达 14 T tokens;视觉分支预训练于 6 B+ 图文对后与 LLM 联合训练,可处理图像‑文本混合输入。
夸克网盘下载