12 月 5 日, 以“智能跃进创造无穷”为主题的 2024 中国生成式 AI 大会 (上海站) 崇拜开幕。在主会场首日的大模子峰会上,RockAI CTO 杨华带来《非 Transformer 架构大模子 Yan 在端侧的实践》主题演讲, 主要沟通了生成式 AI 在端侧濒临的挑战, 详解国内首个非 Transformer 架构大模子 Yan 的期间阶梯终点落地应用, 同期共享了大模子从单体智能到群体智能的发展旅途。
Transformer 架构虽在大模子领域取得雄壮告捷, 但它证据出的局限性, 举例狡计和内存耗尽大、特征索要武艺相对较弱等, 使得东谈主们开动念念考是否过度依赖它, 以及现有大模子形态的可握续性。
基于以上念念考,RockAI 从底层旨趣登程, 在架构层面作念创新, 推出了非 Transformer 架构的大模子 ——Yan 架构大模子。底层旨趣主要有两点, 一是类脑激活机制, 二是 MCSD。前者参照东谈主脑神经收罗, 大幅减少狡计冗余, 有用进步狡计恶果和精度; 后者在试验时可充分愚弄 GPU 并行狡计武艺, 推理时也大概搞定内存占用渐渐增多的问题。
依托算力受限场景下的土产货部署运行等上风,Yan 架构大模子在手机、电脑、机器东谈主、无东谈主机、树莓派等端侧成就上均可部署, 且模子具有强劲的辅导侍从武艺、多应用场景。此外, 自主学习、群体智能亦然 RockAI 在大模子领域的念念考和探索。
以下为演讲全文 (共 4355 字, 约需 15 分钟)。
非 Transformer 架构大模子 Yan
“非 Transformer”对大多数东谈主来说可能会相比生分。为什么会生分? 因为咱们当今身边所战争、所使用的模子, 基本上都是基于 Transformer。
RockAI 为什么要作念一个非 Transfermer Based 的模子, 以及咱们是若何作念的, 面前作念到什么样的进展? 今天我会围绕这个干线和寰球作念一些共享, 同期也会共享 RockAI 在大模子时间对期间阶梯的一些念念考。
两年前,GPT 掀翻了这一轮大模子的波涛。当今来看, 非论是当然语言的大模子照旧多模态的大模子, 甚而是文生图、文生视频的模子, 寰球能看到曝光率最高的是 Transformer,Transformer 毫无疑问也取得了很大的告捷。
然则在波涛之后, 作为期间的从业东谈主员不禁会念念考: 面前咱们是否会过度依赖于 Transformer? 在 Transformer 以外还有莫得其他可能性的进展以及期间上的冲突?Transformer 作为大模子时间一个明星的期间点, 它是不是的确不可取代?
另外一个事实景观也会告诉咱们: 东谈主脑在念念考问题的时候, 只会使用到二十瓦的功耗, 而咱们当今常常东谈主战争到的一台 GPU 办事器, 它所需要的功耗差未几在两千瓦。面对这雄壮的功耗悬殊比, 咱们不禁要问, 面前的期间阶梯是不是可握续发展的?
另外, 咱们还会念念考一个问题, 现有的大模子, 它的形态是什么形势? 更多的是模子厂商基于大宗的数据、大宗的算力作念离线试验, 然后给到使用者使用, 模子并不会再次进化、再次演进。这样的学习范式, 是不是大概复旧咱们通向 AGI?
RockAI 也一直在念念考这些问题, 同期, 行业内部也会有好多的声息。东谈主工智能的三巨头在不同的时辰点、不同的阵势下, 抒发了对 Transformer 的一些胆怯跟念念考。《Attention is All You Need》论文的原作家, 也在本年 GDC 大会发表了一些不雅点。
面前的大模子, 非论参数目是千亿照旧万亿, 念念考一个简便问题照旧一个复杂问题, 总共的神经元参数会被全部激活, 并不会因为某个问题难, 而像东谈主类雷同需要念念考的时辰更多, 输出更慢。
基于这些念念考,RockAI 从底层旨趣登程, 在架构层面作念创新, 咱们推出了 Yan 架构大模子。
主要有两个基容许趣, 类脑激活机制和 MCSD。在这两块期间模块的加握下,Yan 架构的想象理念采纳三点:
一是类东谈主的感知, 咱们合计模子跟外界环境的战争, 不单是是文本一种形态, 还会有视觉形态, 也会有语音形态。
二是类东谈主的交互, 淌若咱们过度依赖于云表的模子, 隐秘的安全、通讯的蔓延, 都有可能成为它的瓶颈。
三是类东谈主的学习, 当今的模子部署后, 在和物理天下交互的经过中并不会获取二次进化的武艺。
图示是 Yan 架构迭代到今天为止所依赖的期间模块。咱们以神经元遴选激活 (类脑激活机制) 以及 MCSD 这两个模块替换了 Transformer 内部的 Attention 机制。
类脑激活机制, 参照东谈主脑的神经收罗。东谈主类的脑神经元, 是一个分层的结构, 比如说咱们在看东西的时候, 更多的是视觉皮层的神经元被激活, 那念念考问题的时候, 可能是逻辑神经元被激活。咱们的大模子在试验、推理时, 也合适这样的本性, 在一次前向推理的经过中, 激活神经元是有遴选的。
MCSD, 想象之初, 咱们但愿模子具有可并行试验、可轮回推理的特色, 在试验的经过中达到更少的功耗耗尽白丝 自慰, 在推理的时候也能达到一个 O (n) 的时辰复杂度以及常量的空间复杂度, 搞定谨防力机制推理时内存占用渐渐增多的问题。
本年八月份在部分数据集上进行的测评, 对比交流参数目的 Transformer 架构模子,Yan 架构大模子非论是试验恶果, 照旧推理迷糊量, 都有显然进步。
值得一提的是, 咱们的 Yan 架构大模子依然通过了国度网信办的备案。
Yan 架构大模子的端侧多模态应用
基于 Yan 架构的当然语言大模子, 咱们也开启了多模态的探索。
模子一朝部署到端侧, 文本这样的形态反而是最扼制易会触发的, 更多的是语音交互。基于这样的念念考, 咱们想象了 Yan 多模态大模子。不同于当今好多大模子可能会作念对视觉的斡旋、视觉图像的生成,Yan-Omni 多模态大模子聚焦的是对文本、东谈主声、图像、视频搀杂模态的斡旋, 以及文本和音频的 token 输出。
咱们中枢搞定的点包括:
第一个是 Audio Tokenizer, 为什么会有这样一个模块? 因为咱们需要将流畅一个东谈主的声息变换成破碎化特征表征。咱们探索了好多种旅途, 包括语音, 因为东谈主谈话时, 除了语义信息以外, 还有更多的声学特征, 比如说这个东谈主的喜怒无常, 这个东谈主的性别。咱们也会对语义 token 和声学 token 作念一个分离, 而且在破碎化特征表征时对码本有所考量, 想象合适的码本, 同期尽可能保证码本的高愚弄率。
第二个是 Vision Encoder, 视觉模块, 咱们也想象了一个汉文友好的跨模态特征对王人。另外一个层面咱们会发现, 当今多数视觉和文本的对王人模子, 可能集中焦在全局语义信息的对王人。然则, 淌若能作念到图像里的图像块和文本里的文本片断更细粒度的对王人, 这对多模态大语言模子的使用性能会有雄壮进步。
同期咱们也会留意信息压缩的高效性。比如说, 在端侧算力受限的场景下, 淌若一个视觉图像编码时的 token 长渡过长, 例必会影响模子推理的耗时。
基于这些点, 咱们研发了 Yan-Omni。
图示中, 咱们能看到 Yan-Omni 面前大概作念到的一些模态的输入输出。
最初它作为多模态大模子, 自揣测词然会有一个文本的输入和输出的情景。
同期还会有声息, 比如当我谈话的时候去问模子问题, 它也会以语音的形态来去应我, 也便是第二个模块 VQA。
在视觉的问答模块里, 当用户以文本的神志去问问题, 模子会自动遴选以文本的模态进行回应, 当用户以声息的模态去问的时候, 模子会自动遴选用声息的模态进行回应, 这证据了模子强劲的辅导侍从武艺。同期在 OCR 这个模块, 它对一个长密集的汉文文本也能作念到很高准确率的转录。
在 Ref Grounding 狡计检测里, 举例当然灾害、失火等, 不错应用在无东谈主机航拍, 实时作念到极度场景的发现。
临了还有 ASR 跟 TTS 任务, 它大概很好地处理中英文混用的场景。
通过 Yan-Omni 模子在这些任务上的证据, 咱们不错发现, 它大概作念到多模态的输入, 以及文本跟音频遴选性模态的输出。
基于 Yan-Omni, 咱们在多个端侧上进行了模子的土产货化部署跟推理。最低算力上,Yan 架构的大模子不错在树莓派 5 的设备板上部署运行, 推理的 token 迷糊量大概达到 7tokens 每秒。树莓派设备板世俗应用在工业甘休、智能家居、机器东谈主、平板电脑等载体成就上。
在中低算力的手机上, 也能部署 Yan 多模态大模子, 大概达到 20tokens 每秒的输出。它能作为个东谈主的智能助手, 准确斡旋用户意图。比如我要给小张发一条短信, 它能从我的通讯录里找到小张, 激活短信应用, 然后基于要发的主题进行信息生成。
Yan 架构多模态大模子, 非论是部署在西宾机器东谈主, 照旧东谈主形机器东谈主, 都能完结通用问答、动作甘休、环境感知。
淌若一架无东谈主机搭载了多模态大模子, 它不错作念哪些事儿? 咱们在无东谈主机场景中诞生了四个巡航点, 到第一个巡航点的时候, 它通过视觉信息的拿获, 理会面前场景“限低 10 米”, 会将遨游高度提高到 10 米以上, 陆续遨游。在第二个巡航点, 咱们设定的任务是垃圾溢出检测, 它大概准确识别到面前有垃圾溢出。第三个巡航点, 是河对岸一个莫得垃圾溢出的垃圾桶, 临了是河面垃圾的检测, 无东谈主机都大概基于视觉模态进行准确的识别。
迈向群体智能
创新,RockAI 一直在路上。咱们自主研发的 Yan 架构大模子不仅大概在端侧部署, 更多的是但愿让它具备自主学习的武艺。RockAI 合计, 智能最实质的特征是大概更动现有常识的劣势和不及, 同期大概增多新的常识。
面前非论是大模子照旧小模子, 大多数都是离线试验好再给用户使用。用户在使用经过中, 模子的常识并不会二次变更和进化, 不会因为它和我的战争时辰长了就会更斡旋我的喜好。
而 RockAI 想作念的是训推同步, 将东谈主类学习进化的特色也赋予机器, 这依赖于 Yan 架构的遴选性神经元激活。
当部署 Yan 架构大模子的成就, 在和物理天下进行交互的经过中, 比如学习到“Yan is a non-Transformer architecture large model developed by RockAI.”, 基于这样的输入, 机器会遴选激活神经元, 从信息内部提真金不怕火出两条, 一条是“Yan is a non-Transformer architecture”, 一条是“Yan is developed by RockAI”。这两条信息, 是模子进行自主学习的一个经过。
有了自主学习的武艺, 大模子会演变成什么样? 反不雅东谈主类社会还有当然界, 咱们会发现, 非论是蚁群、蜂群, 照旧东谈主类群体, 世俗存在的是群体智能。这亦然 RockAI 合计通往 AGI 的一条可能的阶梯。
当机器有了群体智能, 每一个部署 Yan 多模态大模子的智能末端, 便是一个具备自主学习武艺的智能体。当智能体和物理天下进行交互时, 大概通过环境的感知, 进行自觉地组织与谐和, 搞定复杂的问题, 同期在外界的环境中, 完结全体智能的进步, 这少量很有必要。为什么? 因为当今的大模子, 它是依赖于海量数据(603138)、大算力, 数据总有一天会使用缺少, 而部署了 Yan 架构大模子的末端成就, 不错在与物理天下交互中进行二次进化, 将实时获取的数据内化到模子里。
成人熟妇小说在线RockAI 合计, 完结群体智能有三个必要条款:
最初, 兼容世俗的末端, 模子需要有强劲的适配伸缩性, 比如说低至树莓派这样的设备板, 然后笔直机、AIPC, 照旧无东谈主机这样搭载 Jetson 算力的硬件平台。惟有在更世俗的端侧成就上进行部署, 群体智能才成为一种可能。
其次是东谈主机交互。咱们会发现, 当一款产物推向商场的时候, 淌若不可作念到实时性交互, 用户的耐烦其实并不会很高。同期它也一定不所以单一模态在载体中呈现, 咱们需要的是它能感知视觉, 感知声息, 甚而能感知信号。
临了咱们合计, 完结群体智能需要有一款具备自主学习武艺的模子。也便是说, 让模子从实验室阶段, 或者从单纯的推理当用阶段, 走向物理天下, 在和东谈主、其他硬件进行交互的经过中进化、演变。
从 Yan 架构大模子到群体智能的创新之路, 是咱们 RockAI 的期间之路。
最底层, 咱们但愿有兼容世俗末端成就的大模子存在, 同期大概支握很好的东谈主机交互, 每一台部署 Yan 架构大模子的成就具备自主学习的武艺。在此基础上, 以这样的模子充任每台成就上的一个通用智能操作系统, 部署到玩物, 还有手机、机器东谈主、AR 眼镜、无东谈主机, 以及 AIPC 等等。基于世俗的末端应用, 组成群体智能。世俗的末端, 它不错是一个无中心节点的组织神志, 也不错是一个有中心节点的组织神志。
本年珠海航展,RockAI Yan 架构大模子, 侍从上海交通大学, 在珠海航展亮相, 展示了在无东谈主机的场景内部, 若何作念到让机群进行一个任务的完成。
RockAI 是一家期间创新式的创业公司, 咱们的狡计是迈向群体智能, 这个狡计分为四个阶段。
第一个阶段是架构的重塑, 架构的重塑意味着咱们不再依赖于 Transformer 这一套单一的期间体系。
第二个阶段是单体的推理。非 Transformer 架构的模子大概在更世俗的成就端进行推理和部署, 不再依赖于云表的狡计资源, 甚而不再依赖于通讯收罗的存在。
第三个阶段亦然面前咱们在实验室阶段的单体智能。要求咱们当今的模子往前更进一步, 在和环境交互的经过中酿成一个正反映系统, 领有训推同步、自主性二次进化武艺。
有了更多的单体智能, 咱们会走向第四阶段 —— 群体智能。
现阶段 RockAI 依然迈过了第二阶段, 在第三阶段进行千里淀。而多数大模子厂商受限于 Transformer 架构所需的推理算力以及多模态性能, 面前还在端侧成就上进行推理部署的尝试。
临了谢谢寰球! 但愿国内有更多设备者作念出更多创新白丝 自慰, 也接待加入 RockAI, 和咱们一王人探索群体智能的期间阶梯。