今天,我们很高兴地宣布, Ensemble AI团队的关键成员正在加入Cloudflare,以帮助加快我们在人工智能基础设施方面的工作,并使开发人员能够更轻松地大规模高效地运行强大的人工智能模型。
Ensemble AI于2023年在旧金山成立,过去几年一直专注于人工智能领域最重要的挑战之一:在不牺牲质量的情况下,使大型模型更快、更小、更具成本效益。该团队开发了新的模型压缩和高效推理方法,旨在减少大型语言模型和多模态架构的内存、计算和部署开销。
随着人工智能成为开发人员构建应用程序的核心部分,推理经济学比以往任何时候都更加重要。模型变得越来越大;工作负载变得越来越动态。客户越来越希望人工智能可以在任何地方使用:全球分布,快速,可靠且经济实惠。将Ensemble AI团队引入Cloudflare增强了我们实现这一目标的能力。
Ensemble AI的团队专注于保护现代AI模型内部的结构,同时降低其运行成本。Ensemble没有将模型效率仅仅视为量化或硬件问题,而是探索了新的模型构建模块,这些模块可以使神经网络在架构层面更加紧凑和高效。
这项工作的核心部分是NdLinear,它是变压器模型中标准线性层的直接替代品,直接在多维激活上运行,而不是使结构变平。这使模型能够保留有意义的轴,例如头、通道、空间维度或其他结构化表示,同时减少参数计数和计算。