Facebook和亚利桑那州立大学的研究人员解除了AutoScale的限制,AutoScale与Facebook的能量敏感型负载平衡器同名。从理论上讲,只要能够公开获得代码,任何公司都可以使用AutoScale,它利用AI在智能手机和其他边缘设备上实现节能推断。
许多AI都在智能手机上运行,以Facebook为例,这些模型是3D照片和其他类似功能的基础-但它可能导致电池寿命和性能下降,而无需进行微调。因此,决定AI应该在设备上,在云中还是在私有云上运行不仅对于最终用户而且对于开发AI的企业都很重要。数据中心很昂贵,需要互联网连接;使AutoScale自动化部署决策可以节省大量成本。
对于每个推理执行,AutoScale都会观察当前执行速度,包括算法的体系结构特征和运行时差异(例如Wi-Fi,蓝牙和LTE信号强度;处理器利用率;电压;频率缩放;以及内存使用情况)。然后,它会基于查找表选择在满足服务质量和推理目标的同时,最大程度提高能效的硬件(处理器,图形卡和协处理器)。(该表包含先前选择的累积奖励(这些奖励在AutoScale的基础模型上实现最终目标的价值)。)接下来,AutoScale在所选硬件定义的目标上执行推断,同时观察其结果,包括能量,延迟和推断。准确性。基于此,在更新表格之前,
正如研究人员所解释的那样,AutoScale利用强化学习来学习一项策略,以基于累积的奖励为孤立状态选择最佳动作。例如,在给定处理器的情况下,系统使用基于利用率的模型来计算奖励,该模型假设(1)处理器内核消耗的电量可变;(2)核心在繁忙和空闲状态花费一定的时间;(3)这些州的能源使用情况有所不同。相比之下,当将推理扩展到数据中心之类的连接系统时,AutoScale可能会使用基于信号强度的模型来计算奖励,该模型考虑了传输延迟和网络消耗的功率。
为了验证AutoScale,该论文的合著者在三个智能手机上进行了实验,每个智能手机均使用功率计进行测量:小米Mi 8 Pro,三星Galaxy S10e和摩托罗拉Moto X Force。为了模拟云推理执行,他们通过Wi-Fi将手机连接到服务器,并使用通过Wi-Fi Direct(对等无线网络)连接到手机的Samsung Galaxy Tab S6平板电脑来模拟本地执行。
在通过执行100次推理(生成64,000个训练样本)并编译并生成包含流行的AI模型(包括Google的MobileBERT(机器翻译)和Inception(图像分类器))的10个可执行文件来训练AutoScale之后,该团队在静态环境中进行了测试(具有一致的处理器,内存使用和信号强度)和动态设置(在后台运行Web浏览器和音乐播放器并进行信号推断)。每种情况设计了三种方案:
- 非流式计算机视觉测试方案,其中模型对来自手机相机的照片进行推断。
- 流计算机视觉场景,其中模型对来自摄像机的实时视频进行推理。
- 一种翻译方案,其中对使用键盘键入的句子执行翻译。
该团队报告说,在所有方案中,AutoScale都超过了基准,同时保持了低延迟(在非流式计算机视觉方案中小于50毫秒,在翻译方案中小于100毫秒)和高性能(在流式计算机视觉中每秒约30帧)场景)。具体而言,它使能效提高了1.6到9.8倍,同时实现了97.9%的预测准确性和实时性能。
此外,AutoScale的内存需求仅为0.4MB,相当于典型中端智能手机3GB RAM容量的0.01%。共同作者写道:“我们证明AutoScale是一种可行的解决方案,并将通过在未来实现在各种实际执行环境中提高DNN边缘推断的能效方面的工作来铺平道路。”