开源 SkyPilot 旨在优化 ML 和数据科学的云成本
加州大学伯克利分校 RISELab 的一组研究人员最近发布了 Skypilot,这是一个开源框架,用于通过统一界面在主要云提供商上运行机器学习工作负载。该项目专注于成本优化,自动为请求的资源找到最便宜的可用区、区域和提供商。鉴于作业的要求,该框架会自动确定 AWS、Azure 和 Google Cloud 上的哪些位置具有运行该作业所需的资源(CPU/GPU/TPU)以及最经济实惠的资源。Skypilot然后执行三项主要任务:它提供集群,如果存在容量或配额错误,则自动故障转移到其他位置,将用户代码和文件同步到目的地,并管理作业排队和执行。
加州大学伯克利分校博士后研究员Zongheng Yang和加州大学伯克利分校教授兼 Anyscale 联合创始人Ion Stoica解释说:用于 ML 和数据科学的云计算已经非常困难,但是当您开始应用成本削减技术时,您的开销可能会成倍增加。不想在机器闲置时停止闲置?您需要反复上下旋转它们,重做环境和数据设置。想要使用现货实例定价?这可能会增加数周的工作来处理抢占。如何利用地区之间的巨大价格差异,或者云之间更大的价格差异?
SkyPilot 并不是RISELab 的第一个以云成本优化为目标的开源项目。正如之前在 InfoQ 上报道的那样,该研究中心发布了SkyPlane以优化云提供商之间大型数据集的传输,减少传输时间和成本。
在云端训练机器学习模型可能成本高昂且效率低下,一些公司最近将数据和模型转移回自己的数据中心以降低成本并提高性能。
杨和斯托卡写道:一年多来,SkyPilot 一直在加州大学伯克利分校的天空计算实验室积极开发。它被 10 多个组织用于各种用例,包括 GPU/TPU 模型训练(成本节省 3 倍)、分布式超参数调优以及 100 多个 CPU 现场实例上的生物信息学批处理作业(成本节省 6.5 倍)
除了 SkyPilot 的其他优势外,作者还建议构建多云应用程序、利用一流的硬件并提高稀缺资源(如高端 NVIDIA V100 或 A100 GPU)的可用性。
该框架包括Managed Spot,一个使用更便宜的 spot 实例的选项,具有从抢占中自动恢复的功能,以及Autostop,一个自动清理空闲集群的功能。该团队发布了一系列Jupyter 笔记本,以帮助开发人员了解该项目的工作原理。
SkyPilot 目前支持 AWS、Google Cloud 和 Azure,并提供CLI和Python API。根据Reddit 线程,该项目计划在未来支持其他较小的云提供商。SkyPilot 在 Apache-2.0 许可下可在GitHub上获得。关于作者,雷纳托洛西奥,Renato 在意大利、英国、葡萄牙和德国拥有多年的软件工程师、技术主管和云服务专家经验。他住在柏林,作为首席云架构师远程工作。
|
| 所有文章资讯、展示的文字、图片、数字、视频、音频、其它素材等内容均来自网络媒体,仅供学习参考。内容的知识产权归属原始著作权人所有。如有侵犯您的版权,请联系我们并提供相应证明,本平台将仔细验证并删除相关内容。 |
|
工具综合排行榜
TOP 1
 |
双计算器同时用两个计算器,用于价格对比、数字分别计算等 |
TOP 2
TOP 3
 |
随机密码生成随机生成安全复杂的密码,自由设置密码长度及复杂度 |
TOP 4
TOP 5
TOP 6
TOP 7
TOP 8
TOP 9
TOP 10
|
|