基于公共云的HPC集群實(shí)現(xiàn)及自動(dòng)伸縮閑時(shí)計(jì)算研究
計(jì)算機(jī)工程與科學(xué)
頁數(shù): 6 2019-07-15
摘要: 對(duì)于HPC用戶來說,計(jì)算成本是遷云所考慮的重要因素之一,阿里云上提供的搶占式實(shí)例,是一種按需實(shí)例,旨在降低使用公共云計(jì)算資源成本,搶占式實(shí)例市場價(jià)格是波動(dòng)的,通常遠(yuǎn)低于正常的按需實(shí)例,甚至達(dá)到正常按需實(shí)例的一折。搶占式實(shí)例一般會(huì)在創(chuàng)建時(shí)為用戶保留一段最短時(shí)間,過后有可能會(huì)被釋放,所以一般適用于無狀態(tài)的應(yīng)用場景。提出在公共云上的自動(dòng)伸縮策略,其面向通用的HPC集群調(diào)度器,基于用戶的應(yīng)用軟件類型、提交作業(yè)規(guī)律以及用戶對(duì)性能和成本等多方面需求,自動(dòng)在云上部署擴(kuò)容計(jì)算資源,控制成本。對(duì)用戶來說,可以做到"only pay for what you want and what you use"?;诠苍粕县S富的資源規(guī)格類型和售賣方式,利用自動(dòng)伸縮服務(wù),搶占式實(shí)例,斷點(diǎn)續(xù)算等技術(shù)可以配置低成本的公共云上HPC自動(dòng)伸縮方案:用戶提交作業(yè)的同時(shí)可以指定成本上限,自動(dòng)伸縮服務(wù)自動(dòng)在低于此成本的前提下尋找和擴(kuò)容搶占式計(jì)算資源,同時(shí)利用斷點(diǎn)續(xù)算功能保證作業(yè)在計(jì)算資源切換的時(shí)候可以繼續(xù)運(yùn)算。最后,通過LAMMPS和GROMACS兩個(gè)高性能應(yīng)用實(shí)例驗(yàn)證了該策略的可行性和有效性。 (共6頁)