2023 年,大模型和 AIGC 的發(fā)展呈現(xiàn)出快速推進(jìn)的態(tài)勢,不僅在技術(shù)層面有所突破,而且在產(chǎn)業(yè)應(yīng)用和市場前景方面也展現(xiàn)出積極的趨勢。
為了方便更多企業(yè)用戶體驗(yàn),本文將介紹如何通過青云容器引擎 QKE 快速部署 ChatGLM-6B 大模型,開啟屬于您自己的 AI 時(shí)代!
什么是 QKE
QKE 是基于 Kubernetes 的容器引擎,能夠輕松地管理和部署容器化應(yīng)用。它具備自動(dòng)化擴(kuò)容、高可用性、安全性等多項(xiàng)優(yōu)勢,讓應(yīng)用更加穩(wěn)定、高效。
近日,新發(fā)布的 QKE v3.1 版本不僅提高了容器集群的性能、可靠性、安全性和可維護(hù)性,還為大模型應(yīng)用場景提供了更好的支持。
5 分鐘部署大模型
接下來,我們來看看如何使用 QKE 容器引擎部署 ChatGLM-6B 大模型。
01、創(chuàng)建 QKE GPU 集群
第一步:創(chuàng)建一個(gè)帶有 GPU 工作節(jié)點(diǎn)池的 QKE 集群
QKE 集群創(chuàng)建成功后,如需以 HTTP 訪問帶授權(quán)的鏡像倉庫,可在集群信息,鏡像參數(shù)中配置鏡像拉取的 insecure-registries、docker-auths。
第二步:檢查 GPU 工作節(jié)點(diǎn)上 GPU Device Plugin 的就緒情況。
kubectl describe nodes worker-g001 | grep gpu
nvidia.com/gpu: 2
nvidia.com/gpu: 2
nvidia.com/gpu 0 0
第三步:將 GPU 工作節(jié)點(diǎn)打上標(biāo)簽:accelerator: nvidia-gpu
kubectl?label?nodes?worker-g001?accelerator=nvidia-gpu
02、部署 ChatGLM-6B
第一步:編輯創(chuàng)建 K8s deployment 和 service 的 chatglm-6b.yaml。
apiVersion: v1
kind: Namespace
metadata:
name: chatglm
—
apiVersion: apps/v1
kind: Deployment
metadata:
name: chatglm
namespace: chatglm
spec:
replicas: 1
selector:
matchLabels:
app: chatglm
template:
metadata:
labels:
app: chatglm
spec:
containers:
– name: chatglm-container
image: 139.198.188.112:81/appcenter/chatglm3:gpu-fp16
imagePullPolicy: IfNotPresent
command: [“stremlit”,”run”,”basic_demo/web_demo_streamlit.py”,”–server.port”,”8900″]
ports:
– containerPort: 8900
resources:
limits:
nvidia.com/gpu: 1
nodeSelector:
accelerator: nvidia-gpu
—
apiVersion: v1
kind: Service
metadata:
name: chatglm-web
namespace: chatglm
spec:
ports:
– port: 7860
protocol: TCP
targetPort: 8900
selector:
app: chatglm
type: NodePort
其中 nodeSelector.accelerator: nvidia-gpu 讓 Pod 調(diào)度到的 GPU 工作節(jié)點(diǎn)。
第二步:部署 ChatGLM-6B
kubectl apply -f chatglm-6b.yaml
03、暴露服務(wù)給外部訪問
第一步:通過如下命令找到 NodePort 號(hào)
root@master1:~# kubectl get service -n chatglm NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE chatglm-web NodePort 10.96.204.196 <none> 7860:30313/TCP 3h
這里顯示 NodePort 號(hào)為 30313 。
第二步:在 QKE 集群對(duì)應(yīng)的 VPC 上,添加一條端口轉(zhuǎn)發(fā)規(guī)則,轉(zhuǎn)發(fā)到節(jié)點(diǎn)的?30313 端口。
04、測試訪問
打開瀏覽器, 輸入地址 http://<VPC的EIP地址:VPC源端口> 即可訪問 ChatGLM 推理服務(wù)。
整個(gè)部署過程非常簡單,只需幾步,就可以快速完成大模型應(yīng)用的部署。而且,QKE 還提供了豐富的監(jiān)控和日志功能,能夠?qū)崟r(shí)了解應(yīng)用的運(yùn)行狀態(tài)和性能。
如果您正在尋找一個(gè)高效、穩(wěn)定、易用的容器引擎,不妨試試 QKE 吧!
結(jié)語
隨著 AI 技術(shù)的不斷進(jìn)步和在各行各業(yè)中的深入應(yīng)用,大模型的發(fā)展將會(huì)更加迅速,其在處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)方面的能力將得到進(jìn)一步的提升。同時(shí),大模型在自然語言處理、計(jì)算機(jī)視覺、推薦系統(tǒng)等領(lǐng)域的應(yīng)用也將不斷拓展,為各行各業(yè)帶來創(chuàng)新的解決方案。
QKE 作為一款強(qiáng)大的容器引擎,為大模型和 AI 及其他 AI 應(yīng)用提供了健壯、易用、輕簡的云原生基礎(chǔ)設(shè)施。通過 QKE,可以更好地實(shí)現(xiàn) AI 與業(yè)務(wù)的結(jié)合,推動(dòng) AI 技術(shù)在不同領(lǐng)域的廣泛應(yīng)用。