跳至主要内容

視覺語言模型建置教學

· 閱讀時間約 2 分鐘
Yung-Hsiang Hu

Kuwa v0.3.1 初步支援了常見的視覺語言模型 (VLM), 這類模型不但可以輸入文字,還可以輸入圖片,並根據圖片內容回應使用者的指令。 本篇教學將帶您初步建立與使用 VLM。

VLM Executor 建置

Kuwa v0.3.1 擴充了原先的 Huggingface executor,使其能支援 VLM,
目前初步支援 Phi-3-Vision, LLaVA v1.5 與 LLaVA v1.6 等三種常見的 VLM,
以下以 LLaVA v1.6 為例。

Windows 版建置流程

參考先前的 Llama3建置教學
"model path" 輸入 llava-hf/llava-v1.6-mistral-7b-hf,"Arguments to use" 留白即可。

Docker 版建置流程

參考以下 Docker compose設定

services:
llava-v1.6-executor:
build:
context: ../../
dockerfile: docker/executor/Dockerfile
image: kuwa-executor
environment:
EXECUTOR_TYPE: huggingface
EXECUTOR_ACCESS_CODE: llava-v1.6-7b
EXECUTOR_NAME: LLaVA v1.6 7B
# HUGGING_FACE_HUB_TOKEN: ${HUGGING_FACE_HUB_TOKEN}
depends_on:
- kernel
- multi-chat
command: ["--model_path", "llava-hf/llava-v1.6-mistral-7b-hf", "--log", "debug"]
restart: unless-stopped
volumes: ["~/.cache/huggingface:/root/.cache/huggingface"]
deploy:
resources:
reservations:
devices:
- driver: nvidia
device_ids: ['0']
capabilities: [gpu]
networks: ["backend"]

VLM 使用

您可以上傳一張圖片並對這張圖片進行提問,或是要求模型辨識上面的文字。