視覺語言模型建置教學

2024年6月24日 · 閱讀時間約 2 分鐘

Yung-Hsiang Hu

Contributor

Kuwa v0.3.1 初步支援了常見的視覺語言模型 (VLM)，這類模型不但可以輸入文字，還可以輸入圖片，並根據圖片內容回應使用者的指令。本篇教學將帶您初步建立與使用 VLM。

VLM Executor 建置

Kuwa v0.3.1 擴充了原先的 Huggingface executor，使其能支援 VLM，
目前初步支援 Phi-3-Vision, LLaVA v1.5 與 LLaVA v1.6 等三種常見的 VLM，
以下以 LLaVA v1.6 為例。

Windows 版建置流程

參考先前的 Llama3建置教學，
"model path" 輸入 llava-hf/llava-v1.6-mistral-7b-hf，"Arguments to use" 留白即可。

Docker 版建置流程

參考以下 Docker compose設定

services:
  llava-v1.6-executor:
    build:
      context: ../../
      dockerfile: docker/executor/Dockerfile
    image: kuwa-executor
    environment:
      EXECUTOR_TYPE: huggingface
      EXECUTOR_ACCESS_CODE: llava-v1.6-7b
      EXECUTOR_NAME: LLaVA v1.6 7B
      # HUGGING_FACE_HUB_TOKEN: ${HUGGING_FACE_HUB_TOKEN}
    depends_on:
      - kernel
      - multi-chat
    command: ["--model_path", "llava-hf/llava-v1.6-mistral-7b-hf", "--log", "debug"]
    restart: unless-stopped
    volumes: ["~/.cache/huggingface:/root/.cache/huggingface"]
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            device_ids: ['0']
            capabilities: [gpu]
    networks: ["backend"]

VLM 使用

您可以上傳一張圖片並對這張圖片進行提問，或是要求模型辨識上面的文字。

VLM Executor 建置​

Windows 版建置流程​

Docker 版建置流程​

VLM 使用​

VLM Executor 建置

Windows 版建置流程

Docker 版建置流程

VLM 使用