Cloud Studioを通じてvllmでQwen2.5-1.5B-Instruct大モデルをデプロイ

Cloud Studio を通じて vllm で Qwen2.5-1.5B-Instruct 大モデルをデプロイする#

ps: 本来筆者は qwq:32b 大モデルをデプロイしたかったが、進化版の hai サーバーを使用しても成功しなかった（VRAM とメモリが不足していたため、すべて失敗に終わった）。最終的には wen2.5-1.5B-Instruct モデルをデプロイしてテストすることにした。

ここでは cloud studio の高性能スペース、ベーシックプランを選択します。

まず vllm をインストールします。

python -m pip install --upgrade pip

9bRvVs
待機時間が少し長くなるので、皆さんは辛抱強くお待ちください。
vllm をインストールします pip install vllm
by4zzx

インストールが成功したら、コマンド vllm を入力して簡単なテストを行い、インストールが正常かどうか確認します。
MEUVDL
~~次に pip install modelscope をインストールします。~~

r31sE0

pip install openai をインストールします。
3iF9rX

pip install tqdm と pip install transformers をインストールします。

分割線部分は無視しても大丈夫です、実行する必要はありません。
----------------- 分割線開始 -----------------

1. 現在のディレクトリに tmp フォルダを新規作成します mkdir tmp、または直接新規作成します。
新しい model_download_32b.py コードは以下の通りです：

from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/QwQ-32B', cache_dir='./tmp', revision='master')

~~2. model_download_32b.py を実行すると、qwq32b モデルがダウンロードされます。私のマシンのリソースはシンガポールにあるため、速度が遅いです。~~

python model_download_32b.py

9zc8Oi

少々お待ちください、U_U ~~
----------------- 分割線終了 -----------------

シンガポールのサーバーリソースのため、国内の魔塔コミュニティのモデルへのアクセス速度が遅いです。
皆さんは git lfs clone を使用して hf のモデルファイルを利用できますので、速度が速くなります。

lfs インストールガイド

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt-get install git-lfs

git lfs clone https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct

これが hf から Qwen2.5-1.5B-Instruct モデルを取得するものです。
VRAM とメモリの関係で、筆者は複数のモデルをテストしましたが、すべて失敗に終わったため、Qwen2.5-1.5B-Instruct 大モデルをテストすることにしました。このブログ記事は、hai を使用してデプロイしたマシンに関するものです。残念ながら、上記のモデルはすべてサポートされておらず、無駄になりました。
では、引き続き、ダウンロードが完了するのを待ちましょう。

OpenAI API インターフェースに対応したサーバーを作成します。
vllm の具体的な使い方は公式ドキュメントを参照してください

python -m vllm.entrypoints.openai.api_server \
  --model ./Qwen2.5-1.5B-Instruct \
  --served-model-name Qwen2.5-1.5B \
  --max-model-len=2048 \
  --dtype=half

by4zzx
この画面が表示されれば、デプロイは成功です。
bhAZ1f
https://ohaxxx.ap-singapore.cloudstudio.work/proxy/8000/version のような URL を開いて、正常にアクセスできるか確認します。
aGMb7G
次にクライアントの設定を行います。いつものように。
どう設定しても効果がないので、試行錯誤するしかありません。
古いコマンド ssh srv.us -R 1:localhost:8000
エラーが出た場合は、指示に従ってキーを作成してください。
ssh-keygen -t ed25519
すべてデフォルトで Enter を押すだけで大丈夫です。その後、再度 ssh srv.us -R 1:localhost:8000 コマンドを実行します。
lkTLIn

クライアント chatx の設定

URL の末尾にスラッシュを付けないように注意してください。

ダイアログボックスでテストします。
9tH8RJ

ついに vllm で大モデルのデプロイが完了しました。基本的には汎用デプロイチュートリアルと言えます。なぜなら、メモリと VRAM が十分であれば、理論的には hf 上のどんな大モデルでもデプロイをサポートするからです。チュートリアルはここで終了します。

約 6 時間かかり、hai を使用して約 3 時間かかりました。1 時間あたり約 3.5。。。最後に書き上げたのが重要で、最終的には hai のカスタムマシンを使用せず、数多くのトラブルを乗り越えて、ようやく書き終えました。
U_U ~_~ D_D
最後の叫び、私の hai の費用を補填してもらえませんか！！！

私の hai の費用を補填してもらえませんか！！！

費用を補填してもらえますか！！！