ele

ele

ele

Cloud Studioを通じてvllmでQwen2.5-1.5B-Instruct大モデルをデプロイ

Cloud Studio を通じて vllm で Qwen2.5-1.5B-Instruct 大モデルをデプロイする#

ps: 本来筆者は qwq:32b 大モデルをデプロイしたかったが、進化版の hai サーバーを使用しても成功しなかった(VRAM とメモリが不足していたため、すべて失敗に終わった)。最終的には wen2.5-1.5B-Instruct モデルをデプロイしてテストすることにした。

ここでは cloud studio の高性能スペース、ベーシックプランを選択します。

まず vllm をインストールします。

python -m pip install --upgrade pip

9bRvVs
待機時間が少し長くなるので、皆さんは辛抱強くお待ちください。
vllm をインストールします pip install vllm
by4zzx

インストールが成功したら、コマンド vllm を入力して簡単なテストを行い、インストールが正常かどうか確認します。
MEUVDL
次に pip install modelscope をインストールします。

r31sE0

pip install openai をインストールします。
3iF9rX

pip install tqdmpip install transformers をインストールします。

分割線部分は無視しても大丈夫です、実行する必要はありません。
----------------- 分割線開始 -----------------

1. 現在のディレクトリに tmp フォルダを新規作成します mkdir tmp、または直接新規作成します。
新しい model_download_32b.py コードは以下の通りです:

from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/QwQ-32B', cache_dir='./tmp', revision='master')

2. model_download_32b.py を実行すると、qwq32b モデルがダウンロードされます。私のマシンのリソースはシンガポールにあるため、速度が遅いです。

python model_download_32b.py

9zc8Oi

少々お待ちください、U_U ~~
----------------- 分割線終了 -----------------

シンガポールのサーバーリソースのため、国内の魔塔コミュニティのモデルへのアクセス速度が遅いです。
皆さんは git lfs clone を使用して hf のモデルファイルを利用できますので、速度が速くなります。

lfs インストールガイド

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt-get install git-lfs
git lfs clone https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct

これが hf から Qwen2.5-1.5B-Instruct モデルを取得するものです。
VRAM とメモリの関係で、筆者は複数のモデルをテストしましたが、すべて失敗に終わったため、Qwen2.5-1.5B-Instruct 大モデルをテストすることにしました。このブログ記事は、hai を使用してデプロイしたマシンに関するものです。残念ながら、上記のモデルはすべてサポートされておらず、無駄になりました。
では、引き続き、ダウンロードが完了するのを待ちましょう。

OpenAI API インターフェースに対応したサーバーを作成します。
vllm の具体的な使い方は公式ドキュメントを参照してください

python -m vllm.entrypoints.openai.api_server \
  --model ./Qwen2.5-1.5B-Instruct \
  --served-model-name Qwen2.5-1.5B \
  --max-model-len=2048 \
  --dtype=half

by4zzx
この画面が表示されれば、デプロイは成功です。
bhAZ1f
https://ohaxxx.ap-singapore.cloudstudio.work/proxy/8000/version のような URL を開いて、正常にアクセスできるか確認します。
aGMb7G
次にクライアントの設定を行います。いつものように。
どう設定しても効果がないので、試行錯誤するしかありません。
古いコマンド ssh srv.us -R 1:localhost:8000
エラーが出た場合は、指示に従ってキーを作成してください。
ssh-keygen -t ed25519
すべてデフォルトで Enter を押すだけで大丈夫です。その後、再度 ssh srv.us -R 1:localhost:8000 コマンドを実行します。
lkTLIn

クライアント chatx の設定

URL の末尾にスラッシュを付けないように注意してください。
6Otwbs

ダイアログボックスでテストします。
9tH8RJ

ついに vllm で大モデルのデプロイが完了しました。基本的には汎用デプロイチュートリアルと言えます。なぜなら、メモリと VRAM が十分であれば、理論的には hf 上のどんな大モデルでもデプロイをサポートするからです。チュートリアルはここで終了します。

約 6 時間かかり、hai を使用して約 3 時間かかりました。1 時間あたり約 3.5。。。最後に書き上げたのが重要で、最終的には hai のカスタムマシンを使用せず、数多くのトラブルを乗り越えて、ようやく書き終えました。
U_U ~_~ D_D
最後の叫び、私の hai の費用を補填してもらえませんか!!!

私の hai の費用を補填してもらえませんか!!!

費用を補填してもらえますか!!!

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。