Cloud Studio を通じて vllm で Qwen2.5-1.5B-Instruct 大モデルをデプロイする#
ps: 本来筆者は qwq:32b 大モデルをデプロイしたかったが、進化版の hai サーバーを使用しても成功しなかった(VRAM とメモリが不足していたため、すべて失敗に終わった)。最終的には wen2.5-1.5B-Instruct モデルをデプロイしてテストすることにした。
ここでは cloud studio の高性能スペース、ベーシックプランを選択します。
まず vllm をインストールします。
python -m pip install --upgrade pip
待機時間が少し長くなるので、皆さんは辛抱強くお待ちください。
vllm をインストールします pip install vllm
インストールが成功したら、コマンド vllm
を入力して簡単なテストを行い、インストールが正常かどうか確認します。
次に pip install modelscope
をインストールします。
pip install openai
をインストールします。
pip install tqdm
と pip install transformers
をインストールします。
分割線部分は無視しても大丈夫です、実行する必要はありません。
----------------- 分割線開始 -----------------
1. 現在のディレクトリに tmp フォルダを新規作成します mkdir tmp
、または直接新規作成します。
新しい model_download_32b.py コードは以下の通りです:
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/QwQ-32B', cache_dir='./tmp', revision='master')
2. model_download_32b.py を実行すると、qwq32b モデルがダウンロードされます。私のマシンのリソースはシンガポールにあるため、速度が遅いです。
python model_download_32b.py
少々お待ちください、U_U ~~
----------------- 分割線終了 -----------------
シンガポールのサーバーリソースのため、国内の魔塔コミュニティのモデルへのアクセス速度が遅いです。
皆さんは git lfs clone を使用して hf のモデルファイルを利用できますので、速度が速くなります。
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt-get install git-lfs
git lfs clone https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct
これが hf から Qwen2.5-1.5B-Instruct モデルを取得するものです。
VRAM とメモリの関係で、筆者は複数のモデルをテストしましたが、すべて失敗に終わったため、Qwen2.5-1.5B-Instruct 大モデルをテストすることにしました。このブログ記事は、hai を使用してデプロイしたマシンに関するものです。残念ながら、上記のモデルはすべてサポートされておらず、無駄になりました。
では、引き続き、ダウンロードが完了するのを待ちましょう。
OpenAI API インターフェースに対応したサーバーを作成します。
vllm の具体的な使い方は公式ドキュメントを参照してください
python -m vllm.entrypoints.openai.api_server \
--model ./Qwen2.5-1.5B-Instruct \
--served-model-name Qwen2.5-1.5B \
--max-model-len=2048 \
--dtype=half
この画面が表示されれば、デプロイは成功です。
https://ohaxxx.ap-singapore.cloudstudio.work/proxy/8000/version のような URL を開いて、正常にアクセスできるか確認します。
次にクライアントの設定を行います。いつものように。
どう設定しても効果がないので、試行錯誤するしかありません。
古いコマンド ssh srv.us -R 1:localhost:8000
エラーが出た場合は、指示に従ってキーを作成してください。
ssh-keygen -t ed25519
すべてデフォルトで Enter を押すだけで大丈夫です。その後、再度 ssh srv.us -R 1:localhost:8000
コマンドを実行します。
クライアント chatx の設定
URL の末尾にスラッシュを付けないように注意してください。
ダイアログボックスでテストします。
ついに vllm で大モデルのデプロイが完了しました。基本的には汎用デプロイチュートリアルと言えます。なぜなら、メモリと VRAM が十分であれば、理論的には hf 上のどんな大モデルでもデプロイをサポートするからです。チュートリアルはここで終了します。
約 6 時間かかり、hai を使用して約 3 時間かかりました。1 時間あたり約 3.5。。。最後に書き上げたのが重要で、最終的には hai のカスタムマシンを使用せず、数多くのトラブルを乗り越えて、ようやく書き終えました。
U_U ~_~ D_D
最後の叫び、私の hai の費用を補填してもらえませんか!!!
私の hai の費用を補填してもらえませんか!!!
費用を補填してもらえますか!!!