Limour

Limour

临床医学在读。

【記録】win10プラットフォームで6Gのビデオメモリを搭載してQwen-1.8Bを実行する

Llama.cpp は、CPU と GPU の混合推論を可能にするものであり、ここでは Windows10 プラットフォームでのQwen-1.8Bの実行プロセスを記録します。使用しているグラフィックスカードは 1660Ti です。

モデルの準備#

conda create -n llamaConvert python=3.10 git -c conda-forge
conda activate llamaConvert
cd D:\llama
git clone --depth=1 https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
python -m pip install -r requirements.txt
pip install tiktoken
python -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id='Qwen/Qwen-1_8B-Chat', local_dir='D:\qwen', ignore_patterns=['*.h5', '*.ot', '*.msgpack', '*.safetensors'])"
cd D:\qwen
D:\aria2\aria2c.exe --all-proxy='http://127.0.0.1:7890' -o 'model-00001-of-00002.safetensors' "https://huggingface.co/Qwen/Qwen-1_8B-Chat/resolve/main/model-00001-of-00002.safetensors?download=true"
D:\aria2\aria2c.exe --all-proxy='http://127.0.0.1:7890' -o 'model-00002-of-00002.safetensors' "https://huggingface.co/Qwen/Qwen-1_8B-Chat/resolve/main/model-00002-of-00002.safetensors?download=true"
cd D:\llama\llama.cpp
python convert-hf-to-gguf.py D:\qwen
# モデルは 'D:\qwen\ggml-model-f16.gguf' に正常にエクスポートされました

モデルの実行#

conda create -n llamaCpp libcublas cuda-toolkit git -c nvidia -c conda-forge
conda activate llamaCpp
cd D:\llama | .\main.exe ## 正しく実行できるか確認します
cd D:\llama | .\quantize.exe --help ## 量子化方法を自分で決定します
.\quantize.exe D:\qwen\ggml-model-f16.gguf .\qwen-1_8-f16.gguf COPY
.\server.exe -m .\qwen-1_8-f16.gguf -c 4096 --n-gpu-layers 50 ## n-gpu-layersを調整してCPUとGPUのバランスを取ります
  • http://127.0.0.1:8080 にアクセスし、Completionを選択してテストします

モデルのファインチューニング#

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。