ollama自定义模型容器部署（cpu版）

阅读量：

docker镜像封装

docker安装（略…）

拉取ollama镜像

复制代码

    docker pull ollama/ollama  # 约1.98G

ollama容器

复制代码

    # 前一个11435是宿主机要对外暴露的tcp端口，可自定义修改
    docker run -d -p 11435:11434 --name ollama ollama/ollama

准备模型注册文件

文件名称为Modelfile，如可以使用 vim Modelfile，写入数据如下

复制代码

    FROM Qwen2.5-3B-Instruct-Q4_K_L.gguf
    
    # set the temperature to 1 [higher is more creative, lower is more coherent]
    PARAMETER temperature 0.7
    PARAMETER top_p 0.8
    PARAMETER repeat_penalty 1.05
    PARAMETER top_k 20
    
    TEMPLATE """{{ if .Messages }}
    {{- if or .System .Tools }}<|im_start|>system
    {{ .System }}
    {{- if .Tools }}
    
    # Tools
    
    You are provided with function signatures within <tools></tools> XML tags:
    <tools>{{- range .Tools }}
    {"type": "function", "function": {{ .Function }}}{{- end }}
    </tools>
    
    For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
    <tool_call>
    {"name": <function-name>, "arguments": <args-json-object>}
    </tool_call>
    {{- end }}<|im_end|>
    {{ end }}
    {{- range $i, $_ := .Messages }}
    {{- $last := eq (len (slice $.Messages $i)) 1 -}}
    {{- if eq .Role "user" }}<|im_start|>user
    {{ .Content }}<|im_end|>
    {{ else if eq .Role "assistant" }}<|im_start|>assistant
    {{ if .Content }}{{ .Content }}
    {{- else if .ToolCalls }}<tool_call>
    {{ range .ToolCalls }}{"name": "{{ .Function.Name }}", "arguments": {{ .Function.Arguments }}}
    {{ end }}</tool_call>
    {{- end }}{{ if not $last }}<|im_end|>
    {{ end }}
    {{- else if eq .Role "tool" }}<|im_start|>user
    <tool_response>
    {{ .Content }}
    </tool_response><|im_end|>
    {{ end }}
    {{- if and (ne .Role "assistant") $last }}<|im_start|>assistant
    {{ end }}
    {{- end }}
    {{- else }}
    {{- if .System }}<|im_start|>system
    {{ .System }}<|im_end|>
    {{ end }}{{ if .Prompt }}<|im_start|>user
    {{ .Prompt }}<|im_end|>
    {{ end }}<|im_start|>assistant
    {{ end }}{{ .Response }}{{ if .Response }}<|im_end|>{{ end }}"""
    
    # set the system message
    SYSTEM """You are Qwen, created by Alibaba Cloud. You are a helpful assistant."""
    
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/hsK3HeJyfvjoCwBqA05uTgO9idSr.png)

复制模型文件到ollama容器

复制代码

    # 提前下载好Qwen2.5-3B-Instruct-Q4_K_L.gguf
    # https://hf-mirror.com/bartowski/Qwen2.5-3B-Instruct-GGUF/blob/main/Qwen2.5-3B-Instruct-Q4_K_L.gguf
    docker cp Qwen2.5-3B-Instruct-Q4_K_L.gguf ollama:/root
    # 复制模型注册文件
    docker cp Modelfile ollama:/root

注册模型到ollama服务中

复制代码

    docker exec -it ollama bash  # 进入容器
    cd /root
    ls  # 查看当前目录 应该存在 Qwen2.5-3B-Instruct-Q4_K_L.gguf 和 Modelfile
    ollama create qwen2.5_3b -f Modelfile  # 模型名称这里可以自定义
    ollama list  # 查看注册模型 应该可以看到qwen2.5_3b

模型

ollama服务已正式开通，请您遵循官方指导文档规定调用预定义的API接口进行操作。具体操作示例可供参考。

复制代码

    # linxu可以使用以下curl命令
    curl --location --request POST 'http://127.0.0.1:11435/v1/chat/completions' \
    --header 'Content-Type: application/json' \
    --data '{
    "model": "qwen2.5_3b",
    "messages": [
        {
        "role": "user",
        "content": "你好"
        }
    ],
    "stream": false
    }'
    
    # windows可以在cmd中使用以下curl命令
    curl --request POST "http://127.0.0.1:11435/v1/chat/completions" --header "Content-Type: application/json" --data-raw "{\"model\": \"qwen2.5_3b\",\"messages\": [{\"role\": \"user\",\"content\": \"你好\"}],\"stream\": false}"
    
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/TAmz6dWYNKVUcpaJtbn50fr9MoXv.png)

存储当前容器（快照）

复制代码

    docker commit ollama qwen2.5-3b_image:v1  # v1为自定义版本号
    docker save -o qwen2.5-3b_image_image_v1.tar qwen2.5-3b_image:v1  # 保存为镜像文件

使用zip压缩与解压缩（可选）

复制代码

    zip qwen2.5-3b_image_image_v1.zip qwen2.5-3b_image_image_v1.tar  # 将tar压缩成zip文件，减小体积
    unzip qwen2.5-3b_image_image_v1.zip  # 将zip解压缩成tar文件

文件切割（可选）

复制代码

    split -b 3G qwen2.5-3b_image_image_v1.tar qwen2.5-3b_image_  # 切割成 my_ollama_image_aa、my_ollama_image_ab、my_ollama_image_ac
    cat qwen2.5-3b_image_* > qwen2.5-3b_image_image_v1.tar  # 将 my_ollama_image_* 多个文件合并成 my_ollama_image_v1.tar
    # windows cmd命令
    # copy /b qwen2.5-3b_image_aa + qwen2.5-3b_image_ab + qwen2.5-3b_image_ac qwen2.5-3b_image_image_v1.tar

一键部署

加载快照镜像文件

复制代码

    docker load -i qwen2.5-3b_image_image_v1.tar  # 在terminal或cmd(windows)等终端中命令

快照容器

复制代码

    # 前台测试
    docker run --rm -p 11435:11434 --name my_ollama qwen2.5-3b_image:v1
    
    # 后台
    docker run -d -p 11435:11434 --name my_ollama qwen2.5-3b_image:v1

注意事项

每隔三个工作分钟后进行一次ollama模型接口查询（可选），以防止模型进入卸载状态或发生冷启动问题，并提升响应速度

附：

常见命令
启动Ollama服务
从模型文件创建模型
显示当前可用的模型信息
运行当前配置的模型
从注册表中拉取指定版本的预训练权重
将本地训练好的参数推送到Ollama注册表中
列出所有可用的预训练权重版本
复制指定位置的参数文件到本地存储目录
删除指定位置的参数文件（注意：此操作无法恢复）
获取关于当前命令行参数的帮助信息

GPU 利用为了使用 GPU 而需要安装 NVIDIA Container Toolkit：https://hub.docker.com/r/ollama/ollama

在Huggingface上获取Ollama兼容的GGUF模型作为推荐资源提供给前同事许多专家已经整理了大部分主流开源模型对应的GGUF量化版本并将这些资源整理成专门的网站以便大家快速访问。很多用户可能对如何高效地利用这些量化权重还存在疑问因此这里详细说明一下操作流程：首先请访问该网站找到目标预训练语言模型对应的GGUF权重包然后按照指引进行下载即可完成安装与配置过程

全部评论 (0)

还没有任何评论哟~

ollama自定义模型容器部署（cpu版）

docker镜像封装 docker安装（略…）拉取ollama镜像 dockerpullollama/ollama约1.98G ollama容器前一个11435是宿主机要对外暴露的tcp端口，可自...

Ollama本地部署自定义大模型

Ollama本地部署自定义大模型 1\.Ollama安装 2\.模型选择 3\.Ollama使用 3.1创建模型 3.2运行模型命令行 3.3运行模型接口 4\.其他有用命令参考链接 Ollama是...

ollama模型CPU轻量化部署

一、定义 1.ollama定义 2.环境部署 3.demo 4.加载本地模型方法 5.基本指令 6.关闭开启ollama 7.ollama如何同时多个模型,多进程 8.ollama如何分配gpu 9....

Ollama自定义模型

Ollama支持用户通过多种方式自定义模型，以下是主要方法和步骤：一、从GGUF文件导入模型 ‌1.下载GGUF文件‌ GGUF（GPTGeneratedUnifiedFormat）是一种专为大模型...

ollama+LLM llama3.1 部署教程（cpu版）

docker镜像封装 docker安装（略…）拉取ollama镜像 dockerpullollama/ollama约1.98G ollama容器 dockerrundp11434:11434name...

VitisAI(07) 自定义模型部署

本文以自定义模型为例，对使用VitisAI进行模型量化部署的流程进行介绍 Workflow 数据集为fashionmnist 使用Tensorflow2搭建一个简单分类网络并进行训练，导出模型文件使...

Task02:Ollama 自定义导入模型

简介本节学习如何使用Modelfile来自定义导入模型，主要分为以下几个部分: 1.从GGUF导入 2.从Pytorch或Safetensors导入 3.由模型直接导入 4.自定义Prompt 一、...

部署ollama大模型

一.HowdoIconfigureOllamaserver? Ollamaservercanbeconfiguredwithenvironmentvariables. Settingenvironme...

Ollama 部署大模型

概述 Ollama是一个开源框架，‌专门设计用于在本地大型语言模型。‌它的主要特点是将模型权重、‌配置和数据捆绑到一个包中，‌从而优化了设置和配置细节，‌包括GPU使用情况，‌简化了在本地大型模型的过...

ollama部署通义大模型公网访问

最近闲来无事玩大模型，不过需要硬件需求：独显主机且显卡驱动正常，可能最好英伟达显卡，别的没试过 windows系统安装了wsl和dockerdesktop 公网ip的云服务器（或者别的内网穿透方案）...

是否确定退出登录?

ollama自定义模型容器部署（cpu版）

docker镜像封装

docker安装（略…）

拉取ollama镜像

ollama容器

准备模型注册文件

复制模型文件到ollama容器

注册模型到ollama服务中

模型

存储当前容器（快照）

使用zip压缩与解压缩（可选）

文件切割（可选）

一键部署

快照容器

注意事项

附：

全部评论 (0)

相关文章推荐

ollama自定义模型容器部署（cpu版）

Ollama本地部署自定义大模型

ollama模型CPU轻量化部署

Ollama自定义模型

ollama+LLM llama3.1 部署教程（cpu版）

VitisAI(07) 自定义模型部署

Task02:Ollama 自定义导入模型

部署ollama大模型

Ollama 部署大模型

ollama部署通义大模型公网访问