ollama模型CPU轻量化部署

阅读量：

一、定义

以下是改写后的文本内容

二、实现

ollama 定义
ollama 是llama-cpp 的进一步封装，更加简单易用，类似于docker.
模型网址：https://www.ollama.com/
部署网址：https://github.com/ollama/ollama
教程：https://github.com/ollama/ollama/releases
环境部署
1. 宿主机安装
curl -fsSL https://ollama.com/install.sh | sh

复制代码

    远程访问配置：
    >>sudo vi /etc/systemd/system/ollama.service
    对于每个环境变量，在 [Service] 部分下添加一行 Environment：
    [Service]
    Environment="OLLAMA_HOST=0.0.0.0"
    保存并退出。
    重新加载 systemd 并重新启动 Ollama：
    >>systemctl daemon-reload
    >>systemctl restart ollama
    
    
    bash

2. docker 模式安装
https://hub.docker.com/r/ollama/ollama

安装镜像到Ollama

案例
1.加载模型/模型

复制代码

    ollama pull llama3:8b
    
    
    bash

2. 调用模型
方式一、指令交互的方式进行调用

复制代码

    >>ollama run llama3
    
    
    bash

方式二、api 接口调用

复制代码

    curl http://localhost:11434/api/generate -d '{
    "model":"llama3:8b",
    "prompt": "请分别翻译成中文 -> Meta Llama 3: The most capable openly available LLM to date",
    "stream": false
    }'
    
    
    bash

方式三、 python 接口调用

复制代码

    pip install ollama-python
    import ollama
    response = ollama.run('llama3:8b', '你好，世界！')
    print(response)
    
    
    bash

复制代码

    from openai import OpenAI
    
    client = OpenAI(
    base_url='http://localhost:11434/v1/',
    
    # 必需但被忽略
    api_key='ollama',
    )
    
    chat_completion = client.chat.completions.create(
    messages=[
        {
            'role': 'user',
            'content': 'Say this is a test',
        }
    ],
    model='llama2',
    )
    
    
    
    bash
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-18/BUKfxR91GLYgAd6imElraQsp2wPO.png)

本地模型加载方法
请参考官网文档
4.1 GGUF 模型
编写 ModelFile 文件
从 ./mistral-7b-v0.1.Q4_0.gguf 生成文件
创建模型实例
通过 ollama 工具创建 llama3-8b:0.001 模型实例，并指定 ModelFile 作为配置文件
进行测试验证
运行推理过程，并使用以下示例对话：
"你最喜欢的调味品是什么？"

基本指令 : 和docker 指令类似，基本重合

复制代码

    journalctl -u ollama           查看日志
    journalctl -n 10               查看最新的10条日志
    journalctl -f                  实时查看新添加的日志条目
    
    
    bash

复制代码

    ollama -h
    (base) [root@cnki-31-199-1 jiayafei_linux]# ollama -h
    Large language model runner
    
    Usage:
      ollama [flags]
      ollama [command]
    
    Available Commands:
      serve       Start ollama
      create      Create a model from a Modelfile
      show        Show information for a model
      run         Run a model
      pull        Pull a model from a registry
      push        Push a model to a registry
      list        List models
      ps          List running models
      cp          Copy a model
      rm          Remove a model
      help        Help about any command
    
    Flags:
      -h, --help      help for ollama
      -v, --version   Show version information
    
    
    bash
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-18/6oJRgqTNdXpbvVYUaZLQ7lKwSBuM.png)

ollama 如何同时多个模型, 多进程

复制代码

    vim /etc/systemd/system/ollama.service
    [Service]
    Environment="OLLAMA_NUM_PARALLEL=4" #并行处理请求的数量
    Environment="OLLAMA_MAX_LOADED_MODELS=4" #同时加载的模型数量 
    
    sudo systemctl daemon-reload
    sudo systemctl restart ollama
    
    加载一个模型
    ollama run gemma:2b
    加载另外一个模型
    ollama run llama3:8b  
    
    
    bash
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-18/HduOp8SN0UoaJbfeVLRwt6EBqhy2.png)

测试序号从0还是1开始，应是从0开始

测试编号从零开始。

复制代码

    $sudo vi /etc/systemd/system/ollama.service
    [Service]
    Environment="CUDA_VISIBLE_DEVICES=0,1"
    systemctl daemon-reload
    systemctl restart ollama
    
    
    bash

修改模型的存储路径

复制代码

    mv ~/.ollama/models/* /Users/<username>/Documents/ollama_models     将以前的models移动到当前目录
    
    
    bash

看上文。

10. 后台

复制代码

    后台模型
    使用 tmux：
    启动一个新的 tmux 会话：
    
    tmux new -s ollama_session
    
    在 tmux 会话中 ollama run：
    
    ollama run deepseek-r1:70b
    
    按下 Ctrl + B，然后按 D 分离会话。
    
    重新连接到会话：
    
    tmux attach -t ollama_session
    
    
    测试：
    from openai import OpenAI
    
    client = OpenAI(
        base_url='http://127.0.0.1:11434/v1/',
    
        # 必需但被忽略
        api_key='ollama',
    )
    
    chat_completion = client.chat.completions.create(
        messages=[
            {
                'role': 'user',
                'content': '你好',
            }
        ],
        model='deepseek-r1:70B',
    )
    print(chat_completion)
    
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-18/aMP2jWysCA5rDwepVTUI6JoHhvl9.png)

全部评论 (0)

还没有任何评论哟~

ollama模型CPU轻量化部署

一、定义 1.ollama定义 2.环境部署 3.demo 4.加载本地模型方法 5.基本指令 6.关闭开启ollama 7.ollama如何同时多个模型,多进程 8.ollama如何分配gpu 9....

llama-cpp模型轻量化部署与量化

一、定义 1.定义 2.配置环境 3.遇到的问题，交互模式下模型一直输出，不会停止 4.模型量化 5.Qwen1.57B案例demo 二、实现 1.定义主要应用与cpu上的部署框架。由c++完成。

ollama自定义模型容器部署（cpu版）

docker镜像封装 docker安装（略…）拉取ollama镜像 dockerpullollama/ollama约1.98G ollama容器前一个11435是宿主机要对外暴露的tcp端口，可自...

HarmonyOS Next轻量化模型的部署与优化

本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中轻量化模型部署与优化相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见...

部署ollama大模型

一.HowdoIconfigureOllamaserver? Ollamaservercanbeconfiguredwithenvironmentvariables. Settingenvironme...

Ollama 部署大模型

概述 Ollama是一个开源框架，‌专门设计用于在本地大型语言模型。‌它的主要特点是将模型权重、‌配置和数据捆绑到一个包中，‌从而优化了设置和配置细节，‌包括GPU使用情况，‌简化了在本地大型模型的过...

Ollama 本地部署指南：轻量级运行 Qwen3 模型全攻略

前言 “听说你跑不起大模型？” “谁说的？我6G显存照样跑得飞起！” 随着AI技术发展越来越快，大模型也越来越常见。大部分人一提到大模型就想到需要高端显卡、强大服务器，甚至一台“超级计算机”。

Ollama + WebUI本地化部署大模型

1、前言 ·Ollama是一个开源的LLM（大型语言模型）服务工具，用于简化在本地运行大语言模型，降低使用大语言模型的门槛，使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大...

大模型部署-Ollama+WebUI

Ollama官网 https://ollama.com/ Ollama简介主要特点： 1. 易于使用：它提供了一个简洁的界面和命令行工具，使得用户可以方便地管理和运行不同的大语言模型。 2. 多种模...

模型压缩与优化：轻量化部署的关键

1.背景介绍随着深度学习的发展，模型的规模和复杂性也在不断增加。这些大型模型在训练和推理阶段需要大量的计算资源，这对于资源有限的设备（如移动设备和嵌入式设备）来说是一个巨大的挑战。因此，如何将这些大...

是否确定退出登录?

ollama模型CPU轻量化部署

一、定义

二、实现

全部评论 (0)

相关文章推荐

ollama模型CPU轻量化部署

llama-cpp模型轻量化部署与量化

ollama自定义模型容器部署（cpu版）

HarmonyOS Next轻量化模型的部署与优化

部署ollama大模型

Ollama 部署大模型

Ollama 本地部署指南：轻量级运行 Qwen3 模型全攻略

Ollama + WebUI本地化部署大模型

大模型部署-Ollama+WebUI

模型压缩与优化：轻量化部署的关键