Ollama在本地运行大语言模型⚓︎

约 715 个字 4 行代码 3 张图片预计阅读时间 2 分钟总阅读量次

Ollama是一个允许您在本地运行开源大型语言模型的强大框架。

目前支持许多很新很好用的开源大模型。前不久推出的Gemma也支持了，传统的Llama2，Mistral-7B等早就可以使用。并且提供多种参数规模的供下载。使用前，Ollama将模型权重、配置和数据捆绑到一个由Modelfile定义的包中，优化了包括GPU使用等设置和配置细节。

更重要的是，继承开源精神，很好上手。反馈很快。

安装与使用⚓︎

首先去ollama点com官网下载软件到你的平台上。目前支持macOS（必须big sur以上版本）/Linux，不过在Windows系统上只有预览版(Preview)。

也可以在终端进行下载：

# Linux
curl https://ollama.ai/install.sh | sh

安装好后，打开终端，这里以macOS系统安装llama2为例。输入命令：

ollama run llama2

此时会自动拉取模型并下载。等待10min左右，安装完成，显示如下：

出现success就说明已经安装好了。其实类似的开源模型都可以通过同样方式安装好。没有下载的会自动给你下载，然后开始运行。

这里Ollama提供了保存和加载对话的功能。在输入框进行如下指令，可以加载、保存和显示模型信息。

下面是一些对话实例：

我用的是7B的Llama-2。在本地跑生成速度还是很快的。

运行不同参数量的模型，所需要的电脑内存不同。Ollama针对提供的每个模型给出了相关硬件需求、上下文等。

在 macOS 下，模型将下载到 ~/.ollama/models 路径中。

默认情况下，Ollama 使用 4 位量化(Quantization)。要尝试其他量化级别，需要设置标签。q 后面的数字表示用于量化的位数（即 q4 表示 4 位量化）。数字越大，模型越准确，但运行速度越慢，需要的内存就越多。

如果有多个版本的模型，默认会下载参数量最小/最新的那个。

比如你机器硬件达标，下载70b的Llama-2，就需要指明下载的版本:

ollama run llama2:70b

下面是一些模型和下载指令：

完整的可以在官网这里找到。