22.12.2025 17:49:02

Ниже — простой и рабочий способ развернуть Ollama с LLaMA 3.2 1B в Docker, плюс пояснения под реальные сценарии (CPU / GPU, REST-доступ).


1️⃣ Самый простой вариант (CPU)

docker-compose.yml

version: "3.9"

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ollama:/root/.ollama

volumes:
  ollama:

 

Запуск:

 
docker compose up -d

2️⃣ Загрузка модели LLaMA 3.2 1B

После запуска контейнера:

 
docker exec -it ollama ollama pull llama3.2:1b

Проверка:

 
docker exec -it ollama ollama list

3️⃣ Использование через REST API (основной сценарий)

Пример запроса

 
curl http://localhost:11434/api/generate -d '{ "model": "llama3.2:1b", "prompt": "Explain what Docker is in one paragraph", "stream": false }'

📌 Это стандартный REST, удобно дергать:

  • из .NET

  • Python

  • другого контейнера

  • gRPC не нужен


4️⃣ Использование из другого контейнера

 

services:
  ollama:
    image: ollama/ollama

  app:
    image: curlimages/curl
    command: >
      curl http://ollama:11434/api/generate -d '{
        "model":"llama3.2:1b",
        "prompt":"Hello"
      }'


5️⃣ GPU (NVIDIA, если нужно)

Требования

  • NVIDIA Driver

  • nvidia-container-toolkit

Compose с GPU

services:
  ollama:
    image: ollama/ollama:latest
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]
    ports:
      - "11434:11434"
    volumes:
      - ollama:/root/.ollama

Проверка:

 
docker exec -it ollama nvidia-smi

6️⃣ Ограничение памяти и потоков (важно для 1B)

 
environment: OLLAMA_NUM_THREADS: 4 OLLAMA_MAX_LOADED_MODELS: 1 mem_limit: 4g

7️⃣ Производительность (реально важно)

Модель RAM CPU Скорость
llama3.2:1b ~1.2–1.5 GB любой x86 15–30 ток/с
GPU ~1 GB VRAM RTX 3060 200+ ток/с