Ниже — простой и рабочий способ развернуть Ollama с LLaMA 3.2 1B в Docker, плюс пояснения под реальные сценарии (CPU / GPU, REST-доступ).
1️⃣ Самый простой вариант (CPU)
docker-compose.yml
Запуск:
2️⃣ Загрузка модели LLaMA 3.2 1B
После запуска контейнера:
Проверка:
3️⃣ Использование через REST API (основной сценарий)
Пример запроса
📌 Это стандартный REST, удобно дергать:
-
из .NET
-
Python
-
другого контейнера
-
gRPC не нужен
4️⃣ Использование из другого контейнера
5️⃣ GPU (NVIDIA, если нужно)
Требования
-
NVIDIA Driver
-
nvidia-container-toolkit
Compose с GPU
Проверка:
6️⃣ Ограничение памяти и потоков (важно для 1B)
7️⃣ Производительность (реально важно)
| Модель | RAM | CPU | Скорость |
|---|---|---|---|
| llama3.2:1b | ~1.2–1.5 GB | любой x86 | 15–30 ток/с |
| GPU | ~1 GB VRAM | RTX 3060 | 200+ ток/с |