от MetaТочка входа в локальные модели. Хорошо работает с русским, переводами, простыми задачами.
- Огромное сообщество и много файнтюнов
- Проверенная стабильность от Meta
- Базовая опора всей open-source-экосистемы
ollama run llama3.2:3b
Без неё локальные модели не запустятся. Выбери одну из двух — обе бесплатные и работают на Mac, Windows и Linux.
Поставил приложение? Тогда выбирай модель ниже ↓
Лёгкие модели до 3 ГБ. Работают на CPU и интегрированной графике. Хороши для тестов, простых чатов и переводов.
от MetaТочка входа в локальные модели. Хорошо работает с русским, переводами, простыми задачами.
ollama run llama3.2:3b
от MicrosoftМаленькая но умная. Microsoft оптимизировал её под рассуждения и анализ. Топ на CPU без видеокарты.
ollama run phi4-mini
от GoogleСвежая модель Google. Понимает не только текст, но и картинки. Самый большой контекст в классе.
ollama run gemma4:e4b
от AlibabaСвежая версия от Alibaba. Сильна в коде и логических задачах. Отличный русский в малом размере.
ollama run qwen3:3b
Модели 8–14B. Серьёзная работа: код, аналитика, длинные диалоги. Подходят 95% пользователей с современным ноутом.
от AlibabaЗолотая середина для большинства задач. Режим /think — chain-of-thought рассуждения. Бьёт модели в 3 раза тяжелее.
ollama run qwen3.5:9b
от GoogleСвежая Gemma 4 в Q4 с квантизацией QAT (Quantization-Aware Training) — почти нет потерь качества при сжатии. Видит картинки, отлично для аналитики и документов.
ollama run gemma4:12b-qat
от OpenAIДа, та самая OpenAI. Открытая версия их технологий. На уровне OpenAI o3-mini, работает с 16 ГБ памяти.
ollama run gpt-oss:20b
от AlibabaСпециально натренирована под программирование. HumanEval 72.5%. Понимает 80+ языков программирования.
ollama run qwen2.5-coder:14b
от DeepSeekКитайский стартап сделал reasoning-модель уровня o1 в малом размере. Решает задачи пошагово.
ollama run deepseek-r1:8b
Модели 17–35B. Качество близкое к GPT-4 / Claude в офлайне. Топ-выбор для разработчиков и продвинутых пользователей.
от AlibabaБьёт прошлый флагман Alibaba в 14 раз большего размера на agentic-coding. Помещается в 24 ГБ VRAM при Q4. Apache 2.0.
ollama run qwen3.6:27b
от AlibabaMixture of Experts. Активны только 3B параметров на токен. Скорость как у 3B, качество как у 35B.
ollama run qwen3.6:35b
от GoogleMoE-архитектура от Google. Apache 2.0, 256K контекст, понимает текст и изображения. Лидер по обработке длинных документов.
ollama run gemma4:26b
от AlibabaЛидирует на EvalPlus, LiveCodeBench, BigCodeBench среди всех открытых моделей. На уровне GPT-4o на HumanEval.
ollama run qwen2.5-coder:32b
от MiniMaxИюньская новинка 2026. Sparse Attention. Контекст 1 млн токенов — поместится целая книга. SWE-bench Pro 59%.
ollama run minimax-m3
от DeepSeekСледующий шаг после R1. Глубокие рассуждения, математика, аналитика — на уровне Claude Opus 4.6 и GPT-5.4.
ollama run deepseek-v4-pro
Флагманы. Mac M3 Ultra, multi-GPU, H100, enterprise-железо. Для тех, кто строит продукты на ИИ или работает с громадными контекстами.
от MetaСамый большой каталог файнтюнов в мире. Поддержка от тысяч разработчиков. Стандарт для self-hosted ИИ.
ollama run llama3.3:70b
от MetaMoE: 17B активных параметров из 109B (16 экспертов). Контекст 10 млн токенов — поместится сериал из 5 сезонов. Помещается в один H100.
ollama run llama4:scout
от OpenAIПолная мощь open-source от создателей ChatGPT. Уровень o4-mini. Запускается на одной H100 80GB.
ollama run gpt-oss:120b
550B параметров (55B активных). MoE для agentic-задач. 1M контекст, оптимизирована под NVIDIA-железо.
ollama run nemotron3-ultra
Быстро сравни модели между собой по ключевым параметрам. На мобильном таблица прокручивается вправо.
| Модель | Вендор | Размер | Контекст | Скорость | Лицензия |
|---|---|---|---|---|---|
| 8 ГБ RAM | |||||
| Llama 3.2 3B | Meta | 2 ГБ | 128K | ~25 ток/с | Llama Community |
| Phi-4 Mini | Microsoft | 2.3 ГБ | 128K | ~12 ток/с CPU | MIT |
| Gemma 4 E4B | Google | 3 ГБ | 256K | ~20 ток/с | Apache 2.0 |
| Qwen 3 3B | Alibaba | 2 ГБ | 32K | ~28 ток/с | Qwen License |
| 16 ГБ RAM | |||||
| Qwen 3.5 9B ★ Лучший выбор | Alibaba | 6.6 ГБ | 262K | ~30 ток/с | Qwen License |
| Gemma 4 12B QAT ★ Лучший выбор | Google | 8 ГБ | 128K | ~22 ток/с | Apache 2.0 |
| GPT-OSS 20B | OpenAI | 12 ГБ | 128K | ~15 ток/с | Apache 2.0 |
| Qwen 2.5 Coder 14B | Alibaba | 9 ГБ | 128K | ~25 ток/с | Qwen License |
| DeepSeek R1 8B | DeepSeek | 5 ГБ | 32K | ~22 ток/с | MIT |
| 24+ ГБ VRAM | |||||
| Qwen 3.6 27B ★ Лучший выбор | Alibaba | 17 ГБ | 1M | ~35 ток/с | Apache 2.0 |
| Qwen 3.6 35B A3B | Alibaba | 20 ГБ | 1M | ~45 ток/с | Apache 2.0 |
| Gemma 4 26B | Google | 16 ГБ | 256K | ~30 ток/с | Apache 2.0 |
| Qwen 2.5 Coder 32B | Alibaba | 19 ГБ | 128K | ~25 ток/с | Qwen License |
| MiniMax M3 | MiniMax | ~20 ГБ | 1M | ~20 ток/с | Open weights |
| DeepSeek V4 Pro | DeepSeek | ~18 ГБ | 1M | ~22 ток/с | MIT |
| 64+ ГБ — сервер | |||||
| Llama 3.3 70B ★ Флагман | Meta | 40 ГБ | 128K | от железа | Llama Community |
| Llama 4 Scout | Meta | ~60 ГБ | 10M | ~35 ток/с | Llama 4 License |
| GPT-OSS 120B | OpenAI | ~63 ГБ | 128K | o4-mini level | Apache 2.0 |
| Nemotron 3 Ultra | ~300 ГБ | 1M | MoE 55B акт. | NVIDIA License | |
Три рабочие альтернативы — выбор зависит от того, насколько глубоко ты готов погружаться.
GUI-приложение для новичков. Скачать, установить, пользоваться — как Spotify, только для моделей ИИ.
Серверное решение для продвинутых. Демон в фоне, OpenAI-совместимый API. Стандарт для разработчиков.
Open-source альтернатива с MIT-лицензией. Полная приватность, проверяемый исходный код.
ollama pull название:тег — обновит до последней версии. В LM Studio: зайди в Discover, найди модель, нажми Download — она перекачает новую версию рядом со старой. Старую можно потом удалить.ollama rm название:тег. Чтобы посмотреть что установлено: ollama list. В LM Studio: открой My Models, найди модель, нажми на корзину справа.Каждую неделю — новые гиды по ИИ, разборы инструментов, кейсы внедрения. Выбирай удобную площадку.
Модель запущена — что дальше? Три практических направления, чтобы быстро понять её сильные стороны.
Дай модели сложную многошаговую задачу: «реши задачу, рассуждая пошагово», «напиши код функции и тесты к ней», «переведи и адаптируй текст». Сравни с тем что ждал.
Через Ollama-API можно подключить локальную модель к Continue.dev или Cursor (custom-провайдер) — и кодить с автодополнением без интернета и без счёта за токены.
continue.devЧерез LM Studio или AnythingLLM подключи папку с PDF/Word/Markdown — и спрашивай модель прямо по содержимому. Полная приватность данных.
anythingllm.com