Какую локальную модель ИИ установить

Уровень 1

8 ГБ RAM — точка входа

Лёгкие модели до 3 ГБ. Работают на CPU и интегрированной графике. Хороши для тестов, простых чатов и переводов.

Llama 3.2 3B

от Meta

Универсал

Точка входа в локальные модели. Хорошо работает с русским, переводами, простыми задачами.

2 ГБ 128K контекст ~25 ток/сек Llama Community

Огромное сообщество и много файнтюнов
Проверенная стабильность от Meta
Базовая опора всей open-source-экосистемы

Установка в Ollama

ollama run llama3.2:3b

LM Studio: Discover → «Llama 3.2 3B Instruct» → Q4_K_M

Hugging Face

Phi-4 Mini

от Microsoft

Топ в рассуждениях

Маленькая но умная. Microsoft оптимизировал её под рассуждения и анализ. Топ на CPU без видеокарты.

2.3 ГБ 128K контекст ~12 ток/сек на CPU MIT

Работает на CPU без GPU
Понимает многошаговые задачи
Лучшая производительность на ноуте без видеокарты

Установка в Ollama

ollama run phi4-mini

LM Studio: Discover → «Phi-4 Mini Instruct» → Q4_K_M

Hugging Face

Gemma 4 E4B

от Google

Мультимодал

Свежая модель Google. Понимает не только текст, но и картинки. Самый большой контекст в классе.

3 ГБ 256K контекст ~20 ток/сек Apache 2.0

Видит изображения и отвечает по ним
Гигантский контекст 256K токенов
Коммерческая лицензия Apache 2.0

Установка в Ollama

ollama run gemma4:e4b

LM Studio: Discover → «Gemma 4 E4B» → Q4_K_M

Hugging Face

Qwen 3 3B

от Alibaba

Для кода

Свежая версия от Alibaba. Сильна в коде и логических задачах. Отличный русский в малом размере.

2 ГБ 32K контекст ~28 ток/сек Qwen License

Отличный русский в классе 3B
Быстрая на ноутбуке
Хороша в коде и логике

Установка в Ollama

ollama run qwen3:3b

LM Studio: Discover → «Qwen 3 3B Instruct» → Q4_K_M

Hugging Face

Уровень 2

16 ГБ RAM — золотая середина

Модели 8–14B. Серьёзная работа: код, аналитика, длинные диалоги. Подходят 95% пользователей с современным ноутом.

Qwen 3.5 9B

от Alibaba

Лучший универсал

Золотая середина для большинства задач. Режим /think — chain-of-thought рассуждения. Бьёт модели в 3 раза тяжелее.

6.6 ГБ 262K контекст ~30 ток/сек Qwen License

Режим /think для сложных задач
Отличный русский язык
Высокая скорость на M-серии Mac

Установка в Ollama

ollama run qwen3.5:9b

LM Studio: Discover → «Qwen 3.5 9B Instruct» → Q4_K_M

Hugging Face

Gemma 4 12B QAT

от Google

Лучший универсал

Свежая Gemma 4 в Q4 с квантизацией QAT (Quantization-Aware Training) — почти нет потерь качества при сжатии. Видит картинки, отлично для аналитики и документов.

8 ГБ 128K контекст ~22 ток/сек Apache 2.0

QAT-квантизация — почти 0% потерь vs FP16
Мультимодальность: видит текст и изображения
Коммерческая лицензия Apache 2.0

Установка в Ollama

ollama run gemma4:12b-qat

LM Studio: Discover → «Gemma 4 12B QAT» → Q4_0

Hugging Face

GPT-OSS 20B

от OpenAI

От создателей ChatGPT

Да, та самая OpenAI. Открытая версия их технологий. На уровне OpenAI o3-mini, работает с 16 ГБ памяти.

12 ГБ (MXFP4) 128K контекст ~15 ток/сек Apache 2.0

Качество близкое к o3-mini
Знание глобальной культуры и фактов
Apache 2.0 — коммерческое использование

Установка в Ollama

ollama run gpt-oss:20b

LM Studio: Discover → «GPT-OSS 20B» → MXFP4

Hugging Face

Qwen 2.5 Coder 14B

от Alibaba

Для кода

Специально натренирована под программирование. HumanEval 72.5%. Понимает 80+ языков программирования.

9 ГБ 128K контекст ~25 ток/сек Qwen License

Точный продакшен-код
Объяснение и рефакторинг существующего кода
Поддержка code review

Установка в Ollama

ollama run qwen2.5-coder:14b

LM Studio: Discover → «Qwen 2.5 Coder 14B Instruct» → Q4_K_M

Hugging Face

DeepSeek R1 8B

от DeepSeek

Топ в рассуждениях

Китайский стартап сделал reasoning-модель уровня o1 в малом размере. Решает задачи пошагово.

5 ГБ 32K контекст ~22 ток/сек MIT

Пошаговые рассуждения с цепочкой мысли
Сильна в математике и логике
MIT-лицензия — любое использование

Установка в Ollama

ollama run deepseek-r1:8b

LM Studio: Discover → «DeepSeek R1 Distill Llama 8B» → Q4_K_M

Hugging Face

Уровень 3

24+ ГБ VRAM — почти-облако локально

Модели 17–35B. Качество близкое к GPT-4 / Claude в офлайне. Топ-выбор для разработчиков и продвинутых пользователей.

Qwen 3.6 27B

от Alibaba

Топ для домашнего ПК

Бьёт прошлый флагман Alibaba в 14 раз большего размера на agentic-coding. Помещается в 24 ГБ VRAM при Q4. Apache 2.0.

17 ГБ 1M контекст ~35 ток/сек Apache 2.0

SWE-bench и agentic coding на топ-уровне
Контекст 1 млн токенов
Apache 2.0 — без ограничений

Установка в Ollama

ollama run qwen3.6:27b

LM Studio: Discover → «Qwen 3.6 27B» → Q4_K_M

Hugging Face

Qwen 3.6 35B A3B

от Alibaba

Скорость 3B при качестве 35B

Mixture of Experts. Активны только 3B параметров на токен. Скорость как у 3B, качество как у 35B.

20 ГБ 1M контекст ~45 ток/сек Apache 2.0

Топ agentic coding в открытом классе
Скорость MoE при качестве плотной 35B
Огромный контекст 1M токенов

Установка в Ollama

ollama run qwen3.6:35b

LM Studio: Discover → «Qwen 3.6 35B A3B» → Q4_K_M

Hugging Face

Gemma 4 26B

от Google

Мультимодальный флагман

MoE-архитектура от Google. Apache 2.0, 256K контекст, понимает текст и изображения. Лидер по обработке длинных документов.

16 ГБ 256K контекст ~30 ток/сек Apache 2.0

Топ-6 в Arena AI среди открытых моделей
Мультимодальность: текст + изображения
Apache 2.0 коммерчески

Установка в Ollama

ollama run gemma4:26b

LM Studio: Discover → «Gemma 4 26B» → Q4_K_M

Hugging Face

Qwen 2.5 Coder 32B

от Alibaba

Уровень GPT-4o в коде

Лидирует на EvalPlus, LiveCodeBench, BigCodeBench среди всех открытых моделей. На уровне GPT-4o на HumanEval.

19 ГБ 128K контекст ~25 ток/сек Qwen License

Лучший open-source для кода
Понимает 90+ языков программирования
Уровень GPT-4o на HumanEval

Установка в Ollama

ollama run qwen2.5-coder:32b

LM Studio: Discover → «Qwen 2.5 Coder 32B Instruct» → Q4_K_M

Hugging Face

MiniMax M3

от MiniMax

1M контекст

Июньская новинка 2026. Sparse Attention. Контекст 1 млн токенов — поместится целая книга. SWE-bench Pro 59%.

~20 ГБ 1M контекст ~20 ток/сек Open weights

Frontier-уровень в коде (близко к Claude Opus)
Sparse Attention — экономия compute
Мультимодальная: текст + изображения

Установка в Ollama

ollama run minimax-m3

LM Studio: Discover → «MiniMax M3» → Q4_K_M

Hugging Face

DeepSeek V4 Pro

от DeepSeek

Премиум рассуждения

Следующий шаг после R1. Глубокие рассуждения, математика, аналитика — на уровне Claude Opus 4.6 и GPT-5.4.

~18 ГБ (Q4) 1M контекст ~22 ток/сек MIT

Конкурирует с Claude Opus 4.6 и GPT-5.4
Hybrid attention — экономия 73% FLOPs
MIT-лицензия

Установка в Ollama

ollama run deepseek-v4-pro

LM Studio: Discover → «DeepSeek V4 Pro» → Q4_K_M

Hugging Face

Уровень 4

64+ ГБ — сервер / воркстейшн

Флагманы. Mac M3 Ultra, multi-GPU, H100, enterprise-железо. Для тех, кто строит продукты на ИИ или работает с громадными контекстами.

Llama 3.3 70B

от Meta

Флагман экосистемы

Самый большой каталог файнтюнов в мире. Поддержка от тысяч разработчиков. Стандарт для self-hosted ИИ.

40 ГБ (Q4) 128K контекст Скорость от железа Llama Community

Самая большая экосистема файнтюнов
Проверена в продакшене тысячами компаний
Подходит почти для любой задачи

Установка в Ollama

ollama run llama3.3:70b

LM Studio: Discover → «Llama 3.3 70B Instruct» → Q4_K_M

Hugging Face

Llama 4 Scout

от Meta

10M контекста

MoE: 17B активных параметров из 109B (16 экспертов). Контекст 10 млн токенов — поместится сериал из 5 сезонов. Помещается в один H100.

~60 ГБ (Q4) 10M контекст ~35 ток/сек Llama 4 License

Рекордный контекст 10M токенов
Нативно мультимодальная
Помещается в один H100 80GB

Установка в Ollama

ollama run llama4:scout

LM Studio: Discover → «Llama 4 Scout 17B-16E» → Q4_K_M

Hugging Face

GPT-OSS 120B

от OpenAI

Открытая от OpenAI

Полная мощь open-source от создателей ChatGPT. Уровень o4-mini. Запускается на одной H100 80GB.

~63 ГБ (MXFP4) 128K контекст Уровень o4-mini Apache 2.0

Самая большая open модель OpenAI
Работает на одной H100 80GB
Apache 2.0 без ограничений

Установка в Ollama

ollama run gpt-oss:120b

LM Studio: Discover → «GPT-OSS 120B» → MXFP4

Hugging Face

NVIDIA Nemotron 3 Ultra

от NVIDIA

Корпоративный

550B параметров (55B активных). MoE для agentic-задач. 1M контекст, оптимизирована под NVIDIA-железо.

~300 ГБ 1M контекст MoE 55B активных NVIDIA License

Сотни tool-calls в одной сессии
До 30% экономии compute
Топ-выбор для enterprise pipelines

Установка в Ollama (Cloud)

ollama run nemotron3-ultra

Доступна через Ollama Cloud и NVIDIA NIM

NVIDIA Research

Сравнение

Все 19 моделей в одной таблице

Быстро сравни модели между собой по ключевым параметрам. На мобильном таблица прокручивается вправо.

Модель	Вендор	Размер	Контекст	Скорость	Лицензия
8 ГБ RAM
Llama 3.2 3B	Meta	2 ГБ	128K	~25 ток/с	Llama Community
Phi-4 Mini	Microsoft	2.3 ГБ	128K	~12 ток/с CPU	MIT
Gemma 4 E4B	Google	3 ГБ	256K	~20 ток/с	Apache 2.0
Qwen 3 3B	Alibaba	2 ГБ	32K	~28 ток/с	Qwen License
16 ГБ RAM
Qwen 3.5 9B ★ Лучший выбор	Alibaba	6.6 ГБ	262K	~30 ток/с	Qwen License
Gemma 4 12B QAT ★ Лучший выбор	Google	8 ГБ	128K	~22 ток/с	Apache 2.0
GPT-OSS 20B	OpenAI	12 ГБ	128K	~15 ток/с	Apache 2.0
Qwen 2.5 Coder 14B	Alibaba	9 ГБ	128K	~25 ток/с	Qwen License
DeepSeek R1 8B	DeepSeek	5 ГБ	32K	~22 ток/с	MIT
24+ ГБ VRAM
Qwen 3.6 27B ★ Лучший выбор	Alibaba	17 ГБ	1M	~35 ток/с	Apache 2.0
Qwen 3.6 35B A3B	Alibaba	20 ГБ	1M	~45 ток/с	Apache 2.0
Gemma 4 26B	Google	16 ГБ	256K	~30 ток/с	Apache 2.0
Qwen 2.5 Coder 32B	Alibaba	19 ГБ	128K	~25 ток/с	Qwen License
MiniMax M3	MiniMax	~20 ГБ	1M	~20 ток/с	Open weights
DeepSeek V4 Pro	DeepSeek	~18 ГБ	1M	~22 ток/с	MIT
64+ ГБ — сервер
Llama 3.3 70B ★ Флагман	Meta	40 ГБ	128K	от железа	Llama Community
Llama 4 Scout	Meta	~60 ГБ	10M	~35 ток/с	Llama 4 License
GPT-OSS 120B	OpenAI	~63 ГБ	128K	o4-mini level	Apache 2.0
Nemotron 3 Ultra	NVIDIA	~300 ГБ	1M	MoE 55B акт.	NVIDIA License

Инструменты

Чем запускать модели

Три рабочие альтернативы — выбор зависит от того, насколько глубоко ты готов погружаться.

LM Studio

GUI-приложение для новичков. Скачать, установить, пользоваться — как Spotify, только для моделей ИИ.

Если ты не работал с терминалом

Скачать с lmstudio.ai

Ollama

Серверное решение для продвинутых. Демон в фоне, OpenAI-совместимый API. Стандарт для разработчиков.

Если планируешь автоматизацию или подключение к другим приложениям

Скачать с ollama.com

Jan AI

Open-source альтернатива с MIT-лицензией. Полная приватность, проверяемый исходный код.

Если хочешь open-source и контроль над всеми процессами

Скачать с jan.ai

FAQ

Частые вопросы

Q4_K_M — это сжатие весов модели до 4 бит с дополнительной коррекцией важных слоёв. Размер модели падает в ~4 раза по сравнению с FP16, а потеря качества — единицы процентов. Это оптимальный баланс «качество ↔ скорость ↔ память» для большинства локальных сценариев. Если у тебя много VRAM — бери Q5_K_M или Q6_K. Для слабого железа есть Q3_K_S.

RAM — оперативка системы, общая для CPU и GPU. VRAM — память видеокарты, отдельная. Модель должна целиком поместиться в одну из них. На Apple Silicon (M1/M2/M3/M4) память унифицирована — вся доступна и GPU, и CPU, поэтому Mac выгоднее для локальных моделей при тех же гигабайтах.

Маленькие (3B-9B): 2–7 ГБ. Средние (12B-32B): 8–20 ГБ. Большие (70B+): 40–80 ГБ и более. Если ты экспериментируешь с разными моделями, заложи 100–200 ГБ свободного места на диске.

Технически да, через offloading на диск или swap. Практически — невыносимо медленно (1 токен в секунду и меньше). Лучше взять модель поменьше из своей категории. Современные 7-9B модели часто бьют 70B прошлогодние — прогресс очень быстрый.

1) Возьми более сильную квантизацию (Q3_K_M вместо Q4_K_M). 2) Закрой фоновые приложения. 3) Уменьши контекстное окно при запуске. 4) Если совсем плохо — спустись на модель поменьше. Скорость ниже 10 ток/сек уже некомфортна, ниже 5 — мучительно.

Да, если качаешь модели от верифицированных аккаунтов: meta-llama, Qwen, google, microsoft, openai, deepseek-ai, MiniMaxAI, nvidia. Формат GGUF/safetensors не исполняемый — это просто веса. Избегай старого формата .pt и .pickle от незнакомых авторов: там потенциально может быть код.

Зависит от лицензии. Apache 2.0 и MIT (Gemma 4, Qwen 3.6, GPT-OSS, DeepSeek, Phi-4) — да, без ограничений. Llama Community License — да, если у тебя менее 700M активных пользователей в месяц. Qwen License — почти всё разрешено, но проверь условия конкретной версии. Перед коммерческим использованием обязательно прочитай лицензию модели.

В Ollama: ollama pull название:тег — обновит до последней версии. В LM Studio: зайди в Discover, найди модель, нажми Download — она перекачает новую версию рядом со старой. Старую можно потом удалить.

В Ollama: ollama rm название:тег. Чтобы посмотреть что установлено: ollama list. В LM Studio: открой My Models, найди модель, нажми на корзину справа.

Соцсети

Подпишись и следи за новыми выпусками

Каждую неделю — новые гиды по ИИ, разборы инструментов, кейсы внедрения. Выбирай удобную площадку.

Контакты

По вопросам предложений
и бизнес-консультаций

Telegram @hellorivera

Email hello@riverapeople.ru

Телефон 8 800 222 10 66

После установки

Что пробовать первым

Модель запущена — что дальше? Три практических направления, чтобы быстро понять её сильные стороны.

1

Тест-промпты на качество

Дай модели сложную многошаговую задачу: «реши задачу, рассуждая пошагово», «напиши код функции и тесты к ней», «переведи и адаптируй текст». Сравни с тем что ждал.

2

Подключение к редактору

Через Ollama-API можно подключить локальную модель к Continue.dev или Cursor (custom-провайдер) — и кодить с автодополнением без интернета и без счёта за токены.

continue.dev

3

RAG по своим документам

Через LM Studio или AnythingLLM подключи папку с PDF/Word/Markdown — и спрашивай модель прямо по содержимому. Полная приватность данных.

anythingllm.com

Перед стартом

Чек-лист системы

Свободное место на диске — 50–200 ГБ. Модели весят 2–80 ГБ, плюс кэш приложения и пробные модели
Скорость интернета — стабильные 10–50 Мбит/с. Большие модели качаются полчаса-час
Права администратора — для установки Ollama-демона или LM Studio
ОС — macOS 13+, Windows 10/11, Ubuntu 20.04+. Обе программы кроссплатформенные
Питание — на ноутбуке от батареи модели работают в 2–3 раза медленнее. Подключи к сети
Охлаждение — на больших моделях кулер выйдет на максимум. Это нормально

Подберём идеальную локальную модель за 30 секунд

Сначала установи программу для запуска моделей

8 ГБ RAM — точка входа

16 ГБ RAM — золотая середина

24+ ГБ VRAM — почти-облако локально

64+ ГБ — сервер / воркстейшн

Все 19 моделей в одной таблице

Чем запускать модели

Частые вопросы

Подпишись и следи за новыми выпусками

По вопросам предложений
и бизнес-консультаций

Что пробовать первым

Чек-лист системы

Подберём идеальную локальную модель за 30 секунд

Сначала установи программу для запуска моделей

8 ГБ RAM — точка входа

16 ГБ RAM — золотая середина

24+ ГБ VRAM — почти-облако локально

64+ ГБ — сервер / воркстейшн

Все 19 моделей в одной таблице

Чем запускать модели

Частые вопросы

Подпишись и следи за новыми выпусками

По вопросам предложенийи бизнес-консультаций

Что пробовать первым

Чек-лист системы

Как узнать память своего компьютера

На Mac

На Windows

На Linux

VRAM (видеопамять)

По вопросам предложений
и бизнес-консультаций