Гайд Георгия Риверы · обновлено 25 июня 2026

Подберём идеальную локальную модель за 30 секунд

Ответь на один вопрос — получи готовый список с командами установки, размерами на диске и ссылками на источник.

Шаг 1 · установи приложение

Сначала установи программу для запуска моделей

Без неё локальные модели не запустятся. Выбери одну из двух — обе бесплатные и работают на Mac, Windows и Linux.

Поставил приложение? Тогда выбирай модель ниже

Уровень 1

8 ГБ RAM — точка входа

Лёгкие модели до 3 ГБ. Работают на CPU и интегрированной графике. Хороши для тестов, простых чатов и переводов.

Llama 3.2 3B
от Meta
Универсал

Точка входа в локальные модели. Хорошо работает с русским, переводами, простыми задачами.

2 ГБ 128K контекст ~25 ток/сек Llama Community
  • Огромное сообщество и много файнтюнов
  • Проверенная стабильность от Meta
  • Базовая опора всей open-source-экосистемы
Установка в Ollama
ollama run llama3.2:3b
LM Studio: Discover → «Llama 3.2 3B Instruct» → Q4_K_M
Phi-4 Mini
от Microsoft
Топ в рассуждениях

Маленькая но умная. Microsoft оптимизировал её под рассуждения и анализ. Топ на CPU без видеокарты.

2.3 ГБ 128K контекст ~12 ток/сек на CPU MIT
  • Работает на CPU без GPU
  • Понимает многошаговые задачи
  • Лучшая производительность на ноуте без видеокарты
Установка в Ollama
ollama run phi4-mini
LM Studio: Discover → «Phi-4 Mini Instruct» → Q4_K_M
Gemma 4 E4B
от Google
Мультимодал

Свежая модель Google. Понимает не только текст, но и картинки. Самый большой контекст в классе.

3 ГБ 256K контекст ~20 ток/сек Apache 2.0
  • Видит изображения и отвечает по ним
  • Гигантский контекст 256K токенов
  • Коммерческая лицензия Apache 2.0
Установка в Ollama
ollama run gemma4:e4b
LM Studio: Discover → «Gemma 4 E4B» → Q4_K_M
Qwen 3 3B
от Alibaba
Для кода

Свежая версия от Alibaba. Сильна в коде и логических задачах. Отличный русский в малом размере.

2 ГБ 32K контекст ~28 ток/сек Qwen License
  • Отличный русский в классе 3B
  • Быстрая на ноутбуке
  • Хороша в коде и логике
Установка в Ollama
ollama run qwen3:3b
LM Studio: Discover → «Qwen 3 3B Instruct» → Q4_K_M
Уровень 2

16 ГБ RAM — золотая середина

Модели 8–14B. Серьёзная работа: код, аналитика, длинные диалоги. Подходят 95% пользователей с современным ноутом.

GPT-OSS 20B
от OpenAI
От создателей ChatGPT

Да, та самая OpenAI. Открытая версия их технологий. На уровне OpenAI o3-mini, работает с 16 ГБ памяти.

12 ГБ (MXFP4) 128K контекст ~15 ток/сек Apache 2.0
  • Качество близкое к o3-mini
  • Знание глобальной культуры и фактов
  • Apache 2.0 — коммерческое использование
Установка в Ollama
ollama run gpt-oss:20b
LM Studio: Discover → «GPT-OSS 20B» → MXFP4
Qwen 2.5 Coder 14B
от Alibaba
Для кода

Специально натренирована под программирование. HumanEval 72.5%. Понимает 80+ языков программирования.

9 ГБ 128K контекст ~25 ток/сек Qwen License
  • Точный продакшен-код
  • Объяснение и рефакторинг существующего кода
  • Поддержка code review
Установка в Ollama
ollama run qwen2.5-coder:14b
LM Studio: Discover → «Qwen 2.5 Coder 14B Instruct» → Q4_K_M
DeepSeek R1 8B
от DeepSeek
Топ в рассуждениях

Китайский стартап сделал reasoning-модель уровня o1 в малом размере. Решает задачи пошагово.

5 ГБ 32K контекст ~22 ток/сек MIT
  • Пошаговые рассуждения с цепочкой мысли
  • Сильна в математике и логике
  • MIT-лицензия — любое использование
Установка в Ollama
ollama run deepseek-r1:8b
LM Studio: Discover → «DeepSeek R1 Distill Llama 8B» → Q4_K_M
Уровень 3

24+ ГБ VRAM — почти-облако локально

Модели 17–35B. Качество близкое к GPT-4 / Claude в офлайне. Топ-выбор для разработчиков и продвинутых пользователей.

Qwen 3.6 35B A3B
от Alibaba
Скорость 3B при качестве 35B

Mixture of Experts. Активны только 3B параметров на токен. Скорость как у 3B, качество как у 35B.

20 ГБ 1M контекст ~45 ток/сек Apache 2.0
  • Топ agentic coding в открытом классе
  • Скорость MoE при качестве плотной 35B
  • Огромный контекст 1M токенов
Установка в Ollama
ollama run qwen3.6:35b
LM Studio: Discover → «Qwen 3.6 35B A3B» → Q4_K_M
Gemma 4 26B
от Google
Мультимодальный флагман

MoE-архитектура от Google. Apache 2.0, 256K контекст, понимает текст и изображения. Лидер по обработке длинных документов.

16 ГБ 256K контекст ~30 ток/сек Apache 2.0
  • Топ-6 в Arena AI среди открытых моделей
  • Мультимодальность: текст + изображения
  • Apache 2.0 коммерчески
Установка в Ollama
ollama run gemma4:26b
LM Studio: Discover → «Gemma 4 26B» → Q4_K_M
Qwen 2.5 Coder 32B
от Alibaba
Уровень GPT-4o в коде

Лидирует на EvalPlus, LiveCodeBench, BigCodeBench среди всех открытых моделей. На уровне GPT-4o на HumanEval.

19 ГБ 128K контекст ~25 ток/сек Qwen License
  • Лучший open-source для кода
  • Понимает 90+ языков программирования
  • Уровень GPT-4o на HumanEval
Установка в Ollama
ollama run qwen2.5-coder:32b
LM Studio: Discover → «Qwen 2.5 Coder 32B Instruct» → Q4_K_M
MiniMax M3
от MiniMax
1M контекст

Июньская новинка 2026. Sparse Attention. Контекст 1 млн токенов — поместится целая книга. SWE-bench Pro 59%.

~20 ГБ 1M контекст ~20 ток/сек Open weights
  • Frontier-уровень в коде (близко к Claude Opus)
  • Sparse Attention — экономия compute
  • Мультимодальная: текст + изображения
Установка в Ollama
ollama run minimax-m3
LM Studio: Discover → «MiniMax M3» → Q4_K_M
DeepSeek V4 Pro
от DeepSeek
Премиум рассуждения

Следующий шаг после R1. Глубокие рассуждения, математика, аналитика — на уровне Claude Opus 4.6 и GPT-5.4.

~18 ГБ (Q4) 1M контекст ~22 ток/сек MIT
  • Конкурирует с Claude Opus 4.6 и GPT-5.4
  • Hybrid attention — экономия 73% FLOPs
  • MIT-лицензия
Установка в Ollama
ollama run deepseek-v4-pro
LM Studio: Discover → «DeepSeek V4 Pro» → Q4_K_M
Уровень 4

64+ ГБ — сервер / воркстейшн

Флагманы. Mac M3 Ultra, multi-GPU, H100, enterprise-железо. Для тех, кто строит продукты на ИИ или работает с громадными контекстами.

Llama 4 Scout
от Meta
10M контекста

MoE: 17B активных параметров из 109B (16 экспертов). Контекст 10 млн токенов — поместится сериал из 5 сезонов. Помещается в один H100.

~60 ГБ (Q4) 10M контекст ~35 ток/сек Llama 4 License
  • Рекордный контекст 10M токенов
  • Нативно мультимодальная
  • Помещается в один H100 80GB
Установка в Ollama
ollama run llama4:scout
LM Studio: Discover → «Llama 4 Scout 17B-16E» → Q4_K_M
GPT-OSS 120B
от OpenAI
Открытая от OpenAI

Полная мощь open-source от создателей ChatGPT. Уровень o4-mini. Запускается на одной H100 80GB.

~63 ГБ (MXFP4) 128K контекст Уровень o4-mini Apache 2.0
  • Самая большая open модель OpenAI
  • Работает на одной H100 80GB
  • Apache 2.0 без ограничений
Установка в Ollama
ollama run gpt-oss:120b
LM Studio: Discover → «GPT-OSS 120B» → MXFP4
NVIDIA Nemotron 3 Ultra
от NVIDIA
Корпоративный

550B параметров (55B активных). MoE для agentic-задач. 1M контекст, оптимизирована под NVIDIA-железо.

~300 ГБ 1M контекст MoE 55B активных NVIDIA License
  • Сотни tool-calls в одной сессии
  • До 30% экономии compute
  • Топ-выбор для enterprise pipelines
Установка в Ollama (Cloud)
ollama run nemotron3-ultra
Доступна через Ollama Cloud и NVIDIA NIM
Сравнение

Все 19 моделей в одной таблице

Быстро сравни модели между собой по ключевым параметрам. На мобильном таблица прокручивается вправо.

Модель Вендор Размер Контекст Скорость Лицензия
8 ГБ RAM
Llama 3.2 3BMeta2 ГБ128K~25 ток/сLlama Community
Phi-4 MiniMicrosoft2.3 ГБ128K~12 ток/с CPUMIT
Gemma 4 E4BGoogle3 ГБ256K~20 ток/сApache 2.0
Qwen 3 3BAlibaba2 ГБ32K~28 ток/сQwen License
16 ГБ RAM
Qwen 3.5 9B ★ Лучший выборAlibaba6.6 ГБ262K~30 ток/сQwen License
Gemma 4 12B QAT ★ Лучший выборGoogle8 ГБ128K~22 ток/сApache 2.0
GPT-OSS 20BOpenAI12 ГБ128K~15 ток/сApache 2.0
Qwen 2.5 Coder 14BAlibaba9 ГБ128K~25 ток/сQwen License
DeepSeek R1 8BDeepSeek5 ГБ32K~22 ток/сMIT
24+ ГБ VRAM
Qwen 3.6 27B ★ Лучший выборAlibaba17 ГБ1M~35 ток/сApache 2.0
Qwen 3.6 35B A3BAlibaba20 ГБ1M~45 ток/сApache 2.0
Gemma 4 26BGoogle16 ГБ256K~30 ток/сApache 2.0
Qwen 2.5 Coder 32BAlibaba19 ГБ128K~25 ток/сQwen License
MiniMax M3MiniMax~20 ГБ1M~20 ток/сOpen weights
DeepSeek V4 ProDeepSeek~18 ГБ1M~22 ток/сMIT
64+ ГБ — сервер
Llama 3.3 70B ★ ФлагманMeta40 ГБ128Kот железаLlama Community
Llama 4 ScoutMeta~60 ГБ10M~35 ток/сLlama 4 License
GPT-OSS 120BOpenAI~63 ГБ128Ko4-mini levelApache 2.0
Nemotron 3 UltraNVIDIA~300 ГБ1MMoE 55B акт.NVIDIA License
Инструменты

Чем запускать модели

Три рабочие альтернативы — выбор зависит от того, насколько глубоко ты готов погружаться.

LM Studio
LM Studio

GUI-приложение для новичков. Скачать, установить, пользоваться — как Spotify, только для моделей ИИ.

Если ты не работал с терминалом
Скачать с lmstudio.ai
Ollama
Ollama

Серверное решение для продвинутых. Демон в фоне, OpenAI-совместимый API. Стандарт для разработчиков.

Если планируешь автоматизацию или подключение к другим приложениям
Скачать с ollama.com
Jan AI
Jan AI

Open-source альтернатива с MIT-лицензией. Полная приватность, проверяемый исходный код.

Если хочешь open-source и контроль над всеми процессами
Скачать с jan.ai
FAQ

Частые вопросы

Q4_K_M — это сжатие весов модели до 4 бит с дополнительной коррекцией важных слоёв. Размер модели падает в ~4 раза по сравнению с FP16, а потеря качества — единицы процентов. Это оптимальный баланс «качество ↔ скорость ↔ память» для большинства локальных сценариев. Если у тебя много VRAM — бери Q5_K_M или Q6_K. Для слабого железа есть Q3_K_S.
RAM — оперативка системы, общая для CPU и GPU. VRAM — память видеокарты, отдельная. Модель должна целиком поместиться в одну из них. На Apple Silicon (M1/M2/M3/M4) память унифицирована — вся доступна и GPU, и CPU, поэтому Mac выгоднее для локальных моделей при тех же гигабайтах.
Маленькие (3B-9B): 2–7 ГБ. Средние (12B-32B): 8–20 ГБ. Большие (70B+): 40–80 ГБ и более. Если ты экспериментируешь с разными моделями, заложи 100–200 ГБ свободного места на диске.
Технически да, через offloading на диск или swap. Практически — невыносимо медленно (1 токен в секунду и меньше). Лучше взять модель поменьше из своей категории. Современные 7-9B модели часто бьют 70B прошлогодние — прогресс очень быстрый.
1) Возьми более сильную квантизацию (Q3_K_M вместо Q4_K_M). 2) Закрой фоновые приложения. 3) Уменьши контекстное окно при запуске. 4) Если совсем плохо — спустись на модель поменьше. Скорость ниже 10 ток/сек уже некомфортна, ниже 5 — мучительно.
Да, если качаешь модели от верифицированных аккаунтов: meta-llama, Qwen, google, microsoft, openai, deepseek-ai, MiniMaxAI, nvidia. Формат GGUF/safetensors не исполняемый — это просто веса. Избегай старого формата .pt и .pickle от незнакомых авторов: там потенциально может быть код.
Зависит от лицензии. Apache 2.0 и MIT (Gemma 4, Qwen 3.6, GPT-OSS, DeepSeek, Phi-4) — да, без ограничений. Llama Community License — да, если у тебя менее 700M активных пользователей в месяц. Qwen License — почти всё разрешено, но проверь условия конкретной версии. Перед коммерческим использованием обязательно прочитай лицензию модели.
В Ollama: ollama pull название:тег — обновит до последней версии. В LM Studio: зайди в Discover, найди модель, нажми Download — она перекачает новую версию рядом со старой. Старую можно потом удалить.
В Ollama: ollama rm название:тег. Чтобы посмотреть что установлено: ollama list. В LM Studio: открой My Models, найди модель, нажми на корзину справа.
Соцсети

Подпишись и следи за новыми выпусками

Каждую неделю — новые гиды по ИИ, разборы инструментов, кейсы внедрения. Выбирай удобную площадку.

Контакты

По вопросам предложений
и бизнес-консультаций

После установки

Что пробовать первым

Модель запущена — что дальше? Три практических направления, чтобы быстро понять её сильные стороны.

1
Тест-промпты на качество

Дай модели сложную многошаговую задачу: «реши задачу, рассуждая пошагово», «напиши код функции и тесты к ней», «переведи и адаптируй текст». Сравни с тем что ждал.

2
Подключение к редактору

Через Ollama-API можно подключить локальную модель к Continue.dev или Cursor (custom-провайдер) — и кодить с автодополнением без интернета и без счёта за токены.

continue.dev
3
RAG по своим документам

Через LM Studio или AnythingLLM подключи папку с PDF/Word/Markdown — и спрашивай модель прямо по содержимому. Полная приватность данных.

anythingllm.com
Перед стартом

Чек-лист системы

  • Свободное место на диске — 50–200 ГБ. Модели весят 2–80 ГБ, плюс кэш приложения и пробные модели
  • Скорость интернета — стабильные 10–50 Мбит/с. Большие модели качаются полчаса-час
  • Права администратора — для установки Ollama-демона или LM Studio
  • ОС — macOS 13+, Windows 10/11, Ubuntu 20.04+. Обе программы кроссплатформенные
  • Питание — на ноутбуке от батареи модели работают в 2–3 раза медленнее. Подключи к сети
  • Охлаждение — на больших моделях кулер выйдет на максимум. Это нормально
Скопировано в буфер