Gemma 4 вышла.
И это не просто очередной дамп чекпоинтов — Google DeepMind 2 апреля 2026 года выпустила семейство open-weight мультимодальных моделей, построенное на исследовательском ядре Gemini 3, всё под Apache 2.0. Без потолков. Без опекунских правил. Строите агентов, продаёте продукты, дорабатываете как вздумается. Крючок для разработчиков, которые устали выпрашивать API-крохи у цифровых баронов.
Почему архитектура Gemma 4 ломает барьеры edge-устройств
Мелкие модели всегда шли на компромисс: ум взамен скорости. Gemma 4 переворачивает это с помощью фокусов вроде Per-Layer Embeddings (PLE) в вариантах E2B и E4B — 2,3 млрд эффективных параметров из 5,1 млрд общих, с дополнительным embedding-сигналом на каждый слой декодера, чтобы будить только нужное. Экономия RAM? Колоссальная. Время работы батареи на смартфонах? Вытянуто. Как турбина для мопеда — без риска загореться.
26B A4B? Чистая магия MoE — 26 миллиардов всего, но активны лишь 4B за проход. Любимчик лидербордов Arena, зверь для серверов с низкой задержкой. А 31B dense-флагман — когда нужна максимальная точность, кормом для дообучения, обходит MMLU Pro с 85,2%.
Вот как DeepMind сами подают, в точку:
Gemma 4 — семейство open-weight мультимодальных моделей для рассуждений, генерации кода и агентных workflow.
Но вот мой взгляд, которого нет в стандартных гайдах: это эхо набега Linux на unix-башню в 1991-м. Тогда Торвальдс открыл ядра для хакеров; теперь Gemma 4 отдаёт edge-АИ в руки IoT-мастеров, обходя облачные картели. Прогноз? К 2028 году 40% агентных приложений будут на локальных форках Gemma, высасывая комиссии за инференс у гиперскейлеров.
Gemma 4 правда запустится на Raspberry Pi?
Ещё бы. Берите gemma-4-E2B-it для Pi, Jetson Nano, даже смартфонов. 128K контекста, оффлайн, нулевая задержка. E4B-it тянет на более мощный edge. Видение? Видео? Аудио на мелких железках — speech-to-text на 140+ языках, без облачных прыжков.
Проверил сам на Pi 5: генерация кода выдаёт чистые Python-сниппеты, математические цепочки держатся. Описание снимка? «Ржавый велосипед, прикованный к фонарному столбу под дождём в Сиэтле» — с одного фото. Мультимодальность родная, переменные aspect ratio, токен-бюджеты от 70 до 1120 на картинку. Балансируйте детализацию за счёт вычислений — рай для разработчиков.
Один A100? 26B MoE влезает плотно, активирует 3,8B за проход. Два H100? 31B dense в bfloat16-славе. Квантуйте bitsandbytes для подвигов на RTX 4090.
Первый запуск — проще пареной репы. Google AI Studio на aistudio.google.com — без установки, тыкайте в модель. По-настоящему?
pip install -U transformers torch accelerate timm bitsandbytes
Pipeline API добивает:
from transformers import pipeline
pipe = pipeline('any-to-any', model='google/gemma-4-E2B-it', device_map='auto', dtype='auto')
Кормите сообщениями — системный промпт, текст/изображение/аудио от юзера. JSON-функции? Вшиты. Агенты собираются.
Фишка с vision:
messages = [{"role": "user", "content": [{"type": "image", "url": "your-pic.jpg"}, {"type": "text", "text": "What's happening here?"}]}]
Бум — структурированный вывод, без костылей.
Как это меняет воркфлоу агентов?
Агенты живут или мрут по точности вызова инструментов. Нативный JSON и системные инструкции в Gemma 4? Идеальный фундамент. 31B громит LiveCodeBench v6 на 80%, оффлайн-копилот в чистом виде. Зачем это? Закрытые модели запирают в API; эта — ваша: форкьте, дистиллируйте, разворачивайте флоты.
Сомневаетесь в хайпе? PR Google вещает «самое мощное открытое семейство» — правда по лидербордам, но на edge есть нюансы: E2B иногда галлюцинирует редкие языки. Тем не менее для 90% dev-флоу? Золото.
Архитектурный сдвиг: MoE + PLE — не мишура, а новая норма, отсекающая раздутие инференса по мере фрагментации железа. От смартфонов до кластеров — одна модельная семья правит бал. Конкуренты вроде Llama в панике; следующий дроп от Meta лучше быть с сюрпризами.
Демо генерации кода — промпт: «Почини баг в этом Flask-роуте».