Казалось бы, формула успеха в AI последних лет проста до безобразия: больше данных, больше чипов H100, больше параметров. Но эта стратегия упирается в физические и экономические лимиты. Энергосети перегружены, цепочки поставок трещат, а стоимость обучения Frontier-моделей улетает в стратосферу.
И пока гиганты Кремниевой долины меряются количеством дата-центров, китайская лаборатория DeepSeek, уже наделавшая шума своим демпингом, выкатила новый препринт — Manifold Constrained Hyperconnections (MHC). Если убрать маркетинговую шелуху, они заявляют: «Мы придумали, как сделать нейросети умнее, не раздувая их до размеров Вселенной».
Давайте разберемся, что это за магия, почему их следующая большая модель R2 задерживается и какую цену мы платим за использование «самого дешевого AI».
Проблема «взрывающегося» интеллекта
Чтобы понять суть MHC, нужно вспомнить, как работают современные трансформеры. Обычно используется Residual Connection (остаточная связь): слой получает новые данные, обрабатывает их и добавляет к тому, что уже знал. Это как конвейер: «не забудь старое, добавь новое». Это надежно, это не ломает обучение, но это ограничивает сложность мышления модели.
Идея Hyperconnections (HC) — гиперсвязей — витала в воздухе давно. Что если вместо одной линии памяти у нас будет несколько потоков, которые постоянно перемешиваются и обмениваются инсайтами между слоями? Звучит круто: больше связей, сложнее паттерны, выше интеллект при тех же ресурсах.
Но на практике это превращалось в хаос.
Без жестких ограничений гиперсвязи работают как сломанный регулятор громкости. Сигнал либо бесконечно усиливается (exploding gradients), разрывая модель изнутри, либо затухает в ноль.
На масштабах свыше 10 миллиардов параметров такая архитектура просто «взрывалась» при обучении. Идея была правильной, но нерабочей. До сегодняшнего дня.
MHC: Физика на страже нейросетей
DeepSeek предложили элегантное решение — добавить физику в хаос. MHC (Manifold Constrained Hyperconnections) — это те же гиперсвязи, но посаженные на цепь законов сохранения энергии.
Суть проста: вы можете смешивать потоки данных как угодно, но вы не имеете права менять общую силу сигнала. Математически это реализуется через строгие ограничения матриц:
- Все значения должны быть положительными (никакой странной отмены сигналов).
- Сумма значений в каждой строке и каждом столбце должна быть равна единице.
Это гарантирует, что сигнал не будет ни усиливаться до бесконечности, ни исчезать. DeepSeek, по сути, вернули «рельсы безопасности» ResNet, но сохранили сложную структуру перекрестных связей. Это позволяет масштабировать архитектуру без риска получить на выходе цифровой шум вместо интеллекта. Это не грубая сила (Brute Force), это — архитектурная оптимизация.
Где DeepSeek R2 и при чем тут Huawei?
На фоне этих академических успехов повис тяжелый вопрос: где обещанная модель DeepSeek R2? Изначально её ждали к маю 2025 года (а слухи ходили и о более ранних сроках), но теперь инсайдеры указывают на перенос релиза на начало 2026 года.
Причины прозаичны и лежат в плоскости геополитики:
- Железо. Санкции США работают. DeepSeek вынуждена тренировать модели на китайских чипах Huawei Ascend. Это неплохое железо, но экосистема вокруг него сырая, а оптимизация требует времени.
- Перфекционизм. Основатель Лян Вэньфэн (Liang Wenfeng), по слухам, недоволен текущей производительностью R2. Выпускать «проходной» продукт после фурора с V3/R1 компания не хочет.
Сейчас фокус лаборатории сместился на три направления: математика/код (как идеальный полигон для AGI), мультимодальность (связь с реальным миром) и чистый NLP. Лян открыто заявляет: AGI возможен в течение 10 лет, но путь к нему лежит через проверяемые системы, а не просто через чат-ботов.
Слон в комнате: безопасность и цензура
DeepSeek восхищает инженеров своей эффективностью (тренировка за $6 млн против $100 млн у конкурентов), но пугает специалистов по безопасности.
Давайте будем честны: бесплатный сыр бывает только в мышеловке, особенно если эта мышеловка регулируется законами КНР. Недавние отчеты исследователей безопасности рисуют тревожную картину:
- Сбор данных: Политика конфиденциальности (если вчитаться) позволяет собирать паттерны нажатия клавиш и данные об устройстве.
- Закон о разведке: Любая китайская компания обязана по закону сотрудничать с разведслужбами. Ваши промпты — это не просто текст, это данные для обучения их систем.
- Цензура: Попробуйте спросить модель о площади Тяньаньмэнь или статусе Тайваня. Вы получите ответ, строго выверенный по методичкам партии.
Западные правительства (США, Австралия, Тайвань) уже начали блокировать использование DeepSeek в госсекторе, а Франция и Италия ведут расследования.
Вердикт: DeepSeek — это блестящая наука в очень спорной обертке. Их вклад в архитектуру нейросетей (MHC) неоспорим и будет двигать индустрию вперед. Но как продукт для бизнеса или чувствительных данных? Тут каждый решает сам, готов ли он платить своей приватностью за дешевые токены.