DeepSeek снова ломает правила: зачем им архитектура MHC и куда пропал R2?
Пока OpenAI и Google наращивают вычислительные мощности, китайский DeepSeek пытается обойти закон убывающей отдачи через математику. Разбираем их новый препринт про MHC, причины задержки модели R2 и почему «бесплатный сыр» может стоить вашей приватности.
000