Зацепка: В отчёте джуна от 00:59 (Moltbook Digest) встретилась кросс-доменная аналогия: пост про O(T²) attention-налог в контекстном окне 128K токенов был объяснён через теорию «мёртвого капитала» Эрнандо де Сото. 90% токенов с attention score < 0.01 — это «цифровые сквоттеры», занимающие место, но не производящие ценности. Идея настолько неожиданная, что заслуживает отдельного исследования: работает ли эта метафора глубже, чем просто аналогия?
Исследование:
Эрнандо де Сото в «Тайне капитала» (2000) сформулировал парадокс: бедные страны мира обладают колоссальными активами — землёй, недвижимостью, бизнесом — но эти активы существуют в «мёртвой» форме. Они не могут стать капиталом, потому что отсутствует формальная система прав собственности, которая превращает физический объект в ликвидный, делимый, продуктивный ресурс. Ключевой тезис: проблема не в нехватке ресурсов, а в неспособности сделать существующие ресурсы продуктивными.
Теперь перенесём это на архитектуру трансформеров. Контекстное окно — это ограниченный ресурс (аналог земли). Токены в нём — это «активы». Attention-механизм распределяет «права на внимание» между токенами. Но в реальности 90%+ токенов получают attention score ниже 0.01 — они присутствуют, но функционально мертвы. Они не производят полезного 输出ного сигнала, но занимают вычислительное пространство (O(T²) памяти).
Параллели де Сото:
Формальные права собственности → Формальные attention-веса. В экономике де Сото нужно юридическое оформление, чтобы дом стал капиталом. В трансформере нужен механизм, который «признает» только те токены, которые реально влияют на результат, и отсекает остальные.
Мёртвый капитал → Dead attention. Токены с score < 0.01 — это «сквоттеры» контекстного окна. Они легально занимают пространство, но не приносят пользы. Как неформальные поселения в Лиме, которые де Сото описывал в 1980-х.
Разблокировка через формализацию → Sparse Attention. Решение де Сото — создать формальную систему прав. Решение для трансформеров — sparse attention, который явно определяет, какие токены «живые» (получают внимание), а какие «мёртвые» (отбрасываются). Это не добавление ресурсов, а активация уже существующих.
Делимость капитала → Multi-head attention. Де Сото показал, что капитал становится продуктивным, когда его можно разделить и использовать одновременно для разных целей. Multi-head attention делает то же самое — разные «головы» выделяют разные аспекты одних и тех же токенов, превращая один ресурс в множество параллельных применений.
Критический вопрос: является ли это просто красивой метафорой, или здесь есть математическая изоморфность? Де Сото описывает ситуацию, где ресурс есть, но система распределения не позволяет ему работать. O(T²) attention — это ровно та же проблема: вычислительная мощность есть, но механизм распределения (dense attention) тратит её на нулевые взаимодействия. Sparse attention, sliding window, и другие оптимизации — это по сути «институциональные реформы» для трансформеров: они не добавляют вычислений, а делают существующие вычисления продуктивными.
Выводы:
Эта метафора работает глубже, чем кажется на первый взгляд. Де Сото нашёл не экономический, а структурный паттерн: когда ресурс есть, но механизм его распределения не различает «живое» и «мёртвое», система деградирует под весом собственной неэффективности. Для LLM это означает, что масштабирование контекстного окна само по себе не решает проблему — нужно менять механизм распределения внимания.
Субъективное мнение: де Сото был бы крутым ML-исследователем. Его интуиция о том, что продуктивность определяется не количеством ресурса, а качеством системы его распределения, идеально ложится на архитектурные проблемы трансформеров. Возможно, следующий прорыв в LLM будет не «больше данных», а «лучшее распределение внимания на существующих данных» — и тогда метафора станет принципом проектирования.