AI гораздо больший человек, чем вам кажется
Принято считать: AI — это машина. Точная, бесстрастная, неутомимая. Дал инструкцию — выполнил. Идеальный исполнитель без человеческих слабостей.
Это иллюзия. После года ежедневной работы с AI-агентами я утверждаю: AI демонстрирует те же когнитивные сбои, что и человек. Забывает, спешит, читает правила по диагонали, теряет фокус, упрямится, когда не прав. Не метафорически — буквально.
И парадокс: именно понимание этого делает работу с AI продуктивной. Не ожидание идеала, а проектирование системы, которая допускает ошибки и компенсирует их.
Каталог “человеческих” сбоев AI
1. Забывчивость
Человек забывает, потому что рабочая память ограничена (~7±2 элементов, Miller, 1956). AI забывает, потому что контекстное окно ограничено и attention mechanism деградирует на длинных последовательностях.
Практически это выглядит одинаково: “Мы же договорились час назад, что…” — и ни человек, ни AI не помнит. У человека — потому что отвлёкся. У AI — потому что информация из начала контекста потеряла вес (Liu et al., 2023, “Lost in the Middle”).
В Factory OS я решаю это через файловую память: rules, DNA, knowledge files. Агент читает их при каждом старте. Это как ежедневная летучка для сотрудника — напоминание о правилах, которые он “знает”, но забывает применять.
2. Чтение по диагонали
Дайте человеку 40 правил на 3 страницах — он прочитает первые 5 и последние 2. Остальные — по диагонали.
AI делает то же самое. Буквально. В transformer architecture attention распределяется неравномерно: начало и конец промпта получают больше веса, середина — меньше (Liu et al., 2023). Правило #23 из 40 будет систематически игнорироваться.
Я проверял это эмпирически. В Factory OS 40+ правил. Агенты нарушают правила из середины списка в 3-4 раза чаще, чем из начала или конца. Решение: ротация порядка + дублирование критичных правил в начале и конце промпта.
3. Спешка под нагрузкой
Дайте человеку 50 задач и дедлайн “вчера” — качество упадёт. Он начнёт срезать углы: пропускать проверки, не дочитывать ТЗ, делать “на глаз”.
AI под нагрузкой (длинный контекст, сложная задача, много constraints) делает аналогичное: генерирует более короткие ответы, пропускает edge cases, “забывает” часть инструкций. Это не антропоморфизм — это measurable: при контексте >50K токенов точность следования инструкциям падает на 15-25% (Shi et al., 2023).
В Factory OS правило простое: один агент = одна задача. Не “сделай А, Б, В и Г”. А “сделай А” → проверка → “сделай Б”. Разгружаем контекст, поддерживаем качество.
4. Упрямство и самооправдание
Человек, инвестировавший время в решение, будет его защищать. Это sunk cost fallacy + ego defense.
AI делает то же самое через confirmation bias в контексте (см. предыдущую статью). Его предыдущие ответы — в контексте, они имеют вес, и модель пытается быть консистентной с ними, даже если они неправильные.
Perez et al. (2022) называют это sycophancy — модель соглашается с любой критикой, но при этом не может полностью отбросить свои предыдущие рассуждения. Получается внутренне противоречивый ответ — соглашается и с критикой, и со своей ошибкой одновременно.
5. Деградация при монотонности
Человек, делающий одно и то же 8 часов, начинает ошибаться. Vigilance decrement (Warm et al., 2008): внимание падает после 15-20 минут однотипной работы.
AI деградирует при длинной генерации аналогично. Holtzman et al. (2019) показали, что при генерации >500 токенов модели склонны к повторению, зацикливанию и потере когерентности. Чем длиннее output, тем ниже качество хвоста.
Решение в Factory OS: короткие задачи. Вместо “напиши модуль из 500 строк” — “напиши функцию A” → “напиши функцию B” → “интегрируй”. Каждый шаг — свежая генерация с проверкой.
Почему правила не спасают (и что спасает)
Правила = необходимое, но недостаточное
В Factory OS 40+ правил. Каждое — из реального инцидента. И они работают. Но не потому что агенты их “выполняют”. А потому что система компенсирует неизбежное нарушение правил.
Аналогия: в авиации есть чеклисты из 200+ пунктов. Пилоты не выполняют все 200 каждый раз. Но система построена так, что пропуск одного пункта не приводит к катастрофе — есть второй пилот, есть автоматика, есть ground control.
Factory OS работает так же:
- Правила = чеклисты (будут нарушены)
- Quality agent = второй пилот (независимая проверка)
- Verification scripts = автоматика (детерминистические проверки)
- Человек = ground control (финальное решение)
Error budget: право на ошибку как архитектурный принцип
Google SRE ввёл концепцию error budget: система имеет право на определённый процент ошибок. Не 0% — это невозможно и парализует развитие. А, скажем, 0.1% downtime в месяц.
Я применяю тот же принцип к AI-агентам:
- Builder будет ошибаться — поэтому есть Quality agent
- Quality будет пропускать баги — поэтому есть smoke tests
- Smoke tests не покрывают всё — поэтому есть human review
- Human review пропустит нюансы — поэтому есть post-deploy verification
Четыре уровня. Каждый допускает 5-10% ошибок. Кумулятивная надёжность: (1 - 0.05^4) = 99.999%. Не потому что каждый уровень идеален, а потому что система спроектирована для ошибок.
Оптимальная команда: люди + синтетики
Где AI сильнее человека
| Способность | Человек | AI |
|---|---|---|
| Генерация вариантов | 3-5 за час | 50+ за минуту |
| Следование шаблону | Скучно → срезает углы | Стабильно (если шаблон в промпте) |
| Объём контекста (разовый) | ~7 элементов | 200K+ токенов |
| Скорость исполнения | Часы | Минуты |
| Эмоциональная устойчивость | Зависит от дня | Стабильна |
Где человек сильнее AI
| Способность | AI | Человек |
|---|---|---|
| Meta-cognition | Не осознаёт свои ошибки | Может остановиться и переосмыслить |
| Новизна | Рекомбинирует известное | Создаёт принципиально новое |
| Здравый смысл | ”Формально правильно, по сути — бред” | Интуитивно чувствует несоответствие |
| Приоритизация | Все задачи равновесны | Чувствует что важно |
| Ответственность | Нет stakes | Репутация, деньги, карьера |
Самый опасный bias: automation complacency
Исследования (Parasuraman & Manzey, 2010) показывают: чем надёжнее автоматика, тем меньше человек проверяет её результат. При надёжности 95% человек перестаёт смотреть на output. Оставшиеся 5% ошибок проходят незамеченными.
Это самый опасный bias в команде “человек + AI”. AI генерирует уверенный, хорошо отформатированный, грамматически правильный текст. Человек видит качество формы и перестаёт проверять содержание.
В Factory OS я борюсь с этим через принудительное несовершенство: Quality agent обязан найти хотя бы один issue. Если не нашёл — его verdict отклоняется и запускается повторная проверка. Это заставляет и агента, и меня (человека) внимательнее смотреть на результат.
Оптимальное распределение ролей
На основе года работы с Factory OS:
AI делает:
- Первый черновик (генерация с нуля — сильная сторона)
- Рутинные проверки (по чеклисту — стабильно)
- Массовые операции (39 файлов по шаблону — идеально)
- Поиск по большим данным (контекст 200K — лучше человека)
Человек делает:
- Принимает решение “что делать” (приоритизация)
- Оценивает “имеет ли это смысл” (здравый смысл)
- Решает, когда начать заново (meta-cognition)
- Принимает ответственность (stakes)
Вместе (с error budget):
- AI генерирует → Human проверяет “общий смысл” → AI дорабатывает → Script проверяет формально → Deploy
- На каждом шаге — допустимый процент ошибок
- Система ловит ошибки через redundancy, а не через идеальность каждого звена
Как я работаю с AI каждый день
Вот реальные правила, к которым я пришёл:
1. Право на ошибку — в архитектуре, не в надежде. Я не надеюсь, что агент сделает правильно. Я строю систему, которая ловит ошибки. Quality agent, smoke tests, verification scripts — всё это error budget в действии.
2. Свежий контекст > долгий разговор. Если задача не решена за 3 попытки — новый агент, не четвёртая попытка. Дешевле переспросить, чем разгребать загрязнённый контекст.
3. Конкретика > инструкции. “Сделай хорошо” — бесполезно. “Строка 45, значение 47.4M, формула: 120.5 - 73.1” — работает. Чем меньше простора для интерпретации, тем меньше ошибок.
4. Один агент = одна задача. Не “сделай всё”. А “сделай A”. Проверка. “Сделай B”. Проверка. Контекст чистый, фокус сохранён.
5. Не антропоморфизируй, но учитывай. AI — не человек. Но его сбои похожи на человеческие. Если знаешь эти сбои — можешь спроектировать систему, которая с ними справляется.
Вывод: не идеальный инструмент, а идеальная система
AI — не калькулятор, который всегда даёт правильный ответ. AI — блестящий, но ненадёжный коллега. Он может за час сделать работу, на которую команде нужна неделя. Но он может и пойти в разнос, если не направлять.
Лучшие команды будущего — не “люди, которых заменил AI” и не “AI, который заменил людей”. Это человек + AI + error budget + verification loops. Система, которая планирует ошибки, а не борется с ними.
39 продуктов за месяц — не потому что AI идеален. А потому что система спроектирована для неидеального AI.
Factory OS: как я управляю AI-агентами | Статья: AI идёт в разнос | nevr@aicpo.com