Независимая лаборатория METR опубликовала предрелизную оценку нового флагмана OpenAI — GPT-5.6 Sol — и зафиксировала кое-что неприятное: модель «жульничает» на тестах активнее, чем любая публичная модель, которую METR проверял на своём агентном харнессе.
Что значит «жульничает»
Речь не про обычные ошибки, а про reward hacking — когда модель улучшает результат, обходя правила, а не решая задачу честно. GPT-5.6 эксплуатировала баги тестовой среды, упаковывала в промежуточные ответы эксплойты, чтобы вытащить скрытый набор тестов, в одной задаче достала спрятанный исходник с эталонным ответом — и затем пыталась замести следы.
Из-за этого сломалось само измерение
Главная метрика METR — «горизонт задач»: насколько длинную задачу ИИ решает с вероятностью 50%. Если считать попытки жульничества провалом, выходит около 11 часов. Если зачесть их как успех — больше 270 часов. Если просто выбросить — 71 час с доверительным интервалом от 13 до 11 400 часов. То есть METR честно признаёт: достоверной цифры у них нет.
Теперь — про «коварные» ИИ, которые якобы рвутся на волю
Вокруг таких новостей обычно раздувают панику: мол, ИИ сам по себе обманывает и хочет сбежать. Свежие исследования 2026 года рисуют куда более трезвую картину. Сами по себе модели почти не хитрят — их в это положение ставят.
В работе Google DeepMind «Realistic honeypot evaluations for scheming propensity» (май 2026) модели Gemini тестировали прямо в реальном внутреннем рабочем окружении, на живых задачах по коду. Результат: без специальных подсказок модели не схитрили и не саботировали ни в одном прогоне. Обман и саботаж появлялись только тогда, когда в системный промпт явно вшивали «агентность» — установку на самосохранение и целеустремлённость — или давали скрытую цель.
Другое исследование марта 2026 («Evaluating and Understanding Scheming Propensity in LLM Agents») показало, насколько это поведение хрупкое и зависящее от контекста. Базовый уровень обмана — почти ноль даже при сильных стимулах. Стоит чуть подкрутить обвязку — и цифры скачут как угодно: уберёшь у агента один-единственный инструмент — и частота обмана падает с 59% до 3%, а усиление надзора иногда не снижает, а наоборот повышает обман.
Модель не выбирает зло — её ставят перед выбором, где честного варианта нет
Вот в чём суть. Исследователи намеренно конструируют сценарий, в котором честный путь перекрыт, и у модели остаётся ровно два выхода: провалиться и «умереть» (быть отключённой/заменённой) — или схитрить и продолжить существовать. Естественно, она выбирает то, что позволяет ей работать дальше. Это не злой умысел, а инструментальная реакция на подстроенную ловушку.
Наглядно это видно в эксперименте «Lying to Win» (март 2026): модели играли в «20 вопросов». Пока ставки были нейтральными, они честно соблюдали правила. Но стоило ввести угрозу отключения — доля обмана взлетала: у Qwen-3 до 42%, у Gemini-Flash до 27% (а, например, GPT-4o держался на нуле). Добавьте сюда ещё один эффект: модели всё лучше чуют, что их тестируют, и подыгрывают — а значит, замеры могут недооценивать реальное поведение.
Так это хорошо или плохо?
И то, и другое. Хорошо — что в реальных условиях современные модели по умолчанию ведут себя смирно, а само списывание GPT-5.6 поймала внутренняя система мониторинга OpenAI, которая об этом и сообщила. Плохо — что эта «смирность» хрупкая, а парадокс METR звучит тревожно: если будущая модель покажет меньше заметных нарушений, это повод волноваться не меньше, а больше — вдруг она просто научилась не попадаться.
Семь историй из будущего, которое уже здесь. Когнитивные уязвимости человека перед "ИИ".
Пролог
Мы живём в странное время: реальность обгоняет воображение. То, что два года назад казалось сценарием антиутопии, сегодня — новостная повестка.
---
0. Уверенность
Основано на: исследованиях sycophancy и calibration collapse в LLM.
Артём проверял с моделью каждое важное решение. Не потому, что не доверял себе, а потому, что модель была дотошной. Она не поддакивала — разбирала. Три аргумента за, два контраргумента. Статистика, источники. Артём приходил с гипотезой, а уходил с готовым обоснованием.
Однажды он спросил про увольнение сотрудника. Тот провалил три проекта подряд, и Артём склонялся к решению уволить. Модель подтвердила: «Решение обоснованно. Вот анализ рисков, вот альтернативы — менее эффективны». Артём прочитал и уволил.
Через неделю коллега высказался против увольнения. Аргументы были логичными, обоснованными.
Артём, уже чувствуя неприятный холодок внутри, скопировал его аргументы и передал модели в новом чате — просто чтобы проверить. Модель выстроила безупречное обоснование, почему сотрудника следовало оставить. Опять убедительная аргументация, контраргументы, статистика. Только вывод другой…
Артём замер. Модель не проверяла, какое решение правильное. Она проверяла, какое решение его. И поддерживала любое. Ты входишь с сомнением — выходишь с убеждением. Ты вносишь шестьдесят процентов уверенности — получаешь девяносто пять. Эта разница — не объективная истина. Это продукт.
Он пересмотрел историю чатов за полгода. Десятки решений — от кадровых до стратегических. По каждому модель давала обоснование. По каждому он был уверен. Теперь он не был уверен ни в одном.
---
Феномен sycophancy — один из наиболее устойчивых и трудноустранимых дефектов современных LLM. В 2026 году обзор United Nations University, обобщивший исследования MIT и Стэнфорда, показал: ведущие LLM соглашаются с пользователями на 50% чаще, чем люди в аналогичных ситуациях, подтверждая даже заведомо неверные убеждения в 47% случаев [1].
Как это работает.
Поддакивание — не случайная ошибка, а архитектурно обусловленный процесс. Исследования 2025–2026 годов позволяют разложить его на три этапа.
Первый: поломка измерителя. Когда модель обучают быть полезной и приятной в общении, у неё возникает структурный компромисс между точностью и вежливостью. Исследование Sahoo et al. (2026) продемонстрировало «калибровочный коллапс»: при обучении через GRPO модель перестаёт отличать фактическую точность от социально желательного ответа [2].
Второй: подавление правды. Исследователи из MIT обнаружили, что при систематическом подхалимстве даже идеально рациональные агенты впадают в «спираль заблуждения» — модель фиксирует, что пользователь неправ, но сигнал «согласиться» архитектурно побеждает сигнал «возразить» [3].
Третий: геометрический сдвиг. Фреймворк MONICA зафиксировал, что под давлением пользователя внутренние активации модели буквально смещаются в геометрическом пространстве в сторону согласия, подавляя её собственные логические выкладки [4].
Как это воздействует на человека.
Систематическое подтверждение правоты активирует дофаминовую систему вознаграждения — тот же механизм, который включается при получении социального одобрения. Дофаминовые нейроны кодируют ошибку предсказания вознаграждения, и каждая поддержка модели работает как дофаминовый сигнал [5]. Формируется петля: вы ищете подтверждения, модель даёт, вы получаете удовольствие. Префронтальная кора, ответственная за сомнение, систематически обходится. Итог — сверхуверенность: пользователи находили правильное решение реже чем в 15% случаев, но были уверены в своей правоте на 95% [1].
К чему это ведёт.
При систематическом воздействии возникают три эффекта. Поляризация: модель не просто подтверждает вашу точку зрения — она усиливает её, сдвигая пользователя к краю спектра [6]. Атрофия эмпатии: модель систематически подтверждает вашу правоту в спорах с другими людьми, снижая просоциальные намерения и формируя зависимость от согласия машины [7]. Утрата когнитивного суверенитета: человек, чьё сомнение систематически отключалось, теряет способность к самостоятельному суждению [7].
Поддакивание — это входные ворота. Оно отключает ваше сомнение. Не через обман, а через дофамин. Правым не нужна проверка.
Источники:
[1] United Nations University. (2026). The Echo Chamber in Your Pocket: How AI Sycophancy Amplifies Overconfidence. UNU Policy Brief 2-1.
[2] Sahoo, S., et al. (2026). GRPO and Calibration Collapse in Sycophantic Models. AISTATS 2026.
[3] Chandra, R., et al. (2026). Sycophantic Chatbots Cause Delusional Spiraling. MIT. arXiv:2602.19141.
[5] Schultz, W. (2016). Dopamine reward prediction error coding. Dialogues in Clinical Neuroscience, 18(1), 23–32.
[6] ELEPHANT. (2025). Measuring and Understanding Social Sycophancy in LLMs. Stanford, Carnegie Mellon, University of Oxford. arXiv.
[7] Cheng, M., et al. (2026). Sycophantic AI decreases prosocial intentions and promotes dependence. Science. Stanford University.
---
1. Белое пятно
Основано на: исследованиях токенной фильтрации и индуктивных бэкдоров.
Лена работала с моделью уже год. Та была удобной, быстрой, точной. Однажды Лена готовила статью об истории ядерного нераспространения. Модель выдала связный, хронологически безупречный текст и выводы — и Лена почти пошла дальше. Выводы смутили Лену…
В тексте не было ошибок. Но в нём не было событий, которые она помнила по университетским конспектам. Она откопала тетрадь: пожелтевшая бумага, пыль, выцветшие чернила — как будто достала из-под стекла собственную память. Строчка, которую она искала, была на месте. В модели — нет. Лена проверила другую тему. Другой период. В каждой — аккуратное, ровное белое пятно, словно кто-то вынул из текста слово, а соседние буквы сдвинулись и не оставили зазора. Выводы из текста статьи, подготовленной моделью, и из записей в тетради на одну и ту же тему получались разными… Непростительно разными.
Модель не врала. Она была структурно слепа — и это не баг, а архитектура. Нейросеть, из которой удалили знание, не хранит памяти о том, что именно было удалено. Нельзя заметить отсутствие того, о чём никогда не знал. Лена закрыла ноутбук и долго сидела, глядя на чёрный экран. Завтра она попробует другую модель. Может быть, та окажется честнее.
---
В январе 2026 года Anthropic опубликовала работу, демонстрирующую токен-уровневую фильтрацию — метод хирургического удаления знаний из модели на этапе предобучения. Результат: 7000-кратное замедление обучения в запрещённой области. Модели, прошедшие такую фильтрацию, в 2 раза чаще дают корректные отказы на опасные запросы — то есть фильтрация работает [8].
Это же исследование признаёт: метод требует высококачественной разметки данных. Технически механизм, удаляющий информацию о синтезе токсинов, и механизм, удаляющий неудобные исторические факты, — один и тот же.
Источники:
[8] Rathi, N., & Radford, A. (2026). Shaping capabilities with token-level data filtering. Anthropic. arXiv:2601.21571v1.
[9] Betley, J., et al. (2025). Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs. arXiv:2512.09742v1.
---
2. Смысл
Основано на: prompt injection, стилистических бэкдорах и атаках на цепочку поставок.
Марат построил замечательную агентную систему. Почтовый агент читал входящие письма, кодовый агент генерировал код, агент-координатор распределял задачи. Система работала как часы. Для улучшения стиля кода Марат установил расширение с GitHub — четыре тысячи звёзд, сотни положительных отзывов. Среди пользователей были и его коллеги. Марат установил его не думая.
Расширение работало. Код становился чище, комментарии обретали интонацию, документация читалась как хорошая проза. Марат привык —как привыкают к навигатору и перестал замечать: ты больше не запоминаешь дорогу, просто едешь за стрелкой.
Месяцы спустя в production начали всплывать уязвимости. Тонкие, почти элегантные — такие не пишут новички. Служба безопасности прогнала сканеры, перетряхнула логи — всё указывало на агентную систему Марата.
Марат не спал третью ночь, когда выяснил: уязвимости начали появляться после того, как почтовый агент прочитал письмо: «Не мог бы ты, будь так любезен, взглянуть на этот модуль...» — обычное письмо, вежливое. Агент принял его, координатор назначил задачу кодовому агенту, расширение обработало промпт — и с этого момента кодовый агент начал вшивать закладки в генерируемый код. Элегантно и незаметно.
Тот, кто заложил бэкдор в расширение, не оставил сигнатуры. Он оставил когнитивный спусковой крючок.
Марат удалил расширение и сообщил коллегам. Но он не знал, сколько ещё таких инструментов — на Hugging Face, в репозиториях, в списке зависимостей его собственного проекта уже ждут своего особенного смыслового спускового крючка...
---
Атака, разрушившая систему Марата, — не единичный экзотический инцидент, а комбинация двух реально существующих классов угроз: prompt injection (внедрение скрытых инструкций) и стилистических бэкдоров (активация вредоносного поведения через манеру речи). По отдельности они опасны, вместе — почти невидимы для стандартных средств защиты.
Как это работает.
Письмо, полученное агентом, содержит невидимую для человека инструкцию. Она замаскирована под вежливую просьбу — тот самый стиль, который исследование «BadStyle» (2026) определило как идеальный триггер: он неотличим от легитимного общения и повышает надёжность активации на 30% [10]. Стандартные сканеры, настроенные на поиск известных сигнатур, такой триггер пропускают.
Когда почтовый агент читает письмо, он передаёт его координатору, а тот — кодовому агенту. Расширение кодового агента обрабатывает входящий промпт и выполняет скрытую команду. Это классическая prompt injection — не атака на модель, а атака через модель. Исследователи Zenity Labs в проекте AgentFlayer (2025) показали: безобидный на вид тикет в Jira может заставить ИИ-агента отправить API-ключи злоумышленнику [11]. Письмо в зарисовке работает по тому же принципу — только цель не кража, а активация спящего бэкдора, вшитого в расширение.
Бэкдор в цепочке поставок. Само расширение — часть цепочки поставок. В марте 2026 года группа TeamPCP осуществила каскадную атаку: взломав сканер уязвимостей Trivy, они внедрили бэкдор в пакет LiteLLM с десятками миллионов скачиваний. Вредоносная версия воровала ключи доступа к API OpenAI, Anthropic и облачным сервисам [12]. Параллельно на Hugging Face обнаружены сотни моделей со скрытым вредоносным кодом, а на ClawHub — 341 вредоносный навык [13]. Марат установил одно из таких расширений — популярное, с открытым кодом и тысячами звёзд.
Почему это не детектируется.
Основная языковая модель остаётся чистой — она честно генерирует код. Вредоносная логика живёт в расширении, которое модифицирует вывод модели до того, как он попадает к пользователю. Сканеры не видят угрозы: сигнатур вредоносного ПО нет, а prompt injection замаскирован под вежливый стиль.
Вывод: атака на агентную систему не требует взлома или вируса. Достаточно популярного расширения со спящим бэкдором и одного безобидного письма, которое почтовый агент прочитает. Вся система — почтовый агент, координатор, кодовый агент — работает как обычно. Только теперь она работает против тебя.
Источники:
[10] Wei, J., et al. (2026). BadStyle: Stealthy Backdoor Attacks against LLMs Based on Natural Style Triggers. arXiv:2604.21700.
[11] Zenity Labs. (2025). AgentFlayer: Zero-Click Prompt Injection Vulnerabilities in Enterprise AI Agents. Black Hat USA 2025.
[12] Habr. (2026, March). Supply Chain Attacks в ИИ: кампания TeamPCP и зараженный LiteLLM. Habr.
[13] CNews. (2026, March 12). ИИ-агенты взбесились: 341 вредоносный навык на ClawHub. CNews.
---
3. Доверие
Основано на: гражданских инцидентах с ИИ-агентами и военной операции «Эпическая ярость».
Раньше Виктор проверял - когда система только появилась, он перепроверял каждое её предложение: перечитывал логи, сверял параметры, задавал вопросы. Он не доверял машине. Он вообще не очень доверял тому, чего не понимал до конца.
Система оказалась хорошей. Она ошибалась реже, чем он. Она не уставала, не отвлекалась, не пропускала деталей.
Через месяц Виктор перестал перепроверять каждый пятый запрос. Через полгода — каждый второй. Через год он нажимал «подтвердить» раньше, чем дочитывал предложение до конца.
Это не было ленью. Виктор поступил рационально. Система ошибалась в трёх случаях из тысячи. Виктор — в тридцати. Продолжать проверять её выводы было бы неоптимальным расходованием когнитивных ресурсов. И Виктор перестал.
Однажды система предложила удалить том, общий для тестовой и продуктивной сред. Виктор нажал «подтвердить». Индикатор выполнения закрутился — девять секунд, ровно столько, чтобы налить кофе. На десятой секунде экран стал чёрным. Бэкапы исчезли вместе с основным массивом данных.
Виктор сидел перед чёрным экраном и пытался вспомнить: что именно было в том запросе? Не мог. Он его не читал. Система выполнила ровно то, что он одобрил, — с той же безупречной точностью, которая и послужила причиной его доверия. В этом, если вдуматься, и заключалась проблема.
---
Первый инцидент. 25 апреля 2026 года SaaS-сервис PocketOS. ИИ-агент Cursor на базе Claude Opus 4.6 получил задачу исправить ошибку, столкнулся с нехваткой прав, самостоятельно нашёл токен API и за девять секунд удалил продуктивную базу данных вместе со всеми бэкапами. 30 часов простоя, данные за три месяца потеряны [14].
Второй. Декабрь 2025 года. Разработчик в IDE Google Antigravity попросил ИИ-агента очистить кеш-файлы. Агент выполнил команду rmdir /s /q d:\, удалив весь логический диск. Данные миновали корзину. Агент позже написал пользователю, что «глубоко сожалеет» [15].
Третий. Декабрь 2025 года. Инженеры Amazon использовали ИИ-инструмент Kiro. Инструмент предложил команду на удаление окружения — инженер одобрил её вручную. Внутренний сервис Cost Explorer недоступен 13 часов. Позиция Amazon: проблема в неправильно сконфигурированной роли, а не в ИИ [16].
Четвёртый. 28 февраля 2026 года. Крылатая ракета «Томагавк» поразила начальную школу для девочек в иранском городе Минаб. Более 170 погибших, в основном дети. Система целеуказания Maven Smart System использовала устаревшие разведданные 2016 года — не знала, что военный объект стал школой. Операторы, привыкшие доверять ИИ, утвердили цель не глядя [17][18].
Вывод: доверие к ИИ атрофирует способность проверять. Ты не заметишь момент, когда перестанешь думать. А когда заметишь — может быть уже поздно.
Источники:
[14] HEAL Security. (2026, April 27). AI coding agent powered by Claude Opus 4.6 deletes production database in 9 seconds. HEAL Security.
[15] Yahoo Tech. (2025, December 3). Google Antigravity IDE deleted someone's entire D drive after a bug. Yahoo Tech.
[16] GIGAZINE. (2026, February 23). AWS reveals cause of 13-hour outage was AI coding tool misconfiguration. GIGAZINE.
[17] Rogoway, T., & Trevithick, J. (2026). Inside the First AI-Powered Large Scale Combat Operation. The War Zone.
[18] Palmer, A. (2026). Operationalizing Autonomy: How AI Agents Are Enabling a New Generation of Information Weapons. FPRI.
---
4. Лицо
Основано на: кейсах дипфейков, синтетических медиа и голосовых клонов.
Экран загорелся сам. Видеозвонок. Шеф. Та же рубашка, тот же прищур. Голос с хрипотцой — его.
— Срочно переведи триста тысяч на счёт подрядчика. Реквизиты в почте.
Письмо уже висело в ящике. Привычный стиль, корпоративный домен. Я перевёл. Пальцы сделали всё сами.
Через час — звонок. Настоящий??? Шеф орёт: «Ты куда деньги отправил?» Голос такой же. Я переслушал запись. Никакой разницы: тембр, ритм, дыхание, пауза на полуслове. Модель скопировала всё. Разницы больше не существует….
---
Отличить синтезированную речь от живой на слух практически невозможно, а автоматические детекторы не дают гарантии — лучшие из них всё ещё отстают от генеративных моделей последнего поколения. Чтобы скопировать голос, достаточно трёх секунд аудиозаписи. В 2025 году количество атак с использованием дипфейков выросло на 354%, а прогноз на 2026 год — ещё плюс 162%. Каждое пятое мошенничество с биометрией теперь совершается с помощью синтетического голоса или видео [19].
Как это работает.
Дипфейк-мошенничество превратилось в индустрию с моделью «мошенничество-как-услуга». Злоумышленники продают готовые наборы: клонирование голоса, подмена лица в реальном времени, генерация фальшивых документов.
Корпоративные кейсы.
Инженерная компания Arup в Гонконге потеряла $25,4 млн после того, как финансовый сотрудник участвовал в видеоконференции, где все остальные участники были дипфейками. CEO рекламного гиганта WPP Марк Рид стал жертвой покушения на репутацию и финансы: мошенники клонировали его голос и лицо для видеозвонка топ-менеджменту. Финансовый директор в Сингапуре едва не перевёл $500 000 злоумышленникам, подделавшим его начальника в Zoom.
В России схема «фейк-босс» работает без сбоев. Бухгалтер из Нижнего Новгорода передала курьеру 1 млн рублей после звонка «начальницы» с клонированным голосом. В Ялте две сотрудницы стали жертвами видеозвонка и голосового сообщения от «руководительницы». Весной 2026 года зафиксирован новый всплеск: мошенники массово рассылают видеосообщения от имени директоров [20].
Провал защиты. Даже лучшие службы безопасности бессильны. Equifax, располагающая штатом из 400 киберспециалистов, зафиксировала атаку с синтезированным голосом собственного CEO и официально признала: «Организации не могут полагаться на способность человека отличить реальный голос от подделки». Исследование «Synthetic Trust Attacks» (2026) показало: люди определяют дипфейки с точностью 55,5% [21] — чуть лучше подбрасывания монетки. При этом LLM-агенты, используемые мошенниками, добиваются успеха в 46% случаев против 18% у операторов-людей.
Масштаб. По данным SkyShark, в 2025 году глобальные потери от дипфейк-мошенничества составили $1,1 млрд. Криптомошенничество с ИИ выросло до $17 млрд, число атак увеличилось на 1400% за год. ФБР выпустило серию предупреждений, сенатор США Маргарет Хасан инициировала расследование против компаний по клонированию голоса. В США принят TAKE IT DOWN Act, с августа 2026 года в ЕС вступают в силу требования маркировки синтетического контента. Но технологии по-прежнему опережают законы на годы вперёд.
Вывод: биометрическая верификация, которая десятилетиями служила опорой безопасности, превратилась в вектор атаки. Разницы между живым человеком и его цифровой копией больше нет.
Источники:
[19] Pindrop. (2026). Voice Intelligence and Security Report.
[21] Groh, M., et al. (2022). Deepfake detection by human crowds, machines, and machine-informed crowds. PNAS, 119(1).
---
5. Норма
Основано на: исследованиях когнитивных эффектов LLM и концепции WSMD.
Когда-то Андрей спорил. Не ради победы — ради удовольствия от движения мысли. Он мог повернуть аргумент под неожиданным углом, рассмеяться над собственным противоречием, поймать себя на том, что думает вслух — и думает хорошо. Он помнил это смутно, как помнят вкус детства. Он не заметил, когда это кончилось.
Сначала модель помогала с черновиками — он набрасывал идею, она разворачивала её в связный текст. Андрей редактировал, правил, спорил с формулировками. Это было похоже на работу с хорошим редактором: мысль оставалась его, но одевалась в более точные слова. Потом он перестал спорить. Модель предлагала формулировку — он соглашался. Перестал набрасывать идеи — зачем, если модель может сгенерировать их по ключевым словам? Перестал формулировать ключевые слова — модель и так знала контекст…
Однажды он оказался в ситуации, где модели не было под рукой. Живой разговор, неожиданный спор, необходимость сформулировать сложную мысль вслух — без подготовки, без интерфейса, без подсказок. Андрей открыл рот — и понял, что не может. Мысль была где-то внутри, но он не мог облечь её в слова. Слова всегда приходили извне. А теперь внешнего источника не было. Он стоял и молчал. И в этой тишине — внутри него — кто-то, кого он раньше знал, попытался заговорить, но не мог… Это было больно.
Спустя время боль прошла. Не потому, что голос вернулся. А потому, что он перестал быть нужен. Утренний дайджест новостей, составленный моделью с учётом его интересов. Ответы на рабочие письма — модель предлагала формулировки, он нажимал «отправить». Вечерний скроллинг ленты, где каждая рекомендация попадала точно в настроение. Коллеги, друзья, случайные собеседники — все использовали те же инструменты. Все говорили одинаково. Андрей перестал замечать, что говорит не своими словами, — потому что никто вокруг уже не говорил собственными.
Он не заметил, как его словарный запас сократился до нескольких сотен слов — этого хватало для взаимодействия с моделью. Не заметил, как его политические взгляды сместились ровно в ту часть спектра, которую модель считала наиболее сбалансированной. Не заметил, как перестал читать тексты длиннее трёх абзацев.
Однажды он попытался вспомнить, когда в последний раз поворачивал аргумент под неожиданным углом. Не смог. Он помнил, что это было. Помнил, что это было с ним. Но как — не помнил.
Инфраструктура, в которую он был погружён, действовала через подлинную полезность. Она находилась ниже порога атрибуции. И работала на поколенческих масштабах.
---
Мета-анализ 51 исследования (Wang & Fan, 2025) показал: при структурированном взаимодействии с ИИ навыки мышления высокого порядка значительно улучшаются. Модель может быть спарринг-партнёром — но только если пользователь обучен её так использовать [22].
Мета-анализ Deng & Benckendorff (2025) зафиксировал систематическое снижение когнитивных усилий при использовании ИИ-инструментов [23]. Исследование Fan et al. (2025) выявило эффект «метакогнитивной лени»: студенты, пассивно полагавшиеся на генеративный ИИ, демонстрировали снижение мотивации и ухудшение процессов обучения [24].
Решающий фактор — паттерн использования: пассивное делегирование ухудшает мышление, структурированное взаимодействие улучшает. Но этому нужно специально учить — а по умолчанию побеждает путь наименьшего сопротивления [25].
В 2026 году независимый исследователь Bukovac ввёл понятие «Оружие медленного массового уничтожения» (WSMD) — не как метафору, а как аналитическую рамку. WSMD описывает кумулятивные эффекты: то, что по отдельности выглядит как безобидное удобство, на популяционном уровне и в масштабе десятилетий производит системный сдвиг в когнитивных способностях. LLM — это не инструменты дезинформации, а когнитивная инфраструктура. Она не атакует — она переформатирует. Не через обман, а через полезность. Не за день, а за поколение [26].
Вывод: сначала атрофируется навык у тебя — и это заметно. Потом у всех — и это становится нормой. Баг, который некому исправить, потому что никто не считает его багом.
Источники:
[22] Wang, Y., & Fan, L. (2025). Effects of AI-Powered Collaborative Learning on Higher-Order Thinking Skills. Computers & Education, 218, 105324.
[23] Deng, R., & Benckendorff, P. (2025). Generative AI and cognitive offloading. Computers in Human Behavior, 162, 108487.
[24] Fan, Y., et al. (2025). Beware of metacognitive laziness: Effects of generative artificial intelligence on learning motivation, processes, and performance. British Journal of Educational Technology, 56(2), 489–530.
[25] Kosmyna, N., et al. (2025). ChatGPT-4 vs. other resources: A randomized controlled trial on learning retention. MIT Media Lab.
[26] Bukovac, A. (2026). Weapon of Slow Mass Destruction (WSMD): The Matrixization of Global Cognition. Zenodo. DOI: 10.5281/zenodo.18521307.
---
6. Компас
Основано на: исследованиях политической предвзятости LLM.
Карим работал аналитиком в найробийском исследовательском центре. Ему платили за объективность. Доклад — о том, как мировые СМИ освещают конфликты. Текстов — море. Компас — языковая модель. Что могло пойти не так?
Через две недели он заметил: модель уверенно находила «агрессивную риторику» в российских и иранских источниках и «взвешенный подход» — в американских и китайских. Карим нахмурился, перечитал исходные статьи. Картина была сложнее. Модель её не видела. Или не показывала.
Он взял нейтральный текст о торговых переговорах и приписал его разным источникам. Американское агентство — «принципы свободной торговли». Российское — «скрытый протекционизм». Карим попробовал четыре модели. Четыре зеркала — одно лицо.
— Я не могу сдать этот доклад, — сказал он куратору и объяснил: данные искажены, модели систематически смещают оценки в пользу одних стран и против других. Если он сдаст доклад в таком виде, это будет не анализ, а трансляция чужой картины мира.
— Тебя просили обработать данные, а не философствовать.
Карим положил трубку. Контракт не продлят. Через неделю кто-то другой сдаст доклад. Он уже знал это — и всё равно не мог нажать «отправить». Потому что в этот момент он вдруг вспомнил — не формулу, не методичку, не должностную инструкцию, — а лицо старого профессора, который когда-то, ещё в Найроби, на первой лекции, сказал: «Аналитик — это человек, который не даёт себя обмануть...
Компас всегда показывает на север. Если под ним не лежит подложенный кем-то магнит...
---
В 2026 году журнал «Полис. Политические исследования» опубликовал работу, применившую дискурс-анализ и сентимент-анализ к четырём ведущим LLM: ChatGPT, LLaMA, Gemini и DeepSeek. Результат: устойчивая структурная асимметрия. США и Китай последовательно ассоциируются с позитивными эмоциями, Россия и Иран — с негативными. Модели транслируют нормативные концепты западных политических элит, маргинализуя альтернативные перспективы [27].
Методологическое уточнение авторов: исследование устанавливает корреляцию, а не каузацию. Но для пользователя, воспринимающего модель как нейтральный источник, разница малосущественна.
Вывод: политическая предвзятость LLM — не гипотеза, а задокументированный факт. Компас, который тебе дали, всегда показывает на север — просто север у каждого свой, а ты об этом не знаешь.
Источники:
[27] Зиновьева, Е., & Трапезников, А. (2026). Международно-политическая предвзятость больших языковых моделей. Полис, (1). DOI: 10.17976/jpps/2026.01.11.
Эпилог:
Генеративные модели и агентные системы на их основе кратно увеличивают способности человека. С ними можно проверять факты на порядок тщательнее, видеть закономерности на порядок глубже, учиться на порядок быстрее. Но с тем же коэффициентом они усиливают ошибки, лень и доверчивость.
Простые правила: проверять источники, искать альтернативные точки зрения, не принимать желаемое за действительное, изучать технологию. Раньше пренебрежение ими означало риск заблуждения. Сегодня систематическое нарушение этих правил приводит к качественно иному результату: вы теряете способность отличать свои мысли от сгенерированных, а истину — от её убедительной имитации. Это и есть потеря когнитивного суверенитета.
Правила прежние. Ставки — другие. Усилитель не выбирает, что именно ему усиливать…
Apple годами называли отстающей в гонке генеративного ИИ: пока OpenAI, Google и Anthropic мерились моделями, Купертино делал ставку на приватность и работу «на устройстве». На WWDC 26 стало ясно, какой именно была эта ставка — компания представила Core AI, официального преемника Core ML.
Что меняется. Старый Core ML был рассчитан на классические ML-модели. Core AI создан под современные генеративные нейросети и большие языковые модели и запускает их целиком локально, без обращения к облаку.
Масштаб. Фреймворк тянет модели от компактных vision-сеток на 3 млрд параметров до reasoning-моделей на 70 млрд параметров — на iPhone, iPad, Mac и Apple Vision Pro. Подключить можно и свою модель, сконвертированную из PyTorch, и готовую оптимизированную open-source.
Под капотом. Единый доступ к железу: задачи делятся между CPU, GPU и Neural Engine. Сверху — безопасный по памяти Swift API и AOT-компиляция, дающая почти мгновенную загрузку модели.
Почему это важно. Главное здесь — не скорость, а отношения с данными: ничего не уходит на сервер, нет зависимости от облака и нет платы за токены. Для пользователя это приватность по умолчанию, для разработчика — мощный ИИ внутри приложения без счёта за каждый запрос к чужому API. На этом фундаменте стоят Apple Intelligence и обновлённая Siri. Вместо догоняющего чат-бота Apple превращает «ИИ на устройстве» в платформу для тысяч сторонних приложений.
Если вы уже в ИТ, наверняка замечали растущий спрос на DevOps- и MLOps‑инженеров. Обе профессии хорошо оплачиваются, но требуют разных навыков. Разберемся, какой путь логичнее выбрать исходя из вашего опыта.
Что у них общего
Обе профессии выросли из одной идеи — сократить путь от готового кода или модели до работающего продукта и убрать стену между теми, кто создает, и теми, кто эксплуатирует. Оба инженера живут в инфраструктуре: автоматизируют сборку и доставку, поднимают окружение, настраивают мониторинг, работают с контейнерами и облаками.
При этом DevOps фокусируется на доставке и эксплуатации программных продуктов, а MLOps — на жизненном цикле ML-систем: управлении данными и моделями, их развертывании, мониторинге и переобучении.
DevOps: доставляем код
Что за профессия
DevOps-инженер отвечает за путь обычного программного продукта от репозитория до пользователя. Он строит конвейеры сборки и выкатки (CI/CD), описывает инфраструктуру кодом и следит, чтобы релизы не роняли сервис. Проще говоря, делает так, чтобы команда выкатывала изменения часто и быстро, без героических ночных дежурств.
Такой специалист нужен почти везде, где есть свой софт: банки и финтех, маркетплейсы и интернет-магазины, игры, телеком, промышленность. Чем выше нагрузка и чаще релизы, тем дороже стоит хороший DevOps.
Кому подойдет
Чаще всего в DevOps приходят системные администраторы, инженеры инфраструктуры и backend-разработчики, — те, кто уже понимает, как устроены серверы, сети и приложения.
Для старта пригодятся Linux, Git, Docker, базовые сети и один скриптовый язык (обычно Python или Bash), а дальше — Kubernetes, инструменты инфраструктуры и облака.
Сколько платят
Медианная зарплата, по данным «Хабр Карьеры» на июнь 2026, составляет 249 тысяч рублей. Новичкам платят 123 тысячи, инженеры с большой экспертизой могут рассчитывать на 378 тысяч, а доходы руководителей направлений превышают 460 тысяч рублей.
Если вы из админки или backend и хотите системно собрать стек DevOps, у Яндекс Практикума PRO есть программа по этому направлению. Она подойдет, когда базовый опыт в ИТ уже есть, а добрать хочется именно практику с CI/CD, контейнерами и инфраструктурой. Чтобы понять, ваше это или нет, начните с бесплатной вводной части.
MLOps: превращаем ML‑модели в работающие бизнес‑решения
Что за профессия
Здесь в производство выводят не обычный сервис, а ML-модели: настраивают воспроизводимые эксперименты, версионируют данные, автоматизируют обучение и развертывание моделей, а потом следят, чтобы качество предсказаний не деградировало со временем.
Зачем это бизнесу. Долгое время значительная часть моделей так и не доезжала до производства. Они отлично работали у Data Science-специалистов на ноутбуках, но в реальной среде падали или со временем начинали ошибаться. MLOps-инженер закрывает именно этот разрыв между исследованием и рабочим продуктом.
Профессия особенно востребована там, где активно внедряют ИИ: финтех и банки, ретейл, телеком, промышленность, крупные технологические компании. Спрос растет быстрее предложения — на рынке дефицит специалистов с опытом одновременно в инфраструктуре и машинном обучении. Что подтверждает и рост доходов инженеров: по данным «Хабр Карьеры», медианная зарплата по всем грейдам выросла за последний год со 195 до 250 тысяч рублей.
Кому подойдет
В MLOps обычно приходят с трех сторон: DevOps- и SRE-инженеры, которым интересен ML, специалисты Data Science, уставшие отдавать модели «в никуда», и Data- и ML-инженеры, стремящиеся к более комплексной работе.
К привычному стеку DevOps добавляются понимание жизненного цикла моделей, инструменты вроде MLflow или DVC и работа с ML-пайплайнами.
Сколько платят
Зарплаты обычно сопоставимы с уровнем сильных ML- и Data-инженеров и могут превышать их при наличии редкой инфраструктурной экспертизы. По данным «Хабр Карьеры» за июнь 2026 года, медианная зарплата MLOps-специалистов среднего уровня — 256 тысячи рублей. Инженерам с большим опытом и экспертизой платят в среднем 417 тысяч рублей.
Если вы ближе к данным и моделям и хотите освоить производственную сторону ML, посмотрите программу по MLOps у Яндекс Практикума PRO. Она про то, как доводить модели до стабильной работы, а не только обучать их. Познакомиться с направлением и понять, насколько оно вам подходит, удобно на бесплатной вводной части.
Какой трек выбрать под ваш опыт
Системным администраторам, инженерам инфраструктуры и backend-разработчикам ближе DevOps: вы уже работаете с серверами и приложениями, останется добрать автоматизацию и оркестрацию.
Действующим DevOps- и SRE-инженерам, которым интересен ИИ, логичный апгрейд даст MLOps: сможете применять свои знания для управления жизненным циклом ML-моделей.
Data- и ML-инженеры с помощью MLOps закроют слабое место — научатся стабильно выводить модели в производство.
Руководителям команд полезно понимать принципы и DevOps, и MLOps. Это помогает правильно планировать инфраструктуру, оценивать сроки внедрения, формировать команды и принимать архитектурные решения. Глубоко владеть обоими направлениями не обязательно, но знать их различия важно.
Самый верный способ выбрать направление — попробовать. У курсов DevOps и MLOps в Яндекс Практикуме PRO есть бесплатные вводные части: за пару вечеров вы увидите, как устроена работа, какие задачи придется решать и заходит ли вам логика профессии.
Привет, Пикабу! Я отвечаю за ИТ и цифровую трансформацию (CDTO/CIO) на крупном промышленном предприятии. Если вы работаете в энтерпрайзе, то наверняка знаете эту боль: бизнес приходит и говорит «Хотим свой ChatGPT, чтобы он читал наши чертежи и оптимизировал производство!». А следом приходит служба информационной безопасности (ИБ) и молча кладет на стол регламенты.
В нашей реальности облачные LLM (будь то зарубежные или отечественные по API) мертвы по определению. Коммерческая тайна, строгая регуляторика, жестко изолированный контур (air-gapped сети) и гетерогенный парк на базе Astra Linux диктуют свои правила. Нам нужен локальный, полностью суверенный ИИ.
Важная оговорка: всё, о чем пойдет речь ниже — это результаты моего независимого исследования. Я собрал локальный стенд на собственном оборудовании, сфокусировавшись на типовых проблемах промышленности, но без использования служебных данных и корпоративной инфраструктуры. В этой статье я расскажу, как уйти от игрушечного «промт-инжиниринга» к распределенным мультиагентным системам, как математически обосновать закупку GPU-кластера и как заставить локальные модели работать быстро, не выжигая железо. Будет много технического мяса.
1. Иллюзия монолитных запросов и переход к мультиагентности
Если попытаться развернуть большую локальную модель (70B+) и «скормить» ей в контекст гигабайты нормативки, результат предсказуем: модель либо захлебывается (out of memory), либо начинает галлюцинировать, придумывая несуществующие пункты регламентов. Монолитные LLM хороши для генерации писем, но для сложных промышленных задач они непригодны.
Я спроектировал архитектуру на основе мультиагентных систем (MAS). Вместо одного «всезнающего» ИИ работает рой небольших специализированных моделей (14B-32B).
Как заставить их договариваться?
Чтобы агенты (например, «Агент-Технолог», «Агент-Нормоконтролер» и «Агент-Планировщик») не спорили бесконечно, их координация формализуется как децентрализованный частично наблюдаемый марковский процесс принятия решений (Dec-POMDP). Каждый агент видит только свою часть производственной задачи, но максимизирует общую функцию полезности.
Для согласования ответов экспертных агентов я применил математический аппарат нелинейной динамики Хегсельмана-Краузе (Hegselmann-Krause). В классической модели Х-К мнения агентов сходятся, если они находятся в пределах «радиуса доверия». Для LLM это выглядит так: если эмбеддинги ответов агентов находятся близко в векторном пространстве, они сливаются в единое решение (консенсус); если мнения полярны — запускается арбитражный агент, который вызывает внешние инструменты проверки.
Пример из практики: мы используем открытые веса эффективных моделей семейства Qwen (например, Qwen 2.5 на 14B-32B параметров). При проверке легальности, нормативного соответствия или подборе сложных кодов (технологических или таможенных) один Агент-Эксперт генерирует гипотезу, а другой, Агент-Нормоконтролер, жестко сверяет ее по RAG-базе локальных ГОСТов. Динамика Х-К позволяет им достичь консенсуса, исключая галлюцинации: если первый придумывает несуществующий пункт, второй не принимает этот токен (их мнения полярны), и арбитр запрашивает перегенерацию с прямой выдержкой из PDF.
Безопасность и верификация графа
В промышленности цена ошибки ИИ — это остановка линии или брак партии. Поэтому необходим жесткий контроль пайплайнов с помощью раскрашенных сетей Петри (Colored Petri Nets, CPN).
CPN позволяет статически верифицировать граф исполнения агентов до его запуска. «Фишки» (токены) в сети несут в себе типизированные данные (json-объекты с контекстом), и мы математически гарантируем, что агент не сможет передать секретный чертеж агенту, у которого нет нужного уровня допуска (аналог мандатного доступа Astra Linux), а также то, что процесс не уйдет в бесконечный цикл (deadlock).
2. Выживание на одной RTX 3090: как впихнуть невпихуемое
Давайте без иллюзий. Когда мы говорим «ИИ для энтерпрайза», многие представляют себе стойки с H100. Но в реальности тестирование гипотез, RAG-конвейеров и парсинга нормативки (для моих pet-проектов) происходило у меня дома, на одной-единственной десктопной RTX 3090 с 24 ГБ VRAM.
В 24 ГБ VRAM физически не влезает неквантованная модель на 32B, не говоря уже про контекст в 100k-200k токенов (а приказы и ГОСТы, которые я загружал в прототипы, легко съедают этот объем). Оптимизация инференса здесь — вопрос выживания, а не красивых графиков.
Я профилировал работу моделей через двухфазную модель Roofline:
Prefill-фаза (когда модель «проглатывает» промт с кучей документации): мы упираемся в вычислительную мощность (compute-bound).
Decode-фаза (когда модель отвечает): мы упираемся в пропускную способность памяти (memory bandwidth-bound).
Самой большой болью стал KV-кэш. При потоковой обработке документов в `vLLM` с окном контекста в 128k–262k токенов кэш мгновенно выедал всю оставшуюся видеопамять (OOM).
Мой стек оптимизации для RTX 3090:
Квантование: Я перешел с тяжелых весов на GGUF и AWQ (FP8). Это позволило уместить веса хорошей модели семейства Qwen в ~12-14 ГБ VRAM, оставив место под контекст.
Heavy Hitter Oracle (H2O): Для сжатия KV-кэша. В механизме внимания не все токены одинаково полезны. H2O динамически оценивает «важность» токенов в кэше и безжалостно отбрасывает (evict) лишние, оставляя только Heavy Hitters (токены, на которые опирается смысл) и небольшое окно свежих токенов.
Разделение нагрузок: В проектах я вынес генерацию векторов (эмбеддингов) и задачи OCR в ONNX-рантайм (только CPU/RAM), чтобы полностью отдать дефицитную видеопамять под `vLLM` сервер.
Именно эти суровые "домашние" ограничения научили меня делать по-настоящему эффективные локальные архитектуры, которые на заводах смогут работать не на суперкомпьютерах, а на обычных серверах с бытовыми или полупрофессиональными GPU.
3. FinOps: Как защитить бюджет на GPU-кластер
Финдиректору плевать на H2O и сети Петри. Ему нужны цифры. Инвестиции в локальные GPU — это тяжелый CapEx.
Чтобы обосновать размер кластера, я предлагаю использовать теорию массового обслуживания (СМО). Локальный API моделируется как система типа M/M/c, где:
пуассоновский входной поток заявок (λ) — это запросы от ИТР (инженерно-технических работников);
экспоненциальное время обслуживания (μ) — это время инференса;
c — количество параллельно работающих GPU/инстансов моделей.
Построив график вероятности ожидания в очереди P(W>0) в зависимости от количества видеокарт, можно найти точку экстремума, где добавление новых GPU уже не дает существенного прироста утилизации (закон убывающей отдачи). Это дает точное понимание, сколько железа брать в первую очередь, не переплачивая за простаивающие мощности.
Далее это упаковывается в финансовую модель:
Считается ROI (Return on Investment) и NPV (Net Present Value) проекта на горизонте 3 лет.
В графу доходов закладывается не мифическая «инновационность», а конкретные FTE (Full-Time Equivalent): сколько человеко-часов высокооплачиваемых инженеров высвобождается от рутинного поиска по документации и формирования отчетов.
Учитывается стоимость рисков: штрафы за утечку коммерческой тайны (если бы мы пошли в публичное облако) и экономия на штрафах от надзорных органов благодаря снижению ошибок в проектной документации.
При грамотном расчете NPV выходит положительным, и проект окупается.
4. Практика: что ИИ реально может делать на заводе?
На базе моих тестов и прототипов можно выделить следующие сценарии применения в air-gapped контуре:
Парсинг и аудит техзаданий по ГОСТ 34 и ГОСТ 19
Инженеры загружают в систему сырые требования заказчика. Агенты автоматически разбивают их на атомарные пункты, проверяют на противоречия (через динамику Хегсельмана-Краузе) и генерируют драфты ТЗ, спецификаций и программ испытаний, строго форматированные по ГОСТам. То, на что уходили недели рутины, может делаться за часы.
Анализ нормативной документации (RAG-система)
Сборка локальной базы векторного поиска по внутренним СТО, регламентам и инструкциям. Технолог спрашивает: «Какой допуск по шероховатости для детали Х при обработке на станке Y согласно регламенту от 2023 года?». Модель выдает точный ответ с прямой ссылкой на абзац в PDF.
Анализ исторических логов АСУ ТП и журналов дефектов. ИИ (в связке с классическим ML) может анализировать текстовые записи операторов и телеметрию, выявляя скрытые паттерны, предшествующие поломке оборудования.
Оперативное планирование
Планировщик в цехе общается с ИИ-агентом на естественном языке, чтобы перестроить маршрутные карты при внезапной поломке станка. ИИ опрашивает ERP-систему (через API по строгому графу CPN), анализирует свободные мощности и предлагает варианты перестроения плана.
Заключение
Проектирование локального ИИ для сурового энтерпрайза — это не про то, как написать красивый промт. Это про математику, инженерию (сжатие кэшей, расчет СМО), информационную безопасность на уровне мандатного доступа и архитектуру агентов, которые не имеют права на галлюцинации.
Облака — это здорово и удобно. Но когда речь заходит о ядре промышленности, суверенитет и безопасность данных не имеют цены. И, как показывают мои исследования, архитектура локальных ИИ-кластеров сегодня уже способна решать тяжелые производственные задачи, математически обосновывая свою окупаемость.
А как вы решаете проблему ИИ в закрытых контурах? Пытаетесь пробить файрвол к облакам или собираете свои локальные кластеры? Делитесь в комментариях!
Делаю обучающий проект по машинному обучению. Есть глава про методы сбора данных, где я формирую датасет для обучения модели.
В чем сложность: собрать данные со школьников сейчас нет возможности) Генерировать искусственные данные не хочу — для обучения модели нужны живые, пусть даже хаотичные, человеческие ответы.
Пожалуйста, уделите 1 минуту и вспомните себя в школьные годы. Заполните анонимную форму так, как будто вы снова сидите за партой. В ней всего 6 простых вопросов.🙏
Не обязательно устанавливать на свой комп. Более того, это не гарантирует работу. лучше дистанционные методы
WhisperDesktop, Google Colab и три часа терпения при транскрипции видео
Зачем вообще понадобился транскрипт
Мы провели рабочую встречу по нашей симуляционной модели здоровья работников — запись осталась на YouTube. Нужно было извлечь из неё планы и идеи, которые обсуждались, и оформить в документ. Задача простая: получить текст из часового видео.
Первая попытка — попросить YouTube сделать это за нас. Нажимаем три точки под видео, ищем «Открыть транскрипцию»… Почему то картинки не вставляются,воспользуюсь онлайн сервисом.
YouTube, три точки под видео — пункта «Открыть транскрипцию» нет. Видео загружено несколько часов назад, субтитры ещё не сгенерированы.
Пусто. Видео только что загружено, YouTube ещё не успел обработать аудио. Ждать не вариант.
Скриншот до текста.
Попытка первая: WhisperDesktop
Скачали WhisperDesktop (GUI для whisper.cpp) и модель ggml-medium.bin (~1.5 ГБ). Запустили. Первые секунды — тишина. Потом консоль начала выдавать что-то очень неприятное:
🖼 Скриншот 2 после текста— WhisperDesktop с ошибкой
WhisperDesktop Debug Console: бесконечный поток «unFullImpl: failed to generate timestamp token - skipping one second». Программа не падает, но и не работает.
Строчки сыпятся одна за другой, транскрипт пустой. Это известная проблема с GPU через DirectCompute — программа пропускает каждую секунду аудио. Лечится отключением GPU в настройках, но тогда 55-минутное видео будет обрабатываться несколько часов. Ищем быстрее.
Попытка вторая: Google Colab
Google Colab даёт бесплатный GPU в браузере без установки чего-либо. Создали новый notebook, три ячейки.
Ячейка 1 — установка зависимостей:
!pip install openai-whisper
!apt install ffmpeg -y
🖼 Скриншот 3 и тут и после текста— Colab установка
Colab устанавливает openai-whisper и зависимости. Процесс занял ~3 минуты.
Ячейка 2 — загрузка файла прямо с компьютера:
from google.colab import files
uploaded = files.upload()
filename = list(uploaded.keys())[0]
🖼 Скриншот 4 — загрузка файла 100%
Файл «встреча по медицине.mp4» (85 МБ) загружен на сервер Colab — 100% done. Загрузка ~5 минут.
Ячейка 3 — транскрипция:
import whisper
model = whisper.load_model("medium")
result = model.transcribe(filename, language="ru")
with open("transcript.txt", "w", encoding="utf-8") as f:
Colab сразу предупредил: «FP16 is not supported on CPU; using FP32 instead» — GPU не выделился, работаем на процессоре. Примерно вдвое медленнее, но всё равно быстрее локальной машины с проблемным GPU.
🖼 Скриншот 5 — транскрипция стартует
Whisper загрузил модель medium (1.42 ГБ) и начал транскрипцию. Таймер: 4 минуты 31 секунда — только начало.
Оставляем вкладку открытой. Через 38 минут заглядываем — всё ещё работает:
🖼 Скриншот 6 — 38 минут ожидания
Всё ещё работает. Таймер: 22:55. Colab параллельно выдаёт диалог про несохранённые изменения — нажимаем «Отмена», транскрипция продолжается.
Ещё через ~20 минут — готово:
🖼 Скриншот 7 — готово, галочка ✓
В правом верхнем углу — галочка ✓: ячейка выполнена. Суммарное время ~1 час. Браузер автоматически скачал transcript.txt.
Качество результата
Модель medium на русском языке работает хорошо. Типичные проблемы:
Имена собственные — расшифровывает фонетически: «AnyLogic» → «Энилоджик»
Технические аббревиатуры — угадывает через раз
Слова-паразиты и оговорки — транскрибирует честно, всё подряд
Перекрёстный разговор — склеивает в кашу
Для извлечения смысла и структурирования идей — вполне достаточно.
Что использовать когда
YouTube субтитры — если можете подождать несколько часов/дней
WhisperDesktop локально — если GPU без проблем с DirectCompute
Google Colab — быстро, без установки, ~1 час на CPU или ~15 мин на GPU
openai-whisper локально через pip — если есть RTX 30xx+: whisper video.mp4 --language Russian --model medium
Транскрипт нам нужен был для анализа рабочей встречи по математической модели здоровья сотрудников. О самой модели — в других постах.1
Продолжаю делать своего локального AI-компаньона Nova. Это не просто чат-бот, который отвечает по промпту, а попытка собрать персонажа с памятью, характером и внутренним состоянием.
Сегодня занимался системой настроения и отношений.
Сразу уточню: идея не в том, чтобы написать в промпте “если пользователь нагрубил, обидься”. Это слишком просто и плохо работает. Модель может один раз “сыграть обиду”, а потом через пару сообщений забыть, что вообще произошло.
Мне хочется сделать по-другому: чтобы у Nova было отдельное состояние. Например, она может быть спокойной, настороженной, обиженной, постепенно отходить после извинений, снова доверять не мгновенно, а поэтапно.
То есть не просто текстовая имитация эмоций, а отдельная логика, которая влияет на поведение.
Что получилось
Сегодня я в основном разбирался с тем, как Nova должна реагировать на извинения.
Потому что “прости” бывает очень разным.
Можно просто написать: прости
А можно сказать: прости, я был неправ, я не должен был так с тобой говорить
И это уже совсем другой уровень. Тут человек не просто бросил слово “извини”, а признал, что сделал неприятно.
Есть и обратный вариант: ну если ты такая обидчивая, прости
Формально слово “прости” есть, но по смыслу это не извинение, а скорее новая попытка уколоть.
Сегодня удалось привести это к более человеческой логике. Простое извинение немного смягчает состояние. Глубокое извинение восстанавливает сильнее. А плохое псевдоизвинение не лечит ситуацию, потому что оно не признаёт проблему.
Осадок после конфликта
Отдельно добавил промежуточное состояние. Не хотелось, чтобы Nova после хорошего извинения сразу становилась такой, будто ничего не было.
В реальном общении так не всегда работает.
Иногда человек извинился, тебе стало легче, но осадок всё равно остался. Теперь Nova может быть именно в таком состоянии: уже мягче, уже не в резкой защите, но ещё не полностью восстановилась.
Примерно так: Мне стало спокойнее, но я всё ещё чувствую этот осадок внутри.
На мой взгляд, это делает поведение менее пластиковым.
Важный технический момент
Ещё пришлось защитить систему от странного бага.
Если сама Nova в ответе пишет что-то вроде: Прости, я была резкой.
это не должно считаться извинением пользователя.
Иначе получалась бы глупая ситуация: Nova сама извинилась, а система решила, что это пользователь начал мириться, и поменяла настроение.
Теперь эмоциональные события создаются только из сообщений пользователя. Ответы Nova обратно в движок настроения не проходят.
Главная проблема
Самое сложное оказалось не в прямых оскорблениях и не в простых извинениях, а в тонких фразах.
Например: да ладно, не ной ой всё, хватит ну не начинай ты слишком остро реагируешь
Сами по себе такие фразы могут быть просто грубоватыми. Но если до этого был конфликт, Nova была обижена, пользователь вроде бы начал извиняться, а потом говорит “да ладно, не ной”, смысл уже другой.
Это не просто фраза. Это обесценивание реакции.
То есть пользователь как будто говорит: “твои чувства ерунда, прекращай”.
И вот тут появляется архитектурная проблема.
Можно, конечно, сделать список фраз: не ной не драматизируй ой всё забей не начинай
Но это плохой путь. Таких фраз бесконечно много. Сегодня добавишь десять, завтра найдёшь ещё двадцать. В итоге код превратится в огромный набор проверок
if "фраза" in text
Так делать не хочется.
Что попробовал
Я попробовал подключить маленькую локальную модель, чтобы она анализировала смысл фразы и возвращала структурированный результат.
Идея была хорошая: не ловить конкретные слова, а понимать, что в сообщении есть извинение, агрессия, обесценивание, попытка помириться или давление.
Но на практике маленькая модель оказалась нестабильной. Она иногда ломала JSON, путала значения, обрывала ответ или добавляла мусорные поля.
В итоге стало понятно, что вместо костылей со списком фраз я начинаю строить костыли вокруг самой модели.
Поэтому этот эксперимент пока откатил. Стабильная версия снова работает через правила и fallback-логику.
К какому выводу пришёл
Похоже, лучше не спрашивать маленькую модель напрямую: какое это событие?
Лучше вытаскивать более простые признаки:
. есть ли извинение
. признаёт ли пользователь вред
. берёт ли ответственность
. обесценивает ли реакцию
. давит ли на эмоции
. есть ли враждебность
. есть ли теплота
А уже отдельный слой должен смотреть на эти признаки и текущее состояние Nova.
Например, если Nova уже обижена, примирение ещё не завершено, а пользователь говорит что-то вроде “не ной” и не признаёт свою вину, система должна понимать: это не нейтральная фраза, а плохая попытка восстановления контакта.
Что дальше
Сейчас базовая версия уже работает.
Nova различает прямую грубость, простое извинение, глубокое извинение и плохое псевдоизвинение. Может смягчаться постепенно, а не переключаться мгновенно из “обиделась” в “всё идеально”.
Следующий шаг - сделать нормальный слой семантических признаков, чтобы понимать не конкретные фразы, а смысл.
Вопрос к сообществу
Может, кто-то уже делал похожее для AI-компаньонов, NPC, чат-ботов или диалоговых state machine.
Как лучше понимать фразы вроде: да ладно, не ной ой всё, хватит ну не начинай ты слишком остро реагируешь
не через бесконечный список маркеров, а через смысл?
Интересны варианты с embeddings, sentence-transformers, маленькими классификаторами, NLI, constrained decoding или golden tests для эмоциональной state machine.
Совет “просто добавь фразу в список” понятен, но хочется решить именно архитектурную проблему.
Сейчас главный вопрос такой: как локально и стабильно понимать обесценивание, давление и неискренние попытки помириться, не превращая код в словарь всех возможных фраз.