«Великое разочарование»: Почему умные агенты спотыкаются о грязные данные и как бизнес-глоссарий становится главным активом ИИ-эпохи

Ко всем новостям

«Великое разочарование»: Почему умные агенты спотыкаются о грязные данные и как бизнес-глоссарий становится главным активом ИИ-эпохи

Дата статьи

02 марта 2026г.

Автор статьи

Вероника Салагина

Время на прочтение

5 минут

Конец эпохи «Волшебной таблетки»

Мы переживаем уникальный момент. Спустя два года после бума генеративного ИИ, когда каждый уважающий себя C-level менеджер требовал внедрить «умного агента» в CRM или ERP, рынок входит в стадию тяжелого похмелья. Ожидания были разогреты до предела: нам обещали цифровых ассистентов, которые возьмут на себя планирование закупок, автоматическое согласование договоров и безупречный клиентский сервис.

Реальность оказалась прозаичнее и жестче. Крупные организации, уже потратившие миллионы долларов на пилотные проекты и лицензии, всё чаще фиксируют одно и то же: «умные агенты не работают». Они выдают галлюцинации, путают контрагентов, делают взаимоисключающие прогнозы и — что самое страшное для бизнеса — генерируют убедительную ложь с идеальной грамматикой, но катастрофическим содержанием .

Винить в этом алгоритмы — бесполезно. Проблема не в софте, а в «топливе». ИИ — это зеркало данных. Если в зеркале хаос, бизнес видит не будущее, а усугубленный бардак. В этой статье мы пойдем дальше банального «Garbage In, Garbage Out». Мы разберем три ключевых тезиса:

1. Почему рынок перегрет и почему даже $14 млрд инвестиций не спасают от грязных данных.
2. Почему идеальные условия для ИИ — это не «стерильная база», а правильно выстроенный бизнес-глоссарий и система Master Data Management (MDM).
3. Как ИИ сам же и помогает навести порядок (и кейс решения проблемы копий/дублей).

Призрак Scale AI: Почему миллиарды не могут купить качество

Чтобы понять глубину кризиса, посмотрим на кейс, который стал «иконой стиля» ИИ-гонки 2025 года. Meta* инвестировала $14,3 млрд в стартап Scale AI — компанию, которая должна была обеспечить технологического гиганта качественными данными для обучения супер-интеллекта .

Казалось бы, формула успеха: есть безлимитный бюджет, есть лучшие умы, есть доступ к огромным вычислительным мощностям. Однако уже через два месяца после интеграции команды Scale AI в Meta* Superintelligence Labs начались кадровые перестановки и конфликты. Исследователи Meta* публично выражали недовольство: данные от ключевого партнера оказались низкого качества. Они предпочли работать с конкурентами — Mercor и Surge .

Этот случай — джентльменский набор симптомов целой индустрии:

Перегрев рынка: Инвестиции давят на вендоров, требуя быстрых результатов. Scale AI, получив гигантский контракт, не справился с качеством разметки.
Бюрократия и спешка: В гонке за лидерство (особенно на фоне отставания от OpenAI и Google) базовый аудит данных был принесен в жертву скорости.
Иллюзия «дешевых денег»: Руководство посчитало, что проблему качества можно решить простым наращиванием бюджета.

Вывод для бизнеса: Если такая организация, как Meta*, с ее инженерной культурой и доступом к талантам, спотыкается о качество разметки и данных, что говорить о рядовом предприятии из сектора ритейла или производства? Инвестиции в алгоритмы без инвестиций в «гигиену данных» — это покупка Ferrari для гонок по бездорожью. Вы просто увязнете, и стоимость спасения этой машины будет выше, чем покупка новой.

«Умный» агент в безумном мире: Откуда берется цифровой шум

Почему же данные современных корпораций так токсичны для ИИ? Ответ кроется в эволюции корпоративных систем. 20 лет назад у компании была одна база 1С или SAP. Сегодня — это гибридные инфраструктуры: исторические ERP, Excel-кладбища (тысячи файлов, которыми обмениваются отделы), SaaS-CRM, логи IoT-устройств и данные из агрегаторов.

ИИ-агент, в отличие от человека, не может «догадаться». Человек, увидев «ООО Ромашка», «Ромашка ООО» и «Romashka LLC», поймет, что это один контрагент. Для ИИ — это три разных сущности .

Основные категории «шума», убивающего ИИ:

1. Дублирование и синонимия (Проблема Алиасов): Товар «Болт М5х20 сталь» и «Крепеж мет. 5*20» для системы аналитики запасов — это две разные позиции. ИИ не может дать точный ответ на вопрос «Сколько у нас крепежа М5 на складе?», потому что он не знает, что эти строки семантически равны.
2. Устаревшие иерархии: Отсутствие связей «родитель-потомок» в справочниках номенклатуры. ИИ не построит рекомендательную систему, если не понимает, что «iPhone 15» относится к категории «Смартфоны», а «Чехол для iPhone 15» — это аксессуар к той же категории, а не отдельный вид техники.
3. Невалидные связи: Транзакции продаж, привязанные к несуществующему коду клиента или закрытому договору.
4. Теневой ИИ (Shadow AI): 74% аккаунтов ChatGPT в компаниях создаются сотрудниками без ведома ИТ-отдела. Сотрудники «скармливают» корпоративные данные в публичные модели. Данные утекают, обратно возвращаются обобщенные ответы без привязки к корпоративной таксономии, и эти ответы снова загружаются в базы знаний. Возникает информационный смог.

Традиционный подход ИТ-департаментов всегда был таким: «Давайте купим еще один сервер, еще одну СУБД, напишем еще один ETL-скрипт». Но это не решает проблему семантики. ИИ не нужен «идеально чистый» склад данных. ИИ нужен «понятный» склад данных.

Смена парадигмы: От Идеальных Условий к Бизнес-Глоссарию

Здесь мы подходим к ключевому тезису. Бизнес-заказчик часто говорит: «У меня грязные данные, давайте сначала проведем генеральную уборку, сделаем идеальные справочники, а потом внедрим AI». Это ошибка. Требование «идеальных условий» — это путь в никуда. Данные всегда будут устаревать на следующий день после чистки.

Продукты (ИИ-агенты) требуют не идеальных условий, а единого языка коммуникации. В ИТ-архитектуре этот язык называется Business Glossary (Бизнес-Глоссарий) .

Что такое Бизнес-Глоссарий в контексте ИИ?

Это не просто файлик с расшифровкой аббревиатур. Это активный семантический слой, который связывает физические поля в базах данных (названия колонок на английском/техническом языке) с понятными бизнесу метриками.

Кейс: Разница между «Данными» и «Термином»

Физический слой: Таблица sales_2026, колонка cust_id (технический ключ), колонка amt, колонка date.
Семантический слой (Термин): «Выручка от новых клиентов за февраль».
Атрибут термина: SUM(amt) WHERE cust_id IN (SELECT id FROM customers WHERE reg_date BETWEEN '01.02.2026' AND '28.02.2026').
Бизнес-определение: Деньги, поступившие от клиентов, зарегистрировавшихся в феврале.

ИИ-агент не должен гадать, как посчитать эту метрику. Он должен обратиться к глоссарию, получить готовый SQL-сниппет и знать, что этот сниппет утвержден финансовым директором. Именно правильно выстроенный глоссарий, а не «идеально чистые» сырые данные, является условием успеха. Глоссарий позволяет данным оставаться «шумными» на физическом уровне, но «стройными» на логическом.

Экспертная оценка:
Внедрение генеративного бизнес-глоссария меняет роли. Дата-инженеры перестают быть «чистильщиками обуви» для data scientist'ов. Они становятся архитекторами знаний, которые настраивают правила маппинга сырых данных в бизнес-термины .

Порядок из хаоса: Как ИИ лечит ИИ

Мы выяснили, что Бизнес-глоссарий необходим. Но его создание вручную в крупной корпорации (десятки тысяч сущностей) — это процесс, который может занять годы. И здесь мы видим удивительный эффект: ИИ — это и причина проблемы, и ее решение.

Современные платформы управления данными (как MDM, так и специализированные семантические слои) используют генеративный ИИ для автономного наведения порядка. Процесс выглядит следующим образом:

1. Сканирование метаданных (Metadata Stack Scanning): ИИ-агент платформы «вскрывает» хранилища данных. Он читает не сами строки с покупками, а структуру: названия таблиц, схем, вьюх, комментарии разработчиков, и самое главное — query logs (логи запросов).
2. Анализ поведения пользователей: ИИ смотрит, как аналитики и бизнес-пользователи обращаются к данным. Какие джойны они делают? Какие поля они объединяют чаще всего? Если сотни аналитиков в своих SQL-запросах джойнят таблицу contracts с таблицей clients по полю client_tax_id, значит, между этими сущностями есть негласная, но критически важная бизнес-связь.
3. Генерация гипотез терминов: На основе этих паттернов система предлагает: «Я вижу, что поле client_tax_id часто используется. Возможно, мы должны создать бизнес-термин ИНН Контрагента. Я нашел 15 вариантов написания этого поля в разных базах, предлагаю свести их в единый атрибут».

Таким образом, ИИ не просто требует чистоты — он ее обеспечивает, дообучаясь на том, как люди реально используют данные, несмотря на их грязноту.

Кейс: Проблема копий и «Золотая запись»

Давайте рассмотрим конкретную, самую дорогую проблему корпоративных данных — проблему дублей. Она обходится компаниям в миллионы долларов из-за ошибочных отгрузок, двойных выплат бонусов и невозможности собрать консолидированную отчетность.

Как это было раньше (Эпоха Ручного Труда):
Нанималась команда подрядчиков в Индии или региональный центр обслуживания. Они открывали две базы данных рядом, визуально сравнивали названия «ООО "МеталлИнвест"» и «МеталлИнвест ООО» и вручную склеивали записи. Это медленно, дорого и субъективно.

Как это работает сейчас (ИИ + MDM):
Современный подход к Master Data Management (MDM) в связке с ИИ полностью переворачивает процесс. Это подход создания «Золотой записи» (Golden Record) .

Этап 1: Кластеризация.
Алгоритмы машинного обучения (кластеризация, K-means и др.) сканируют миллионы записей контрагентов или номенклатуры . Они не ищут точные совпадения (exact match). Они ищут похожести. Степень схожести вычисляется по сотням признаков: адрес, телефон, доменное имя почты, ИНН, расчетный счет.

Этап 2: Матчинг.
Система строит графы связей. Она видит, что «Петров Иван Иванович» из базы CRM и «И.И. Петров» из базы бухгалтерии используют один и тот же номер телефона в контактных данных. Вероятность совпадения — 98%.

Этап 3: Сюрвейсоршип (Survivorship).
Это самый важный шаг. ИИ не просто склеивает записи. Он применяет правила качества для выбора лучшего атрибута.

Пример: В системе А у контрагента указан старый юридический адрес (2005 года). В системе Б — новый адрес (2023 года). ИИ, согласно политике доверия, берет адрес из системы Б, как более свежий. Или берет ИНН из системы налоговой отчетности, а контактный email — из CRM, потому что там он актуальнее.

Результат: Мы получаем не усредненную запись, а эталонный объект, собранный по принципу «лучшее из лучшего». ИИ-агент, отвечая на запрос о клиенте, получает ссылку не на три дубля, а на одну «Золотую запись».

Это решение ломает колени традиционным ETL-процессам. Раньше мы подгоняли данные под схему. Теперь мы подгоняем схему (глоссарий) под реальность, а ИИ занимается "золотой" склейкой сущностей.

Гибридный подход: Когда приватность становится новым измерением качества

Говоря о «грязных данных», мы обычно подразумеваем ошибки. Но есть еще один вид загрязнения — персональные данные и чувствительная информация.

Сотрудники активно загружают в публичные нейросети коммерческую тайну: от стратегических презентаций до исходного кода. Объем таких загрузок за последний год вырос в 30 раз . Это создает парадокс: компания может очистить свои хранилища, построить идеальный глоссарий, но если ИИ-агент при ответе процитирует фрагмент кода, защищенный NDA, или номер кредитной карты, случайно попавший в лог транзакций, компания получит не просто галлюцинацию, а судебный иск.

Технологический ответ: Дифференциальная приватность (Differential Privacy).
Google Research предложил решение: модели ИИ можно научить «забывать» конкретные данные, сохраняя общие паттерны . В процесс обучения вносится математический «шум», который не позволяет нейросети запоминать точные строки.

Для бизнеса это означает новое требование к «чистоте». Недостаточно того, что данные точны. Нужно, чтобы они были обезличены на уровне архитектуры. Современные системы семантического слоя должны уметь на лету подменять чувствительные атрибуты при построении датасетов для обучения LLM. Это превращает ИИ-платформы из инструментов аналитики в инструменты комплаенс-контроля.

Архитектура будущего: MDM как стартовая площадка

Подводя итог технологическому обзору, мы можем вывести формулу подготовки к ИИ. Компании, успешно внедряющие умных агентов, проходят три обязательных этапа.

Этап 1: MDM и НСИ — «Скелет».
Это база. Если в компании товар может быть заведен в трех разных системах с разными кодами, внедрение ИИ верхнего уровня бессмысленно. Системы класса MDM (в российской практике — «1С:MDM Управление НСИ») берут на себя функцию «Золотой записи» . Бизнес часто воспринимает MDM как «скучную» инфраструктурную нагрузку. Но это инвестиция с двойным дном:

Без ИИ: MDM убирает ошибки в закупках и отчетности (ROI очевиден).
С ИИ: MDM становится единственным источником правды для алгоритмов.

Этап 2: Семантический слой / Глоссарий — «Мышцы».
MDM знает, что «Объект А» и «Объект Б» — это одно и то же. Глоссарий объясняет ИИ, что делать с этим объектом. Он переводит бизнес-метрики («Рентабельность заказа») в машинный код. Без этого слоя ИИ — это ребенок с отличной памятью, но без понимания контекста.

Этап 3: Оркестрация и Безопасность (AI Governance) — «Кожа».
Это контур безопасности, который не дает данным утекать, а агентам — галлюцинировать за периметром доверия . Включает в себя контроль API-взаимодействий и защиту от инъекций.

Взгляд в 2026 год: Рынок зрелости

На начало 2026 года мы видим четкое расслоение рынка. «Слепые» инвестиции в ИИ закончились. Начинается эпоха Data-Centric AI — ИИ, ориентированного на данные.

Мы наблюдаем отказ от иллюзий. Уходят в прошлое истории, когда CEO требовал «просто прикрутить ChatGPT» к корпоративному порталу, ожидая волшебства. Пришло понимание, что крупная языковая модель (LLM) — это, по сути, очень дорогой компилятор. А компилятору нужен качественный исходный код (данные). Если код говно, компилятор выдаст говно, просто очень быстро.

Прогнозы экспертов:

1. Бюджеты мигрируют. К 2027 году бюджеты на Data Quality и MDM обгонят бюджеты на покупку LLM. Компании поймут, что дообучение (fine-tuning) модели на своих данных эффективно только тогда, когда эти данные причесаны и унифицированы.
2. Рост платформ семантической разметки. Решения типа illumex, Alation, Collibra и их российские аналоги станут обязательным слоем корпоративной архитектуры, таким же, как брандмауэр.
3. Уход от «героического» программирования. Дата-сайентисты перестанут тратить 80% своего времени на чистку данных (эта печальная статистика кочует из года в год). Эту работу возьмут на себя автоматизированные пайплайны управления метаданными.

Порядок как стратегия

Разочарование крупных организаций в «умных агентах» — это полезное разочарование. Оно отрезвляет рынок и возвращает нас к основам. Мы перестали верить в магию и начали верить в инженерию.

Грязные данные — это не просто техническая недоработка. Это отражение незрелости бизнес-процессов. Невозможно построить цифровой двойник компании, если сама компания не знает, как она устроена: нет единого определения «активный клиент», нет единого справочника филиалов, нет политики наименования товаров.

Единственный путь к AGI (общему искусственному интеллекту) в масштабах предприятия лежит не через наращивание вычислительных мощностей, а через наведение семантического порядка. Технологии генеративного бизнес-глоссария и интеллектуального управления мастер-данными — это не просто ИТ-проекты. Это проекты инжиниринга корпоративного сознания.

Пока одни гонятся за «галлюцинациями» AGI, умные компании лечат «галлюцинации» своих данных. И именно они станут хозяевами рынка в 2030 году.

Meta* — признана экстремистской организацией в РФ.