Машинное обучение

Сервис машинного обучения (Machine Learning - ML) является дополнительной опцией Semantic MDM и предназначен для автоматизации работы экспертов НСИ. ML-сервис необходим для работы мастера создания позиций, автоматической обработки заявок, нормализации больших объемов данных, оценки качества данных в Системе. Система машинного обучения основана на нейронных сетях и для её развития и повышения эффективности её работы необходимо проводить постоянное обучение на нормализованных данных. Источниками нормализованных данных (мастер-данных) может выступать сам Semantic MDM или внешние ИС, качеству данных в которых пользователь доверяет. Чем больше объем данных, проходящих через ML-сервис, тем выше качество работы всех подсистем, связанных с ним.

Подсистема управления сервисом машинного обучения (подсистема Машинное обучение) является встроенным подключаемым расширением Системы, предназначена для организации, контроля процесса и оценки результатов обучения ML-сервиса и позволяет решать следующие задачи:

Выполнять настройку режима группировки данных по каждому из атрибутов;
Регистрировать внешние источники данных, откуда выполняется загрузка данных для обучения;
Выполнять загрузку данных из *.csv файлов;
Осуществлять просмотр текущего состояния пакетов обучения;
Отслеживать процесс обучения пакетов;
Выполнять запуск обучения выбранных или всех пакетов вручную;
Выполнять остановку процесса обучения вручную;
Настраивать расписания запуска автоматического переобучения;
Оценивать точность обучения.

ML-сервис обучается на загруженных по каждому из атрибутов данных, сгруппированных в пакеты обучения. Группировка данных в пакет обучения, осуществляется в соответствии с выбранным режимом группировки для атрибута:

Для всех групп – все данные, загруженные для атрибута, группируются в один пакет и будут предсказываться всегда, для любого введенного наименования;
Для каждой группы – позволяет принудительно группировать значения индивидуально для каждой справочной группы;
Автоматически по группам – все данные, загруженные для атрибута, группируются автоматически в пакеты обучения по одной или нескольким справочным группам. Если уникальные значения атрибута для двух разных справочников Semantic MDM пересекаются более чем 60%, то данные для этих двух групп объединяются в один пакет обучения и так далее, пока не будут проанализированы все данные атрибута по группам Semantic MDM.

Кроме данных, загруженных из *.csv файлов, источником данных для машинного обучения может выступать сам Semantic MDM. Загрузка данных в сервис машинного обучения ML выполняется через специально зарегистрированную внешнюю систему и обменный класс в подсистеме импорта и репликации. При этом выполняется возврат переходного ключа подсистемой Машинное обучение после получения новой позиции из подсистемы Справочники. Это позволяет отслеживать какие позиции в справочнике были переданы в подсистему машинного обучения. Выполняется удаление переходного ключа с подсистемой Машинное обучение, если в ней было удалено эталонное наименование позиции, удален идентификатор позиции или в подсистеме Справочники позиция перестала соответствовать условиям репликации.

Загрузка данных для обучения из Semantic MDM в сервис машинного обучения ML позволяет создать самообучающуюся систему, на основе нормализованных данных из справочников Системы и данных из заявок пользователей.

В подсистеме Машинное обучение пользователь имеет возможность работать с шестью вкладками:

Мониторинг и управление - здесь выполняется настройка расписания обучения, настройка пакетов, а также запускается, останавливается и контролируется процесс переобучения;
Данные для обучения - на вкладке выполняется настройка подключений к источникам данных, а также их загрузка / выгрузка из файлов CSV;
Данные для проверки – на вкладке отображены данные, на основе которых выполняется проверка;
Общая точность предсказания – вкладка содержит график с консолидированной информацией о точности предсказания по проверяемым наименованиям с возможностью сравнения текущей точности с точностью на выбранную дату;
Точность предсказания по группам – вкладка содержит информацию о точности предсказания по проверяемым наименованиям для каждой из имеющихся групп;
Точность предсказания атрибутов для всех групп – вкладка отображает точность по пакетам обучения, для которых значения атрибутов были собраны сразу со всех справочных групп.

Машинное обучение

Мониторинг и управление

Данные для обучения

Данные для проверки

Общая точность предсказания

Точность предсказания по группам

Точность предсказания атрибутов для всех групп