Сервис машинного обучения (Machine Learning - ML) является дополнительной опцией
Semantic MDM и предназначен для автоматизации работы экспертов НСИ. ML-сервис необходим для работы
мастера создания позиций, автоматической обработки заявок, нормализации больших объемов данных,
оценки качества данных в
Системе. Система машинного обучения основана на нейронных сетях и для её развития и повышения эффективности её работы необходимо проводить постоянное обучение на нормализованных данных. Источниками нормализованных данных (мастер-данных) может выступать сам
Semantic MDM или внешние ИС, качеству данных в которых пользователь доверяет. Чем больше объем данных, проходящих через ML-сервис, тем выше качество работы всех подсистем, связанных с ним.
Подсистема управления сервисом машинного обучения (подсистема
Машинное обучение) является встроенным подключаемым
расширением Системы, предназначена для организации, контроля процесса и оценки результатов обучения ML-сервиса и позволяет решать следующие задачи:
-
Выполнять настройку режима группировки данных по каждому из атрибутов;
-
Регистрировать внешние источники данных, откуда выполняется загрузка данных для обучения;
-
Выполнять загрузку данных из *.csv файлов;
-
Осуществлять просмотр текущего состояния пакетов обучения;
-
Отслеживать процесс обучения пакетов;
-
Выполнять запуск обучения выбранных или всех пакетов вручную;
-
Выполнять остановку процесса обучения вручную;
-
Настраивать расписания запуска автоматического переобучения;
-
Оценивать точность обучения.
ML-сервис обучается на загруженных по каждому из атрибутов данных, сгруппированных в пакеты обучения. Группировка данных в пакет обучения, осуществляется в соответствии с выбранным режимом группировки для атрибута:
-
Для всех групп – все данные, загруженные для атрибута, группируются в один пакет и будут предсказываться всегда, для любого введенного наименования
;
-
Для каждой группы – позволяет принудительно группировать значения индивидуально для каждой справочной группы;
-
Автоматически по группам – все данные, загруженные для атрибута, группируются автоматически в пакеты обучения по одной или нескольким справочным группам. Если уникальные значения атрибута для двух разных справочников
Semantic MDM пересекаются более чем 60%, то данные для этих двух групп объединяются в один пакет обучения и так далее, пока не будут проанализированы все данные атрибута по группам Semantic MDM.
Кроме данных, загруженных из *.csv файлов, источником данных для машинного обучения может выступать сам
Semantic MDM. Загрузка данных в сервис машинного обучения ML выполняется через специально
зарегистрированную внешнюю систему и
обменный класс в подсистеме импорта и репликации. При этом выполняется возврат
переходного ключа подсистемой
Машинное обучение после получения новой позиции из подсистемы
Справочники. Это позволяет отслеживать какие позиции в справочнике были переданы в подсистему машинного обучения. Выполняется удаление переходного ключа с подсистемой
Машинное обучение, если в ней было удалено эталонное наименование позиции, удален идентификатор позиции или в подсистеме
Справочники позиция перестала соответствовать условиям репликации.
Загрузка данных для обучения из Semantic MDM в сервис машинного обучения ML позволяет создать самообучающуюся систему, на основе нормализованных данных из справочников Системы и данных из заявок пользователей.
В подсистеме Машинное обучение пользователь имеет возможность работать с шестью вкладками:
-
Мониторинг и управление -
здесь выполняется настройка расписания обучения, настройка пакетов, а также запускается, останавливается и контролируется процесс переобучения;
-
Данные для обучения - на
вкладке выполняется настройка подключений к источникам данных, а также их загрузка / выгрузка из файлов CSV;
-
Данные для проверки – на
вкладке отображены данные, на основе которых выполняется проверка;
-
Общая точность предсказания –
вкладка содержит график с консолидированной информацией о точности предсказания по проверяемым наименованиям с возможностью сравнения текущей точности с точностью на выбранную дату;
-
Точность предсказания по группам –
вкладка содержит информацию о точности предсказания по проверяемым наименованиям для каждой из имеющихся групп;
-
Точность предсказания атрибутов для всех групп –
вкладка отображает точность по пакетам обучения, для которых значения атрибутов были собраны сразу со всех справочных групп.