Риск использования «чистых данных» для машинного обучения

Риск использования «чистых данных» для машинного обучения

В последнее время анализ данных играет ключевую роль во многих сферах, в том числе в промышленном производстве и инженерном проектировании. В сочетании с предметными знаниями аналитика может быть незаменима при определении причин перебоев и потери прибыли. Однако результаты анализа сильно зависят от контекста данных, а выводы могут оказаться ложными.

Необходимость в указаниях

Риск использования «чистых данных» для машинного обучения

Технический директор одной молодой компании, которая занимается машинным обучением, как-то сказал: «дайте мне данные, и я решу любые проблемы». К сожалению, это так не работает. Технологии анализа данных, в том числе машинного обучения, универсальны для всех отраслей, а предметные знания — нет. Поэтому для успешной работы нужны оба слагаемых.

Аналитическое решение должно отличать причинно-следственные связи от простой корреляции и сообщать только о реальных проблемах. Но чтобы с помощью аналитики находить верные ответы на вопросы, нужны правильные указания. В противном случае возникают бессмысленные результаты, например утверждение о том, что рост потребления маргарина приводит к разводам в штате Мэн. Указания — это предметные знания, которые ограничивают контекстуальные данные, определяют разумные ожидания и исключают ничего не значащие взаимосвязи.

Используя кластеризацию при работе без участия человека, система машинного обучения может обнаруживать и запоминать модели поведения. В процессе проектирования и производства с помощью кластеризации можно определить стандартные сигналы, поступающие с датчиков на установках и вокруг них. А затем, опираясь на отклонения от нормы, называемые аномалиями, можно обнаруживать сбои в работе оборудования.

Еще одна технология машинного обучения — машинное обучение с учителем — требует участия человека, который сообщает о событии и называет дату и время, когда оно произошло. При этом система машинного обучения не знает, что именно произошло. Чтобы определить значение события, ей нужны предметные знания и понимание контекста данных. Узнав о событии, система машинного обучения запоминает признаки определенного поведения, которое предшествовало событию. Например, при эксплуатации в отраслях тяжелой промышленности станок может выйти из строя из-за повреждения подшипника. Запомнив точную модель поведения при износе или сбое, ИИ анализирует новые данные, чтобы обнаружить в них повторение этой модели до того, как произойдет сбой. Упреждающие уведомления позволяют не ждать полного износа и проводить ремонт до поломки. В результате снижаются затраты на обслуживание и увеличивается время бесперебойной работы.

Специалисты предприятия понимают взаимосвязи моделей поведения станков и механику износа. Опираясь на эти знания, они направляют систему машинного обучения, помогая обнаружить верные модели поведения при сбое. Кроме того, с помощью эмпирических и неэмпирических моделей мы можем прогнозировать примерный диапазон результатов, а затем определять указания для машинного обучения, которые помогут найти точные модели поведения при износе. Контекст данных очень важен при маркировке событий, выборе переменных и управлении очисткой данных. Эффективные решения сочетают в себе знания о процессах, служащих источником данных, и опыт использования аналитических технологий. Таким образом, указания должны быть жесткими и надежными.

 

Применение на практике

Как это работает на практике? Возьмем двухэтапный подход. Начнем с проектирования. Следует изучить генерирующий данные процесс, правильно промаркировать важные события и вычислить наиболее значимые из них, например известные физические ограничения. Эту информацию можно использовать в качестве указаний для очистки данных и соответствующих моделей поведения с учетом режимов работы оборудования. Завершив процесс проектирования, нужно переключиться в режим анализа данных.

На этом этапе предоставляется контекст данных: теперь алгоритмы не учитывают конкретные проблемные области. Сейчас данным, алгоритмам и моделям поведения неизвестны их источники: данные — это просто данные.  Масштабы, единицы оборудования и источники данных разнообразны и неважны. В этом контексте нам не нужны строгие технические модели и сложные дифференциальные уравнения.

Напомним еще раз: указания по вводу данных играют важную роль. Чтобы прийти к верным выводам, нужны четко обозначенные наборы данных. Предметные знания определяют контекст данных. Поэтому нужно изучать тонкости каждого производственного процесса, а затем переходить от проектирования к аналитике с использованием указаний.

Добавить комментарий

Ваш адрес email не будет опубликован.