Банки, ретейл, медицина: кто использует Data Mining и для чего

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных или просто майнинг данных) — это процесс, используемый компаниями для превращения необработанных больших данных в полезную информацию. Также для этой технологии используется менее популярный термин «обнаружение знаний в данных» или KDD (knowledge discovery in databases).
Если термином Big Data обозначают все большие данные — как обработанные, так и нет, то Data Mining представляет собой процесс глубокого погружения в эти данные для извлечения ключевых знаний.

Автор термина Data Mining Григорий Пятецкий-Шапиро определял его как процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Используя программное обеспечение для поиска закономерностей в больших пакетах данных, предприятия могут выстраивать маркетинговые стратегии, управлять кредитными рисками, обнаруживать мошенничество, фильтровать спам или даже выявлять настроения пользователей.
Интеллектуальный анализ данных зависит от эффективного сбора, хранения и компьютерной обработки данных. Data Mining считается отдельной дисциплиной в области науки о данных.
Термин «интеллектуальный анализ данных» фигурировал в академических журналах еще в 1970 году, но по-настоящему популярным он стал только в 1990-х после появления интернета. Тогда компаниям потребовалось анализировать большие объемы разнородных данных, чтобы отыскать нетривиальные паттерны и научиться предсказывать поведение клиентов. Обычные модели статистики оказались неспособны справиться с этой задачей.
Первые системы Data Mining предназначались для обработки данных о продажах в супермаркетах по нескольким параметрам, включая их объем по регионам и тип продукта.
Задачи Data Mining
Модели интеллектуального анализа данных применяются для нескольких типов задач:
- прогнозирование: оценка продаж, предсказание нагрузки сервера или его времени простоя;
- риск и вероятность: выбор подходящих заказчиков для целевой рассылки, определение точки баланса для рискованных сценариев, назначение вероятностей по диагнозам или другим результатам;
- рекомендации: определение продуктов, которые будут продаваться вместе, создание рекомендательных сообщений;
- поиск последовательностей: анализ выбора заказчиков во время совершения покупок, прогнозирование их поведения;
- группирование: разделение заказчиков или событий на кластеры, анализ и прогнозирование общих черт этих кластеров.
Где применяют Data Mining
Интеллектуальный анализ данных в основном используется отраслями, обслуживающими потребителей, в том числе в сфере розничной торговли, в финансах и маркетинге. Например, у Сбера существует сервис «Сбор Аналитика», который предоставляет данные по отраслям рынка или территориям на основе анализа денежных потоков населения, продаж товаров и услуг и прочих параметров. Его могут использовать как компании, так и госорганы, чтобы оценить потенциал развития региона.
Торговля
Торговым сетям Data Mining позволяет анализировать покупательские корзины, чтобы улучшать рекламу, создавать запасы товаров на складах и планировать, как их разложить на витринах, открывать новые магазины и выявлять потребности разных категорий клиентов.
Российская сеть «Лента» проанализировала данные карт лояльности более 90% своих покупателей и поделила аудиторию на определенные сегменты по покупательскому поведению. В частности, ретейлер выделил сегмент покупающих только базовые продукты и мужчин, которые чаще приобретали только напитки и снеки. Это позволило оптимизировать ассортимент и управлять выкладкой и ценами. А Amazon в октябре 2021 года анонсировала инструмент, который предоставит продавцам доступ к информации о том, что в настоящее время ищут покупатели, и тем самым поможет упростить выбор продуктов для продажи.
Банки и телеком
Кредитным организациям Data Mining позволяет выявлять мошенничество с кредитными карточками путем анализа подобных транзакций, а также предлагать различные виды услуг разным группам клиентов. Телеком использует анализ данных, чтобы бороться со спамом и разрабатывать новые тарифы для различных групп абонентов.
Российские сотовые операторы применяют Data Mining для внутренних целей, а также предлагают анализ данных как продукт. Так, «Билайн» в 2020 году запустил новый сервис, который позволяет компаниям получить демографические данные своих клиентов путем дата-майнинга по базам, которые собирает «Вымпелком».
Страхование
Страховые компании анализируют большие объемы данных, чтобы выявлять риски и уменьшать свои потери по обязательствам, а также предлагать клиентам релевантные услуги.
Так, австралийской частной страховой компании HCF анализ больших данных позволил за четыре месяца сократить расходы на рекламные рассылки на 25%. Аналитики точно определили тех клиентов, которые с наибольшей вероятностью готовы приобрести более дорогую услугу, и сделали для них отдельную рассылку.
Производство
Предприятиям анализ больших данных позволяет согласовывать планы поставок с прогнозами спроса, а также обнаруживать проблемы производства на ранних стадиях и успешно инвестировать в бренд. Кроме того, производители могут спрогнозировать износ производственных активов и запланировать техническое обслуживание и ремонт, чтобы не останавливать линию выпуска продукции. Пример применения Data Mining в промышленности — прогнозирование качества изделия в зависимости от параметров технологического процесса.
Российская «Инфосистемы Джет» предлагает интеллектуальную систему поддержки принятия решений Jet Galatea. Она анализирует технологические инструкции и данные, поступающие с датчиков на оборудовании, а затем формирует и выдает рекомендации технологам по оптимальному ведению производственного процесса. Jet Galatea применяют в металлургии, деревообработке, агропроме и добыче полезных ископаемых, чтобы уменьшить расход сырья и увеличить объем продукции.
Социология
Анализ настроений на основе данных социальных сетей позволяет понять, как определенная группа людей относится к конкретной теме. C 2016 года российская полиция использует в некоторых регионах страны систему «Зеус». Она позволяет отслеживать поведение пользователя в соцсети и строит график окружения, устанавливая возможную связь между пользователями на базе анализа друзей, родственников, опосредованных друзей, мест проживания, общих групп, лайков и репостов.
Медицина
Системы Data Mining используются и для постановки медицинских диагнозов. Они построены на основе правил, описывающих сочетания симптомов различных заболеваний. Правила помогают выбирать средства лечения. Например, британский стартап Babylon Heath собирает всю информацию о здоровье клиентов, их образе жизни и привычках, а затем алгоритм строит гипотезы и предлагает варианты обследования, лечения и даже рекомендует конкретных врачей и клиники.

Рекомендательные системы
Подобные системы предназначены для предложения товаров или услуг, которые с большой вероятностью могут быть интересными людям, а также используются для поддержки клиентов. Они работают благодаря дата-майнингу, который осуществляется в реальном времени. Проще говоря, модель постоянно обновляется. Так работают голосовые помощники Alexa от Amazon, Siri от Apple и «Алиса» от «Яндекса». В качестве примера можно привести также службу поддержки такси DiDi, где алгоритм решает до 60% запросов пользователей, поскольку чаще всего они похожи.
Технология и методы Data Mining
Выделяют несколько этапов добычи данных.
- Постановка задачи. Этот шаг включает анализ бизнес-требований, определение области проблемы, метрик, по которым будет выполняться оценка модели, а также определение задач для проекта анализа.
- Подготовка данных: объединение и очистка. Эта работа включает не только удаление ненужных данных, но и поиск в них скрытых зависимостей, определение источников самых точных данных и создание таблицы для анализа.
- Изучение данных.
- Построение моделей.
- Исследование и проверка моделей. Точность их прогнозов можно проверить при помощи специальных средств.
- Развертывание и обновление моделей. Когда модель заработала, ее нужно обновлять по мере поступления новых данных, а затем выполнять их повторную обработку.

Что должен знать и уметь дата-майнер
Специалист по интеллектуальной обработке данных должен иметь глубокие знания в сфере математической статистики, владеть иностранными языками, а также языками программирования. Он обрабатывает большие объемы информации и занимается поиском связей в ней. Специалист использует методики машинного обучения, создает алгоритмы, работает со статистическим анализом. Затем дата-майнер представляет организации результаты своей работы в понятном формате. Исходя из этих презентаций, компания принимает решения.
Работодатели предпочитают специалистов Data Mining с техническим, математическим или естественнонаучным образованием. Университеты предлагают соответствующие направления обучения: «Математика и компьютерные науки», «Прикладная математика и информатика», «Прикладная информатика» и «Системный анализ и управление». Кроме того, азы Data Mining можно изучить на курсах, например, Coursera.
По данным портала HeadHunter, в октябре 2021 года зарплаты дата-майнеров в России составляли от ₽28 тыс. до ₽250 тыс.
Программы для Data Mining
Существует множество программ, которые могут выполнять задачи Data Mining. Вот некоторые примеры.
-
— набор методов интеллектуального анализа данных, который применяется для решения таких задач, как обнаружение случаев мошенничества, минимизация финансовых рисков, оценка и прогнозирование потребностей в ресурсах, повышение эффективности маркетинговых кампаний и снижение оттока клиентов. Имеет удобный и понятный интерфейс, позволяющий пользователям самостоятельно создавать модели анализа и прогнозирования. Показывает высокую производительность даже при работе с огромным массивом разрозненных данных. — предназначен для приложений бизнес-аналитики, анализа данных и создания отчетов. Службы доступны на разных платформах, в том числе на облаке Azure. Предусмотрен механизм для создания собственных алгоритмов и добавления их в качестве новой функции интеллектуального анализа данных. — это платформа, которая позволяет бизнесу планировать и реализовывать маркетинговые кампании, анализировать их итоги и отслеживать потоки клиентов. Она в реальном времени собирает подробную информацию о действиях клиентов на веб-страницах, в том числе анонимных пользователей, учитывая контекст. Затем платформа дает рекомендации о времени и месте размещения контента на страницах и в мобильных приложениях для конкретного клиента.

-
— система оценки кредитных рисков и кредитоспособности клиентов. Особенно полезна для банков, компаний финансового сектора и телекома. SAS Credit Scoring анализирует данные потенциального заемщика и представляет готовые рекомендации по выдаче кредита или предоставлению услуги с учетом возможных рисков. — сочетает функции бизнес-аналитики и корпоративного управления эффективностью. Позволяет предприятиям разрабатывать и поддерживать сложные аналитические и плановые приложения. Также инструмент удобен для составления отчетов, если есть доступ к нескольким источникам данных. — это набор решений для оптимизации розничных цен, который позволяет определить оптимальную цену в конкретном месте и в конкретное время для формирования конкурентоспособных продаж, запуска промоакций и массовых распродаж. Применяется в ретейле. — это открытая платформа для добычи данных с возможностью глубокого обучения алгоритмов, анализа текстов и машинного обучения. RapidMiner можно использовать как на локальных серверах компании, так и в облаке. Платформа популярна в энергетике и промышленности, машиностроении и других отраслях.
Будущее Data Mining
Рынок систем Data Mining растет. Этому способствует деятельность крупных корпораций: SAS, IBM, Microsoft, Oracle и других. Ожидается, что к 2027 году объем глобального рынка расширенной аналитики вырастет на 23,1% и достигнет отметки в $56,2 млрд.
Последние тенденции в Data Mining включают развитие методов анализа с элементами виртуальной и дополненной реальности, их интеграцию с системами баз данных, добычу биологических данных для инноваций в медицине, веб-майнинг (анализ данных в интернете), анализ данных в реальном времени, а также меры по защите конфиденциальности при добыче данных. Лидеры отрасли считают, что в будущем майнинг данных будет применяться в интеллектуальных приложениях, которые будут встроены в корпоративные хранилища данных.
Главной проблемой обнаружения закономерностей в данных является время, которое требуется для перебора информационных массивов. Известные методы либо искусственно ограничивают такой перебор, либо строят целые деревья решений, которые снижают эффективность поиска. Решение этой проблемы остается главной целью разработчиков продуктов для Data Mining.
Data Mining для чайников. Лонгрид
«Data Mining», также известный как анализ больших данных или интеллектуальный анализ данных (далее ИАД), является крайне актуальным инструментом, который применяется для работы в различных современных областях науки и бизнеса, таких как: медицина, государственное управление, маркетинг, розничная торговля и многие другие.
Главной целью ИАД является извлечение полезной информации и знаний из больших объемов данных, которые могут быть использованы для улучшения бизнес-процессов, принятия экономически-оптимальных решений, повышения эффективности и качества работы в организационной структуре. Интеллектуальный анализ данных также помогает строить прогнозы на основе анализа исторических данных. Такие прогнозы позволяют предпринимать более обоснованные решения в будущем.
В данной статье я остановлюсь на основных задачах и проблемах, которые решаются при помощи Data Mining’а; рассмотрю современные вызовы данной дисциплины, а также актуальные методы их решения.
Интеллектуальный анализ данных — это область науки о данных, которая начала развивать в прошлом столетии. Изначально, ИАД возник как подраздел искусственного интеллекта и математической статистики, однако ученые данных поняли, что данная дисциплина должна занять отдельное место, так как имеет иную направленность.
Одним из основателей ИАД является Дж. Хэнд. Именно он в 1986 году предложил термин «Data Mining». Конечно, история работы с большими данными началась существенно раньше. Уже в 1960-х годах на фоне развития баз данных и статистических методов, начались первые эксперименты по автоматизации анализа больших объемов данных.
В 90-х годах ИАД начал активно развиваться, что было связано с быстрым развитием компьютеров и возможностью считать мегабайты и гигабайты данных. В этот период были разработаны основные методы, такие как деревья решений, нейронные сети, регрессионный анализ, временные ряды и т.д.
С развитием интернет-технологий в нулевые появилось множество инструментов и программ для анализа данных. Пришла новая эпоха хранения и обработки данных, что привело к более эффективному использованию методов ИАД в различных отраслях.
На сегодняшний день существует множество программных пакетов, которые позволяют производить операции над большими группами данных и анализировать их относительно быстро. Удачными примерами служат: IBM SPSS Modeler, RapidMiner, SAS Enterprise Miner, Knime, Weka и др. Также в настоящее время появляются и новые методы и технологии, такие как глубокое обучение, которые позволяют работать с еще более сложными наборами данных и получать более точные результаты.
В целом, развитие анализа данных продолжается. Футурологи считают, что в будущем это станет еще более важной областью, так как объемы данных продолжают расти, а эффективное использование этих данных становится все более критичным для бизнеса и науки.
Теперь предлагаю дать определение и рассмотреть область интеллектуального анализа данных более предметно. Понятие «интеллектуальный анализ данных» лучше всего охарактеризовывает Григорий Пиатецкий-Шапиро (один из основателей данного научного направления). По его мнению, ИАД – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
В этом определении кроется целевая направленность дисциплины. Данные, которые могут быть использованы для ИАД, могут быть различных типов: текст, изображение, звук, числовые данные и т. д., но они должны иметь практически полезный смысл, то есть конкретное применение на практике.
Основными задачами, которые решаются в Data Mining, являются:
Остановимся на каждом из этих понятий поподробнее, так как понимание задач ИАД, может качественно помогать решать поставленные практические проблемы перед учеными данных.
Классификация: обнаружение признаков, которые характеризуют группы объектов исследуемого набора данных — классы; по этим признакам новый объект можно отнести к тому или иному классу.
Кластеризация: логическое продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.
Ассоциация: в ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно.
Прогнозирование: на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей.
Визуализация: создание графического образа анализируемых данных.
Чем больше проблем рождается в интеллектуальном анализе данных, тем больше появляется методов решения. В рамках данной статьи я приведу лишь часть методов, которые используются для решения наиболее актуальных и широкопрофильных задач.
Деревья решений – это метод пришел из машинного обучения. Он позволяет классифицировать данные на основе их характеристик. Дерево решений представляет собой графическое представление решения задачи классификации.
Процесс построения дерева решений начинается с корневого узла. Он представляет собой всю полноту выборки данных. Затем последовательно определяется наилучший признак, который наиболее точно разделяет данные на классы. Между делом алгоритм постоянно делает тесты на этом признаке. Результат тестов определяет, в каком направлении продолжается дерево. Процесс не завершиться до тех пор, пока не будет достигнут листовой (конечный) узел. На его основании можно стоить прогнозы.
Главным преимуществом дерева является его интерпретируемость (объясняемость). Через них можно обрабатывать разнотипные данные, включая числовые признаки или логические категории.
Главным недостатком этого метода, я считаю, его склонность к переобучению. Это происходит, когда дерево слишком точно соответствует обучающей выборке. То есть такое дерево имеет высокую способность объяснять закономерности, но только на вводных данных. А если условия поменяются, точность может стать крайне низкой.
Деревья решений чаще всего используются в сферах, где есть ограниченные наборы данных или нужно сделать выводы на основании исторических данных. В маркетинге для анализа данных о покупателях и «умном ценообразовании» можно использовать деревья решений.
Нейронные сети (далее НС). Этот метод также вышел из машинного обучения. Он менее понятный, так как представляет совокупность множества взаимосвязанных нейронов, способных обрабатывать и анализировать информацию.
Существует множество различных типов нейронных сетей, включая многослойные персептроны, сверточные НС, рекуррентные НС и другие.
Нейронные сети обучаются путем корректировки весовых коэффициентов между нейронами. Обучение может быть проведено с помощью различных методов, включая обратное распространение ошибки, генетические алгоритмы и алгоритмы кластеризации.
Нейронные сети могут быть использованы для решения многих задач, например:
1. Распознавание образов. НС могут быть обучены для распознавания образов на изображениях. Это используется в алгоритмах распознавания лиц или классификация объектов на изображении.
2. Классификация. НС могут быть использованы для классификации объектов на основе их свойств. После обучения такие нейронные сети могут вычленять признаки агрессивно написанного текста или распознавать удивление.
3. Прогнозирование. НС могут быть использованы для прогнозирования будущих значений на основе исторических данных. Часто такие НС, они могут быть использованы для прогнозирования цен на акции или изменения погоды.
Так или иначе, алгоритм работы НС позволяет при обучении определить наиболее корректные веса между различными нейронами. А это позволяет делать логические выводы с высокой точностью.
Ассоциативные правила используются для поиска скрытых связей между переменными в больших наборах данных. Предпосылкой данного метода является предполагаемая зависимость между различными элементами набора данных, и что эти зависимости могут быть использованы для предсказания будущих событий.
Наиболее распространенным применением ассоциативных правил является анализ корзины покупок в магазинах. Розничные продавцы могут использовать ассоциативные правила для того, чтобы понимать, какие товары обычно покупают вместе. Таким образом, магазин будет предлагать клиенту другие товары, которые он также хотел купить.
Самым известным алгоритмом ассоциативных правил является алгоритм Apriori. На первом этапе он находит все группы, которые встречаются в исходном наборе данных. Затем алгоритм проходит по каждой группе и проверяет, насколько часто он встречается в наборе данных. Если набор встречается достаточно часто, то алгоритм считает его значимым и продолжает работу со следующим набором. Если набор встречается слишком редко, то он отбрасывается. Можно сказать, что используется интеллектуальный перебор групп данных.
Результатом работы алгоритма Apriori будут выступать правила вида «Если А, то В«, которые описывают зависимости между различными элементами данных. Например, правило «Если покупается хлеб и молоко, то вероятно, что будет куплено яйца» говорит о том, что товары «хлеб» и »молоко» часто покупаются вместе, и что при покупке этих товаров клиенты часто покупают также и яйца.
Регрессионный анализ — это один из наиболее простых типов анализа данных. Его используют для нахождения взаимосвязей между объясняемой переменной и одной или несколькими объясняющими переменными. Регрессионный анализ используется для предсказания значений зависимой переменной на основе значений независимых переменных.
Для проведения регрессионного анализа используется статистическая или эконометрическую модель (иногда называется описательной статистикой). Обычно используется линейная модель регрессии, но могут быть использованы и другие типы моделей, такие как логистическая модель регрессии или полиномиальная модель.
Метод применяется во многих областях науки, включая экономику, маркетинг, финансы и медицину. Эталонным в эконометрике примером регрессионного анализа может служить прогнозирование объема продаж на основе различных факторов, таких как цена, количество рекламы и временной период. Использование регрессионного анализа может помочь определить наиболее значимые факторы, которые влияют на продажи, и прогнозировать будущие прибыли на основе этих факторов.
Временные ряды тоже являются классическим эконометрическим методом в ИАД. Он используется для анализа данных, изменяющихся во времени. Временные ряды могут быть применены для прогнозирования будущих значений, выявления трендов или сезонностей, а также для выявления аномалий.
Временные ряды состоят из набора значений, которые измеряли в однородные (последовательные) промежутки времени. Например, это могут быть данные о ценах на акции, температуре воздуха или количестве запросов на поиск сайта в интернете.
Для анализа временных рядов используются различные модели, использующие методы: скользящего среднего, экспоненциального сглаживания, анализа авторегрессии и скользящего среднего (ARMA), анализ авторегрессии и интегрированного скользящего среднего (ARIMA) и многие другие. Через алгоритм временных рядов часто прогнозируют различные экономические показатели.
Говоря о выводах в своей статье я хотел бы остановить внимание на последних научных работах в области интеллектуального анализа данных. Перечислю несколько актуальных зарубежных исследований в области Data Mining:
1. «AutoML for Time Series: A Review of the State-of-the-Art» — исследование, посвященное применению автоматизированного машинного обучения для временных рядов. Авторы обзорно описывают существующие методы автоматизации в области временных рядов и рассматривают перспективы их использования.
2. «Federated Learning: Strategies for Improving Communication Efficiency» — исследование, посвященное проблеме передачи данных при использовании федеративного обучения. Авторы предлагают новые стратегии для улучшения эффективности передачи данных в системах федеративного обучения.
3. «Efficient Deep Learning for Big Data: A Review» — обзорная статья о применении глубокого обучения для обработки больших объемов данных. Авторы исследуют различные методы оптимизации глубокого обучения, которые могут улучшить эффективность обработки больших объемов данных.
4. «Clustering Big Data: A Survey» — обзорная статья о применении методов кластеризации для больших объемов данных. Авторы рассматривают различные методы кластеризации и применение их в различных областях, таких как биомедицинская и финансовая индустрии.
5. «Anomaly Detection in Healthcare Data: A Survey» — обзорная статья о применении методов обнаружения аномалий для медицинских данных. Авторы исследуют различные методы обнаружения аномалий и их применение в медицинской индустрии для обнаружения рисков и опасностей для здоровья пациентов.
Данные работы демонстрируют, что ИАД остается одной из самых актуальных областей современной науки. Развитие новых методов и технологий позволяет использовать данные более эффективно, что в свою очередь приводит к появлению новых инноваций и улучшению качества жизни людей.
Также хотел бы заострить внимание на этических и правовых проблемах анализа данных. Нередко внимание общественности привлекает использование персональных и конфиденциальных данных при аналитике. Ранее уже практики использования ИАД для создания третированной рекламы, но выяснили, что она вызывает недоверие и чувство нарушения частной жизни. К сожалению, на сегодняшний день существуют риски использования данных для манипуляции общественным мнением или воздействия на общественно-политические процессы.
В заключении важно отметить, что интеллектуальный анализ данных уже нашел своё место в различных областях жизнедеятельности, таких как бизнес, медицина, наука и технологии. Технологии и инструменты ИАД постоянно совершенствуются и улучшаются. Современные системы основанные на методах ИАД обладают высокой скоростью обработки данных и удобными пользовательскими интерфейсами, что делает эту область доступной для широкого круга специалистов.
Таким образом, Data Mining является неотъемлемой частью научного дискурса. Сфера больших данных продолжает развиваться и находить новые применения в нашей жизни. Потенциал интеллектуального анализа данных еще не полностью раскрыт, и в будущем мы можем ожидать новых методов, технологий и инструментов, которые помогут нам справляться с растущим объемом данных и находить в них новые возможности и знания.
Data Mining – интеллектуальный анализ данных
Data Mining переводится как “добыча” или “раскопка данных”. Нередко рядом с Data Mining встречаются слова “обнаружение знаний в базах данных” (knowledge discovery in databases) и “интеллектуальный анализ данных”. Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.
До начала 90-х годов, казалось, не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой (см. например, [1]). Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками.
Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания – они решали главным образом свои частные проблемы обработки небольших локальных баз данных.
И вот прозвенел звонок. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией” Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Специфика современных требований к такой переработке следующие:
- Данные имеют неограниченный объем
- Данные являются разнородными (количественными, качественными, текстовыми)
- Результаты должны быть конкретны и понятны
- Инструменты для обработки сырых данных должны быть просты в использовании
Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина – концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).
В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в табл. 1.
Таблица 1. Примеры формулировок задач при использовании методов OLAP и Data Mining [2]
| OLAP | Data Mining |
| Каковы средние показатели травматизма для курящих и некурящих? | Какие факторы лучше всего предсказывают несчастные случаи? |
| Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)? | Какие характеристики отличают клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании? |
| Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке? | Какие схемы покупок характерны для мошенничества с кредитными карточками? |
Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки (рис.1).
Рисунок 1. Уровни знаний, извлекаемых из данных
В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро – один из основателей этого направления:
- ранее неизвестных
- нетривиальных
- практически полезных
- и доступных интерпретации знаний,
- необходимых для принятия решений в различных сферах
- человеческой деятельности.
2. Кому это нужно”
Сфера применения Data Mining ничем не ограничена – она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко говоря, заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. [3]. Известны сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример – годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.
Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе. Кратко охарактеризуем некоторые возможные бизнес-приложения Data Mining [2].
2.1. Некоторые бизнес-приложения Data Mining
Розничная торговля
Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:
- анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.
- исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа “Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку””
- создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.
Банковское дело
Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:
- выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.
- сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.
- прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов, и соответствующим образом обслуживать каждую категорию.
Телекоммуникации
В области телекоммуникаций методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удерживать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие:
- анализ записей о подробных характеристиках вызовов.Назначение такого анализа – выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг;
- выявление лояльности клиентов. Data Mining можно использовать для определения характеристик клиентов, которые, один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.
Страхование
Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:
- выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.
- анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.
Другие приложения в бизнесе
Data Mining может применяться во множестве других областей:
- развитие автомобильной промышленности. При сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе;
- политика гарантий. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок;
- поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу клиентов, которых данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она таким образом изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили.
2.2. Специальные приложения
Медицина
Известно много экспертных систем для постановки медицинских диагнозов. Они построены главным образом на основе правил, описывающих сочетания различных симптомов различных заболеваний. С помощью таких правил узнают не только, чем болен пациент, но и как нужно его лечить. Правила помогают выбирать средства медикаментозного воздействия, определять показания – противопоказания, ориентироваться в лечебных процедурах, создавать условия наиболее эффективного лечения, предсказывать исходы назначенного курса лечения и т. п. Технологии Data Mining позволяют обнаруживать в медицинских данных шаблоны, составляющие основу указанных правил.
Молекулярная генетика и генная инженерия
Пожалуй, наиболее остро и вместе с тем четко задача обнаружения закономерностей в экспериментальных данных стоит в молекулярной генетике и генной инженерии. Здесь она формулируется как определение так называемых маркеров, под которыми понимают генетические коды, контролирующие те или иные фенотипические признаки живого организма. Такие коды могут содержать сотни, тысячи и более связанных элементов.
На развитие генетических исследований выделяются большие средства. В последнее время в данной области возник особый интерес к применению методов Data Mining. Известно несколько крупных фирм, специализирующихся на применении этих методов для расшифровки генома человека и растений.
Прикладная химия
Методы Data Mining находят широкое применение в прикладной химии (органической и неорганической). Здесь нередко возникает вопрос о выяснении особенностей химического строения тех или иных соединений, определяющих их свойства. Особенно актуальна такая задача при анализе сложных химических соединений, описание которых включает сотни и тысячи структурных элементов и их связей.
Можно привести еще много примеров различных областей знания, где методы Data Mining играют ведущую роль. Особенность этих областей заключается в их сложной системной организации. Они относятся главным образом к надкибернетическому уровню организации систем [4], закономерности которого не могут быть достаточно точно описаны на языке статистических или иных аналитических математических моделей [5]. Данные в указанных областях неоднородны, гетерогенны, нестационарны и часто отличаются высокой размерностью.
3. Типы закономерностей
Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование (рис. 2).

Рисунок 2. Типы закономерностей, выявляемых методами Data Mining
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и “кока-колу”, а при наличии скидки за такой комплект “колу” приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.
Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.
4. Классы систем Data Mining
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (рис. 3). Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка. Ниже приводится классификация указанных ключевых компонент на основе работы [6]. Выделенным классам дается краткая характеристика.
Рисунок 3. Data Mining – мультидисциплинарная область
Рисунок 4. Популярные продукты для Data Mining
4.1. Предметно-ориентированные аналитические системы
Предметно-ориентированные аналитические системы очень разнообразны. Наиболее широкий подкласс таких систем, получивший распространение в области исследования финансовых рынков, носит название “технический анализ”. Он представляет собой совокупность нескольких десятков методов прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля, основанных на различных эмпирических моделях динамики рынка. Эти методы часто используют несложный статистический аппарат, но максимально учитывают сложившуюся своей области специфику (профессиональный язык, системы различных индексов и пр.). На рынке имеется множество программ этого класса. Как правило, они довольно дешевы (обычно $300-1000).
4.2. Статистические пакеты
Последние версии почти всех известных статистических пакетов включают наряду с традиционными статистическими методами также элементы Data Mining. Но основное внимание в них уделяется все же классическим методикам – корреляционному, регрессионному, факторному анализу и другим. Самый свежий детальный обзор пакетов для статистического анализа приведен на страницах ЦЭМИ. Недостатком систем этого класса считают требование к специальной подготовке пользователя. Также отмечают, что мощные современные статистические пакеты являются слишком “тяжеловесными” для массового применения в финансах и бизнесе. К тому же часто эти системы весьма дороги – от $1000 до $15000.
Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. А эти характеристики, как указывалось выше, при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами.
В качестве примеров наиболее мощных и распространенных статистических пакетов можно назвать SAS (компания SAS Institute), SPSS (SPSS), STATGRAPICS (Manugistics), STATISTICA, STADIA и другие.
4.3. Нейронные сети
Это большой класс систем, архитектура которых имеет аналогию (как теперь известно, довольно слабую) с построением нервной ткани из нейронов. В одной из наиболее распространенных архитектур, многослойном перцептроне с обратным распространением ошибки, имитируется работа нейронов в составе иерархической сети, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя. На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения, прогнозировать развитие ситуации и т. д. Эти значения рассматриваются как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ – реакция всей сети на введенные значения входных параметров. Для того чтобы сеть можно было применять в дальнейшем, ее прежде надо “натренировать” на полученных ранее данных, для которых известны и значения входных параметров, и правильные ответы на них. Тренировка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.
Основным недостатком нейросетевой парадигмы является необходимость иметь очень большой объем обучающей выборки. Другой существенный недостаток заключается в том, что даже натренированная нейронная сеть представляет собой черный ящик. Знания, зафиксированные как веса нескольких сотен межнейронных связей, совершенно не поддаются анализу и интерпретации человеком (известные попытки дать интерпретацию структуре настроенной нейросети выглядят неубедительными – система “KINOsuite-PR”).
Примеры нейросетевых систем – BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500-8000.
Рисунок 5. Полиномиальная нейросеть
4.4. Системы рассуждений на основе аналогичных случаев
Идея систем case based reasoning – CBR – на первый взгляд крайне проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называют методом “ближайшего соседа” (nearest neighbour). В последнее время распространение получил также термин memory based reasoning, который акцентирует внимание, что решение принимается на основании всей информации, накопленной в памяти.
Системы CBR показывают неплохие результаты в самых разнообразных задачах. Главным их минусом считают то, что они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт, – в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов CBR системы строят свои ответы.
Другой минус заключается в произволе, который допускают системы CBR при выборе меры “близости”. От этой меры самым решительным образом зависит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза [7].
Примеры систем, использующих CBR, – KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).
4.5. Деревья решений (decision trees)
Деревья решения являются одним из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа “ЕСЛИ… ТО…” (if-then), имеющую вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид “значение параметра A больше x””. Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный – то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.
Популярность подхода связана как бы с наглядностью и понятностью. Но деревья решений принципиально не способны находить “лучшие” (наиболее полные и точные) правила в данных. Они реализуют наивный принцип последовательного просмотра признаков и “цепляют” фактически осколки настоящих закономерностей, создавая лишь иллюзию логического вывода.
Вместе с тем, большинство систем используют именно этот метод. Самыми известными являются See5/С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), KnowledgeSeeker (ANGOSS, Канада). Стоимость этих систем варьируется от 1 до 10 тыс. долл.

Рисунок 6. Система KnowledgeSeeker обрабатывает банковскую информацию
4.6. Эволюционное программирование
Проиллюстрируем современное состояние данного подхода на примере системы PolyAnalyst – отечественной разработке, получившей сегодня общее признание на рынке Data Mining. В данной системе гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором внутреннем языке программирования. Процесс построения программ строится как эволюция в мире программ (этим подход немного похож на генетические алгоритмы). Когда система находит программу, более или менее удовлетворительно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые повышают точность. Таким образом система “выращивает” несколько генетических линий программ, которые конкурируют между собой в точности выражения искомой зависимости. Специальный модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.).
Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в форме функций какого-то определенного вида. Например, в одном из наиболее удачных алгоритмов этого типа – методе группового учета аргументов (МГУА) зависимость ищут в форме полиномов. В настоящее время из продающихся в России систем МГУА реализован в системе NeuroShell компании Ward Systems Group.
Стоимость систем до $ 5000.
4.7. Генетические алгоритмы
Data Mining не основная область применения генетических алгоритмов. Их нужно рассматривать скорее как мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Тем не менее генетические алгоритмы вошли сейчас в стандартный инструментарий методов Data Mining, поэтому они и включены в данный обзор.
Первый шаг при построении генетических алгоритмов – это кодировка исходных логических закономерностей в базе данных, которые именуют хромосомами, а весь набор таких закономерностей называют популяцией хромосом. Далее для реализации концепции отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с помощью процедур репродукции, изменчивости (мутаций), генетической композиции. Эти процедуры имитируют биологические процессы. Наиболее важные среди них: случайные мутации данных в индивидуальных хромосомах, переходы (кроссинговер) и рекомбинация генетического материала, содержащегося в индивидуальных родительских хромосомах (аналогично гетеросексуальной репродукции), и миграции генов. В ходе работы процедур на каждой стадии эволюции получаются популяции со все более совершенными индивидуумами.
Генетические алгоритмы удобны тем, что их легко распараллеливать. Например, можно разбить поколение на несколько групп и работать с каждой из них независимо, обмениваясь время от времени несколькими хромосомами. Существуют также и другие методы распараллеливания генетических алгоритмов.
Генетические алгоритмы имеют ряд недостатков. Критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения “лучшего” решения. Как и в реальной жизни, эволюцию может “заклинить” на какой-либо непродуктивной ветви. И, наоборот, можно привести примеры, как два неперспективных родителя, которые будут исключены из эволюции генетическим алгоритмом, оказываются способными произвести высокоэффективного потомка. Это особенно становится заметно при решении высокоразмерных задач со сложными внутренними связями.
Примером может служить система GeneHunter фирмы Ward Systems Group. Его стоимость – около $1000.
4.8. Алгоритмы ограниченного перебора
Алгоритмы ограниченного перебора были предложены в середине 60-х годов М.М. Бонгардом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множества задач из самых различных областей.
Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = a; X < a; X a; a < X < b и др., где X – какой либо параметр, “a” и “b” – константы. Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр.
Наиболее ярким современным представителем этого подхода является система WizWhy предприятия WizSoft. Хотя автор системы Абрахам Мейдан не раскрывает специфику алгоритма, положенного в основу работы WizWhy, по результатам тщательного тестирования системы были сделаны выводы о наличии здесь ограниченного перебора (изучались результаты, зависимости времени их получения от числа анализируемых параметров и др.).
Автор WizWhy утверждает, что его система обнаруживает ВСЕ логические if-then правила в данных. На самом деле это, конечно, не так. Во-первых, максимальная длина комбинации в if-then правиле в системе WizWhy равна 6, и, во-вторых, с самого начала работы алгоритма производится эвристический поиск простых логических событий, на которых потом строится весь дальнейший анализ. Поняв эти особенности WizWhy, нетрудно было предложить простейшую тестовую задачу, которую система не смогла вообще решить. Другой момент – система выдает решение за приемлемое время только для сравнительно небольшой размерности данных.
Тем не менее, система WizWhy является на сегодняшний день одним из лидеров на рынке продуктов Data Mining. Это не лишено оснований. Система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы. Стоимость системы около $ 4000, количество продаж – 30000.

Рисунок 7. Система WizWhy обнаружила правила, объясняющие низкую урожайность некоторых сельскохозяйственных участков
4.9. Системы для визуализации многомерных данных
В той или иной мере средства для графического отображения данных поддерживаются всеми системами Data Mining. Вместе с тем, весьма внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примером здесь может служить программа DataMiner 3D словацкой фирмы Dimension5 (5-е измерение).
В подобных системах основное внимание сконцентрировано на дружелюбности пользовательского интерфейса, позволяющего ассоциировать с анализируемыми показателями различные параметры диаграммы рассеивания объектов (записей) базы данных. К таким параметрам относятся цвет, форма, ориентация относительно собственной оси, размеры и другие свойства графических элементов изображения. Кроме того, системы визуализации данных снабжены удобными средствами для масштабирования и вращения изображений. Стоимость систем визуализации может достигать нескольких сотен долларов.
What Is Data Mining?
![]()
It’s easier than ever to collect a lot of data. But having this data isn’t enough to provide value — you need a way to make sense of the information you collect. Data mining allows you to sift through information, separate out anomalies, find patterns and gain insight.
Organizations in many industries, such as retail, health care, and manufacturing, use data mining extensively to strengthen their customer relationships, maximize functionality and save money. Take a closer look at what data mining is used for and various data mining applications.
What Is Data Mining?
Data mining uses automation, machine learning, and computers to unveil patterns and discover valuable information in large sets of data. It’s more involved than a simple search of data. The process uses available information to develop analyses and determine probabilities. Through data mining, a business can make predictions and develop insights.
Multiple data mining techniques exist, but at their heart, they have two primary goals. One goal involves the use of machine learning algorithms to make predictions. The other focuses on creating a description of the target data.
Three disciplines provide the backbone for modern-day data mining:
- Statistics: Statistics is the practice of collecting and studying the numeric values of large data sets.
- Machine learning: Machine learning involves the use of algorithms that make predictions based on collected data.
- Artificial intelligence: Artificial intelligence (AI) refers to machines or software that can display human-like intelligence.
Data mining as data collection has grown as computing power has become more affordable. Data mining is automated and quick as it mostly eliminates manual and time-consuming tasks, allowing for the collection of ever-more complex data sets. Thanks to data mining, industries can gain faster insights and reveal connections that allow them to optimize prices, target particular demographics and understand risk and competition.
History of Data Mining
The name “data mining” might be relatively new, but the concept is old. Data mining dates back to a time before computers. Sometimes known as knowledge discovery in databases, the precursor of data mining might be Bayes’ Theorem. Bayes’ Theorem is a formula that allows you to determine conditional probability.
The theorem is named after Thomas Bayes, a mathematician from the 18th century. It was developed in the mid-1700s and is used to determine the likelihood that something will occur, based on previous occurrences in similar situations. As new data enters the picture, Bayes’ Theorem allows for the revision of predictions. Like modern-day data mining, Bayes’ Theorem has multiple applications.
Data mining was also jumpstarted by the development of the Method of Least Squares, a type of regression analysis, in the early 1800s. Regression analysis estimates the relationship between dependent and independent variables using a set of statistical methods. It also allows for the modeling of potential future relationships between variables.
Jump forward to the 20th century, and the scene was laid for data mining as it exists today. One example of early 20th-century data mining is the Turing Universal Machine. Developed by Alan Turing, the “father of modern computer science,” the Turing machine uses a rote method to accomplish any task. It was a revolutionary idea in the 1930s, even though it seems commonplace today.
Near the end of the 20th century, the development of databases, algorithms and knowledge discovery in databases, combined with ever-faster computer processors and increasingly large data storage capabilities, transformed data mining into a powerful and prolific process.
How Data Mining Works
Data mining typically follows a six-step process, called the Cross-Industry Standard Process for Data Mining. The process is circular and allows steps to be repeated when and as needed. The steps are as follows:
1. Business Understanding
The business understanding phase of the process typically involves reflecting on the organization’s goals and objectives. One way to think of this phase is as an opportunity to zero in on your business’s primary area of concern. Some questions to ask in this phase include:
- What problem are you trying to solve?
- What is your goal?
- What data do you have available?
- What data do you need?
2. Data Understanding
In the second phase of the process, you begin collecting data. Ideally, the data you gather will appropriately address your goals and allow you to reach them. This information can come from multiple sources, such as surveys, geolocation data, and sales. Evaluate data quality at this time, familiarize yourself with it and discover any initial insights.
3. Data Preparation
Once you have the relevant data, you need to prepare it. Along with business understanding, the data preparation phase can be the most time-consuming. Data preparation contains three parts — extraction, transformation and loading (ETL).
During extraction, the data is collected from the sources and put into a staging area. It’s then cleaned, or transformed. During transformation, errors are corrected, duplicates eliminated and null sets populated. The data then gets allocated into appropriate tables. During loading, the data gets placed into a database.
4. Modeling
The next step, data modeling, decides how best to solve the problem or address your organization’s problem. Data modeling techniques include clustering, regression analysis and classification. You might use multiple models on the same type of data, depending on your overall goals.
5. Evaluation
Data evaluation takes place after you build and test your models. The goal of evaluation is to assess the efficiency of each model to see how it addresses the problems and goals you identified during the business understanding step. If a model doesn’t appropriately address or meet objectives, you can develop a new one or attempt to use a different data set.
6. Deployment
Finally, if all goes well and the data model is successful, it’s time to deploy it. Deployment can take multiple forms, depending on the overarching goals. A company might develop a new sales approach or put measures into place to reduce risk.
Data Mining Tools and Techniques
Data mining tools include algorithms and rules that transform abundant data into usable information. Several of the more commonly used techniques and tools include:
- Neural networks: Neural networks mimic the human brain by consisting of several layers of nodes. When a node has an output value above a threshold, it sends data to the next layer.
- Decision trees: A decision tree in data mining predicts or classifies outcomes using regression or classification methods. It resembles a tree, with each branch representing a potential result of a decision.
- Association rules: Association rules look for relationships between the variables in a dataset. Often, association rules let companies determine the connections between their products and the consumption habits of their customer base.
- K-nearest neighbors: K-nearest neighbor is an algorithm that sorts data based on proximity and connection to other data. It assumes that similar data points will be near each other. It assigns data to a category based on the distances between the data points.
Data Mining Benefits
No matter your industry, data mining offers several benefits, including:
- Access to useful information: Big data can be overwhelming if you don’t have a method or process for managing it. With data mining, you can separate the usable data from the insignificant. Thanks to data mining, your organization can gain valuable insight and details into its operations.
- Increased profitability: Data mining can lead to increased revenues and profits. It’s a money-saving opportunity, as it allows you to identify areas of waste or where you can improve efficiency.
- Better decision-making: Based on the data you collect, you can make more informed decisions about your organization. Weigh the pros and cons of specific actions and assess how a certain choice would affect your bottom line, customer retention or other business aspects.
- Fraud and risk detection: You can identify fraud more easily with data mining. It also highlights areas of risk. For example, data mining can pick up suspicious transactions or behaviors.
- Trend identification: Use data mining to get to know your customers better and assess their habits. It also allows you to identify trends, such as a shift in purchasing or an increase in the use of certain services. You can then adjust your production or area of focus to accommodate the latest trends.
Industries That Use Data Mining
Data mining has applications across multiple industries. Some industries stand to particularly benefit from data mining projects.
Retail
Whether large or small, retailers can use data mining in many ways to improve sales, increase customer retention and manage inventory levels. Retailers can also use data mining to track the effectiveness of sales and promotions.
A retailer can use data mining to sort its customers into categories based on their purchase habits and frequencies. The retailer can then target those customers with promotions and marketing that are most relevant to their needs and buying style. Often, customers get sorted into groups based on how recently they purchased, how frequently they purchase, and how much they spend per purchase.
To determine who goes where, a retailer needs data on frequency, time, and date of purchase and purchase amount. Customers who made a purchase within the past week go into one group. Customers who haven’t purchased within the past year fall into another. The retailer might send an email to the customers who haven’t bought anything in a year or more, providing them with a coupon or discount. Customers in the recent-purchase category might get an email that thanks them and offers them a coupon for their next purchase.
A retailer can also use data mining to determine staffing levels at a particular location. Based on sales volume, a retailer might decide to have more employees on the clock in the late afternoon to accommodate a higher volume of customers during that time.
Customer Relationship Management
Beyond retail, any industry that works with customers or uses a customer relationship management (CRM) system can benefit from data mining. Using data mining, you can make predictions about your customer’s behavior. It’s an excellent way to forecast future sales. Looking at past sales volume or service requests, you can pinpoint exactly when people are likely to buy products or schedule services. You can then adjust your inventory to accommodate an uptick or downtick in sales.
Data mining also allows you to identify customer issues, such as a sudden drop-off in orders or sales or an increased rate of complaints. The data you gather allows you to make changes to your processes to keep customers happy and increase retention.
Data mining for CRM can also lead to higher loyalty levels, reduced fraud, and better marketing segmentation.
Health Care
Data mining in health care can lead to an improved quality of care for patients. During a visit, a doctor gathers the necessary information about a patient, including their past medical history, current symptoms, allergies and medications. Data mining automates the analysis of the patient’s information, helping a doctor pinpoint a diagnosis more quickly.
Data mining also streamlines treatment and can potentially reduce patient risk. A patient with a particular condition or taking a certain medication might not be a good candidate for the standard treatment for another illness. Analysis of the patient’s data, compared to other details and information, allows a doctor to quickly detect any potential drug interactions or issues. It allows them to choose a treatment that will be more effective and less risky.
In a broader sense, data mining can help the healthcare industry discover larger patterns, such as disease clusters in certain regions. It can also reduce fraud in the industry by ensuring providers only bill for services completed or that providers don’t bill for excess treatments.
Manufacturing
Data mining has multiple uses in the manufacturing industry. It can help streamline the manufacturing process by allowing companies to identify areas of inefficiencies. It can also reduce costs by allowing an organization to compare the difference between using one type of material or working with one supplier compared to another.
Similarly, data mining allows manufacturers to develop a maintenance plan for machinery and equipment that minimizes downtime and increases efficiency. A manufacturing company can analyze data regarding the breakdown timeline for equipment and the recommended maintenance frequency to keep machinery operational for as long as possible.
RD’s Suite of Products Offer Comprehensive Data Preparation, Data Testing, and Validation Solutions
To get the most out of data mining, you need a tool that’s intuitive, efficient, flexible, and scalable when used for data testing, validation, and reconciliation. Dextrus’s Data Wrangler allows you to prepare & analyze, compare datasets, reconcile and validate data, and report your results. As a no-code platform, both tools are also user-friendly.
Dextrus can help sift through any data anomalies, which reduces financial risk, as well as credibility and compliance damages. You can use Dextrus — Data Wrangler and RDt’s testing suite for the following:
- Data Procurement
- Data Enrichment
- Data Preparation
- Big Data Testing
- BI/Report Testing
- Data Migration Testing
- DevOps To DataOps
- ETL Testing
- SAP Data Testing
Schedule a Demo of Dextrus Today
If you’re ready to start data mining or want to simplify your data journey, RightData can help. With Dextrus, you gain valuable insights into your data through advanced analytics, machine learning, and reporting.