Data mining
Data mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро[англ.] в 1989 году[1][2][3].
Английское словосочетание «data mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания[4]: просев информации, добыча данных, извлечение данных, а также интеллектуальный анализ данных[5][6][7]. Более полным и точным является словосочетание «обнаружение знаний в базах данных» (англ. knowledge discovery in databases, KDD).
Основу методов data mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам data mining нередко относят статистические методы (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями data mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).
Одно из важнейших назначений методов data mining состоит в наглядном представлении результатов вычислений (визуализация), что позволяет использовать инструментарий data mining людьми, не имеющими специальной математической подготовки.
Применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
Введение
[править | править код]Методы data mining (или, что то же самое, knowledge discovery in data, сокращённо KDD) лежат на стыке статистики и искусственного интеллекта[8].
Исторический экскурс
[править | править код]Область data mining началась с семинара, проведённого Григорием Пятецким-Шапиро в 1989 году[1].
Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — data mining («добыча данных»[9]) и knowledge discovery in data (который следует переводить как «открытие знаний в базах данных»).
В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по data mining.
Постановка задачи
[править | править код]Первоначально задача ставится следующим образом:
- имеется достаточно крупная база данных;
- предполагается, что в базе данных находятся некие «скрытые знания».
Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных. В текущих условиях глобальной конкуренции именно найденные закономерности (знания) могут быть источником дополнительного конкурентного преимущества.
Что означает «скрытые знания»? Это должны быть обязательно знания:
- ранее неизвестные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
- нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
- практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;
- доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
Эти требования во многом определяют суть методов data mining и то, в каком виде и в каком соотношении в технологии data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.
Data mining и базы данных
[править | править код]Методы data mining могут применяться как для работы с большими данными, так и для обработки сравнительно малых объёмов данных, полученных, например, в результате отдельных экспериментов или при анализе деятельности организаций.[10] В качестве критерия достаточного объёма данных рассматриваются как предметная область исследования, так и применяемый алгоритм анализа.[11]
Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта на предприятии, плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т. н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.
Data mining и искусственный интеллект
[править | править код]Знания, добываемые методами data mining, принято представлять в виде закономерностей (паттернов). В качестве таких выступают:
Алгоритмы поиска таких закономерностей находятся на пересечении областей: Искусственный интеллект, Математическая статистика, Математическое программирование, Визуализация, OLAP.
Data mining и бизнес
[править | править код]По мнению компании IBM, обработка «больших данных» — это «способность по-новому использовать информацию для выработки полезных идей или создания товаров и услуг, имеющих высокую ценность» Это определение трактует большие данные как разновидность аналитики, так как работа с ними направлена на извлечение полезных сведений, способных обеспечить конкурентное преимущество[12].
Задачи
[править | править код]Задачи, решаемые методами data mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).[13]
В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
К описательным задачам относятся:
- поиск ассоциативных правил или паттернов (образцов);
- группировка объектов, кластерный анализ;
- построение регрессионной модели.
К предсказательным задачам относятся:
- классификация объектов (для заранее заданных классов);
- регрессионный анализ, анализ временны́х рядов.
К числу современных исследований в области предсказательного анализа относятся работы израильского специалиста в области искусственного интеллекта Кира Радински, которая совместно с Эриком Хорвицем разработала методы прогнозирования социальных, природных и эпидемиологических событий на основе анализа исторических и сетевых данных. Разработанные модели, в частности, применялись для прогнозирования вспышек холеры на Кубе с использованием более чем 150-летнего массива исторических данных.[14][15]
Алгоритмы обучения
[править | править код]Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.
Этапы обучения
[править | править код]Типичный процесс решения задач методами data mining включает следующие этапы:[16]
- Постановка задачи анализа и определение целей исследования;
- Сбор и интеграция исходных данных;
- Подготовка данных (очистка, фильтрация, дополнение, кодирование и преобразование признаков);
- Выбор модели и метода анализа данных;
- Настройка параметров модели и алгоритма обучения;
- Обучение модели и автоматический подбор внутренних параметров;
- Оценка качества полученной модели; при неудовлетворительных результатах — возврат к этапам выбора модели или настройки параметров;
- Интерпретация выявленных закономерностей и практическая валидация результатов; при необходимости — повторная постановка задачи или корректировка исходных данных.
Подготовка данных
[править | править код]Перед использованием алгоритмов data mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объём, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.
Далее данные фильтруются. Фильтрация удаляет выборки с шумами и пропущенными данными.
Отфильтрованные данные сводятся к наборам признаков (или векторам, если алгоритм может работать только с векторами фиксированной размерности), один набор признаков на наблюдение. Набор признаков формируется в соответствии с гипотезами о том, какие признаки сырых данных имеют высокую прогнозную силу в расчете на требуемую вычислительную мощность для обработки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путём обнаружения в изображении глаз и рта. В итоге происходит уменьшение объёма данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объём анализируемых данных, а значит и время анализа.
Ряд алгоритмов умеют обрабатывать пропущенные данные, имеющие прогностическую силу (например, отсутствие у клиента покупок определенного вида). Скажем, при использовании метода ассоциативных правил обрабатываются не векторы признаков, а наборы переменной размерности.
Выбор целевой функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.
Наблюдения делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма data mining, а тестовый набор — для проверки найденных закономерностей.
См. также
[править | править код]Примечания
[править | править код]- 1 2 См. его интервью Архивная копия от 16 декабря 2010 на Wayback Machine, данное им журналу «Компьютерра» в 2007 году.
- ↑ В. А. Дюк, А. В. Флегонтов, И. К. Фомина, Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях.
- ↑ О. С. Коваленко, Обзор проблем и перспектив анализа данных (недоступная ссылка).
- ↑ А. А. Ежов, С. А. Шумский, Лекция: Извлечение знаний с помощью нейронных сетей Архивная копия от 7 апреля 2011 на Wayback Machine.
- ↑ Microsoft SQL Server 2008 R2: новый подход к управлению информацией Архивировано 15 июля 2014 года.
- ↑ Data Mining от Oracle: настоящее и будущее Архивная копия от 8 марта 2012 на Wayback Machine.
- ↑ Степанов Р. Г. Технология Data Mining: Интеллектуальный Анализ Данных Архивная копия от 11 июня 2017 на Wayback Machine.
- ↑ Григорий Пятецкий-Шапиро, Data Mining и перегрузка информацией // Вступительная статья к книге: Анализ данных и процессов / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. З-е изд. перераб. и доп. СПб.: БХВ-Петербург, 2009. 512 с. С. 13.
- ↑ Обсуждаем термин: data mining / Школа технического перевода Архивная копия от 2 февраля 2014 на Wayback Machine.
- ↑ Witten, Ian H. Data Mining: Practical Machine Learning Tools and Techniques / Ian H. Witten, Eibe Frank, Mark A. Hall. — 3rd. — Morgan Kaufmann, 2011. — P. 3—5. — ISBN 9780123748560.
- ↑ Tan, Pang-Ning. Introduction to Data Mining / Pang-Ning Tan, Michael Steinbach, Vipin Kumar. — Pearson, 2018. — P. 26—34. — ISBN 9780133128901.
- ↑ Миллнер, Хан, 2022, Переход к Big Data, с. 77-78.
- ↑ Han, Jiawei. Data Mining: Concepts and Techniques : [англ.] / Jiawei Han, Micheline Kamber, Jian Pei. — 3rd. — Morgan Kaufmann, 2011. — ISBN 9780123814791.
- ↑ Radinsky, Kira; Horvitz, Eric (2013). Mining the Web to Predict Future Events. Proceedings of the ACM International Conference on Web Search and Data Mining. doi:10.1145/2433396.2433431.
- ↑ Kira Radinsky, 27 (англ.). MIT Technology Review (2013).
- ↑ Han, Jiawei. Data Mining: Concepts and Techniques / Jiawei Han, Micheline Kamber, Jian Pei. — 3rd. — Morgan Kaufmann, 2011. — ISBN 9780123814791.
Литература
[править | править код]- Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям (+ СD). — СПб.: Изд. Питер, 2009. — 624 с.
- Дюк В., Самойленко А. Data Mining: учебный курс (+CD). — СПб.: Изд. Питер, 2001. — 368 с.
- Журавлёв Ю.И., Рязанов В.В., Сенько О.В. РАСПОЗНАВАНИЕ. Математические методы. Программная система. Практические применения. — М.: Изд. «Фазис», 2006. — 176 с. — ISBN 5-7036-0108-8.
- Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.
- Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7.
- Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник. — К.: КНЕУ, 2007. — 376 с.
- Ian H. Witten, Eibe Frank and Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques. — 3rd Edition. — Morgan Kaufmann, 2011. — P. 664. — ISBN 9780123748560.
- Дэйв Миллнер, Надим Хан. HR-аналитика. Практическое руководство по работе с персоналом на основе больших данных = Introduction to People Analytics: A practical guide to data-driven HR. — М.: Альпина Паблишер , 2022. — 384 с. — ISBN 978-5-9614-7831-0.
- Орлов А.И. Искусственный интеллект: статистические методы анализа данных : учебник. — М.: Ай Пи Ар Медиа, 2022. — 843 c. — ISBN 978-5-4497-1470-1
- Орлов А.И., Луценко Е.В. Анализ данных, информации и знаний в системной нечеткой интервальной математике: научная монография. – Краснодар: КубГАУ, 2022. – 405 с.
- А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. — Методы и модели анализа данных: OLAP и Data Mining. — СПб.: БХВ-Петербург, 2004. — 336 с.
- А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. — Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е изд., — СПб.: БХВ-Петербург, 2007. — 384 с.
- А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. — Анализ данных и процессов: учеб. пособие. 3-е изд., — СПб.: БХВ-Петербург, 2009. — 512 с.
Ссылки
[править | править код]- Data Mining Software в каталоге ссылок Curlie (dmoz)