Мовсисян Леон Каренович – студент магистратуры Института информационных технологий МИРЭА – Российского технологического университета.
Павлович Татьяна Вячеславовна – кандидат технических наук, доцент кафедры Практической и прикладной информатики Института информационных технологий МИРЭА – Российского технологического университета.
Аннотация: В данной статье рассматриваются особенности использования больших данных в области маркетинга. Описывается методология CRISP-DM, как потенциальный инструмент маркетинговой аналитики. На основании этого формируется гипотеза применения данного инструмента в соответствующем модуле программного обеспечения корпоративной информационной системы предприятия.
Ключевые слова: большие данные, CRISP-DM, корпоративные информационные системы, маркетинг.
Введение
В современной бизнес-среде главная функция маркетинга заключается в создании и обеспечении свободного и конкурентного обмена между производителями и потребителями. Рынок должен быть обеспечен эффективным спросом и предложением на товары и услуги. Для этого требуется организация потока товаров и услуг между участниками рынка, а также сопровождение этого процесса потоком информации. Роль маркетинга состоит в обеспечении процесса обмена и коммуникации между продавцами и покупателями. [1]
Типичные ошибки на каждом этапе CRISP-DM и как их избежать. Иван Гуз (Авито)
В эпоху широкого применения разработок в области обработки данных в развивающихся с точки зрения цифровизации секторах экономики, внедрение системы, позволяющей отслеживать основные маркетинговые показатели может привнести ощутимые улучшения в эффективности предприятия. Ориентация на потребителя, предполагает сосредоточение внимания на определение потребностей покупателя, и создание на их основе ценностей, которые будут пользоваться спросом.
С учетом географических, демографических, социально-культурных особенностей потенциальных таргетированных групп система с гибкими настройками аналитики, позволит предприятию обрабатывать и планировать маркетинговые кампании с высокой точностью.
Использование больших данных в маркетинге позволяет принимать решения на основании data-driven подхода. Примеры использования больших данных в маркетинге:
- Сегментация клиентов.
- Повышение лояльности клиентов.
- Визуализация данных.
- Разработка новых продуктов.
- Снижение коэффициента оттока клиентов.
- Прогнозирование продаж.
Методология CSRISP DM
CRISP-DM (Cross Industry Standard Process for Data Mining) – стандарт, описывающий общие процессы и подходы к аналитике данных, используемые в data-mining проектах независимо от конкретной задачи и индустрии.
Одно из важных свойств методологии является сопоставление целей решаемой задачи с корпоративными бизнес-целям компании. Это позволяет сопровождать проект по анализу данных как полноценный элемент бизнес-процессов компании.
Еще одной особенностью методологии является довольно детальное документирование каждого шага. Согласно принципам, лежащим при разработке данного инструмента, хорошо задокументированный процесс позволяет участникам проекта лучше понимать его суть и более точно влиять на принятие решений, например, на стадии внедрения сложных математических моделей.
2.4 Как работает аналитик данных CRISP DM
Согласно CRISP-DM, аналитический проект состоит из шести основных этапов, выполняемых последовательно:
- бизнес-анализ (Business understanding);
- анализ данных (Data understanding);
- подготовка данных (Data preparation);
- моделирование (Modeling);
- оценка результата (Evaluation);
- внедрение (Deployment). [2]
Каждый из этапов, описанных выше, делится на задачи, на выходе которых должен формироваться определенный результат. Однако, так как методология является гибкой, допускается возвращаться или пропускать определенные шаги, которые не являются необходимыми в процессе решения задач из области применения. На Рисунке 1 представлены этапы аналитического проекта с соответствующими задачами, из числа которых выделенные являются критически важными в области маркетинга.
Рисунок 1. Этапы аналитического проекта согласно методологии CRISP-DM.
Применение методологии CSRIP DM в процессе разработки ПО КИС
Для полноценного эффекта методологию CRISP-DM следует внедрять в корпоративные информационные системы, а именно в бизнес-процессы, отвечающий за поддержку управления маркетинговой деятельности предприятия. Соответствующие этому задачи могут делегироваться через специализированную информационную системы или модуль корпоративной информационной системы в области маркетинга.
Маркетинговая информационная система (MIS – Marketing Information System) – это система, предназначенная для сбора, обработки и анализа информации, используемой организацией для принятия маркетинговых и стратегических решений. [3]
Функциями данного модуля являются:
- Выявление трендов развития.
- Обнаружение рисков и предотвращение/решения потенциальных проблем.
- Сбор, хранение, сортировка, предварительный анализ маркетинговой информации.
- Повышение эффективности стратегии и обновление политики в области маркетинга предприятия.
- Оценка работы специалистов в области маркетинга, эффективность их действий, а также используемых инструментов.
На Рисунке 2 представлена схема общего взаимодействия модулей корпоративной информационной системы на разных промежутках цепочки поставок.
Рисунок 2. Схема общего взаимодействия модулей КИС на разных промежутках цепочка поставок.
Компонентами модуля MIS являются:
- Система внутренней информации.
- Система внешней информации.
- Система маркетинговых исследований.
- Система поддержки маркетинговых решений.
Для решения задач в рамках, например, настройки маркетинговой кампании требуется соответствующее математическое обеспечение, которое возможно внедрять во все компоненты модуля MIS с помощью методологии CRISP-DM.
Заключение
Таким образом, применения инструмента CRISP-DM в программном обеспечении корпоративных информационных систем, позволит автоматизировать внедрение аналитических моделей, повысить эффективность предпринимаемых действий и решать потенциальные проблемы в области маркетинга.
- Филимонова, В. Д. Роль маркетинга в современной предпринимательской деятельности. Молодой ученый. – 2020. – № 4 (294). – с. 181-184.
- «Big Data в маркетинге: 6 вариантов применения» [Электронный ресурс] URL: https://vc.ru/marketing/78946-big-data-v-marketinge-6-variantov-primeneniya (Дата обращения: 21.12.2022).
- «Что такое маркетинговая информационная система?» [Электронный ресурс] URL: https://sendpulse.com/ru/support/glossary/marketing-information-system (Дата обращения: 19.12.2022).
- «CRISP-DM: проверенная методология для Data Scientist-ов» [Электронный ресурс] URL: https://habr.com/ru/company/ lanit/blog/328858/ (Дата обращения: 18.12.2022).
- «What is the Data Science Process?» URL: https://www.datascience-pm.com/data-science-process/ (Дата обращения: 19.12.2022).
Источник: na-journal.ru
Тренды в аналитике и управлении данными в финтехе
Предсказательная аналитика, использование real-time данных и нового подхода к управлению данными — все это помогает предлагать клиентам подходящие продукты и конкурировать на рынке. Раскрываем ключевые тенденции в управлении данными в финтехе. А помогает нам Денис Занков, управляющий директор команды данных и моделирования.
Рост предсказательной аналитики
Предсказательная, или предиктивная, аналитика помогает прогнозировать важные для бизнеса показатели. Например, с какой вероятностью клиент согласится оформить финансовый продукт или где разместить новый офис, чтобы он приносил большую прибыль.
Предиктивная аналитика тесно связана с data-driven-подходом, согласно которому компании принимают ключевые бизнес-решения на основе большого массива данных, или big data. Для этого их собирают из разных внутренних систем и внешних источников. Используя эти данные, специалисты по машинному обучению строят модели, чтобы найти закономерности и извлечь бизнес-ценность для компании.
- Увеличить эффективность рекламных кампаний. Например, в Газпромбанке запущен маркетинговый оптимизатор, который предлагает, как распределять клиентов по каналам коммуникации в зависимости от продукта.
- Управлять рисками. Искусственный интеллект в состоянии определить сигналы в финансовом поведении клиента, которые указывают на возможные проблемы.
- Обнаруживать мошеннические транзакции в системах антифрода. На обучающей выборке модели учатся различать подозрительные операции и прогнозировать вероятность их совершения.
- Создавать персонализированные предложения. Каждый клиент пользуется финансовыми продуктами, которыми закрывает свои потребности. Например, одни берут кредиты на путешествия, другие — на ремонт. Машинное обучение помогает изучить интересы и потребности клиентов, чтобы предложить продукт, который им сейчас нужен.
- Делать коммуникацию с помощью голосовых помощников более эффективной и естественной. Благодаря предиктивной аналитике они учатся понимать, какая тональность и темп речи будут наиболее приятны и убедительны для собеседника.
Бизнес-подход к работе с данными
Как извлекать данные и каких принципов в работе с ними придерживаться, в каждой компании решают по-своему. Можно делать упор на моделировании и технической составляющей обработки данных, а можно сфокусироваться на бизнес-задачах, которые стоят перед компанией. При таком подходе используется стандарт CRISP-DM (Cross-Industry Standard Process for Data Mining).
Методология хоть и не новая, но не теряет популярности. Анализ поисковых запросов в Google за 2019–2020 годы показывает интерес к этой методологии: информацию о ней искали более 4 000 раз.
- Бизнес-анализ. Цели этого этапа — понять, какие требования ставит бизнес, что он хочет получить. Когда цели понятны, их можно переформулировать в контексте задач дата-сайентистов. Например, по какой метрике будет оцениваться результативность модели и что будет говорить о ее успешности.
- Анализ данных. На этом шаге команда собирает первоначальные данные и проверяет их качество.
- Подготовка данных. Этап включает отбор данных, исправление или удаление ошибок в наборах, интеграцию данных из нескольких источников.
- Моделирование. В зависимости от задачи специалисты выбирают несколько моделей, которые обучают на подготовленных данных.
- Оценка решений. Когда модель построена и протестирована, результат ее работы оценивается с точки зрения достижения бизнес-требований, которые были сформулированы еще на первом шаге.
- Внедрение. Если результат модели устраивает бизнес, то ее внедряют в прод.
Обработка данных в реальном времени
Предсказательная аналитика в основном опирается на исторические данные, которые собраны, например, за неделю, месяц и более. Но сейчас наблюдается тренд на использование данных, полученных в реальном времени. Исследование международного аналитического агентства Forrester Research показало, что такие данные в предиктивной аналитике планируют внедрить или уже используют 89% банков, представители которых участвовали в опросе.
Обработка потоковых данных в реальном времени помогает финтех-компаниям учитывать в общении с клиентом его текущее поведение. Например, человек, который никогда не интересовался кредитом на недвижимость, стал заходить в раздел «Ипотека» в банковском приложении. Раньше, чтобы бизнес учел это изменение в поведении и смог предложить клиенту актуальный продукт, должно было пройти время. А обработка потоковых данных позволяет увидеть это в моменте и применить для решения задач.
Real-time-данные в сочетании с предиктивной аналитикой помогают быстрее обнаружить и приостанавливать подозрительные транзакции. Алгоритмы машинного обучения выявляют неочевидные закономерности в поведении клиента. Чем быстрее получится обнаружить такие транзакции и проверить на мошенничество, тем эффективнее работает банк.
Аналитика правильных данных
Чтобы построить модель, результаты которой можно использовать на практике, нужны качественные данные. Согласно стандарту ISO 9000:2015, они должны быть:
- Полными — когда данных достаточно, чтобы решить поставленную бизнес-задачу.
- Достоверными — они не искажены и не содержат ошибки, например аномальные значения, которые возникли из-за сбоя в сервисе.
- Точными — показывают нужный уровень детализации, например сколько транзакций совершается каждый час, а не каждый день.
- Согласованными — в наборах данных, которые связаны между собой, нет противоречий. Если два клиента банка имеют одинаковый доход, владеют недвижимостью равной площади, то кредитный рейтинг у них должен быть одинаковым, а не разным.
- Своевременными — данные доступны в нужный момент времени.
Поскольку массив данных, которые генерируют финтех-компании, большой, отобрать полезные данные под конкретную задачу непросто. Кроме того, среди внутренних данных может не оказаться нужных, потому что их не собирают. Например, компания хочет использовать в прогнозной модели стоимость квадратного метра в Москве за последние полгода. Своих данных по этому показателю у нее нет, поэтому надо приобрести их у другой организации. При этом важно, чтобы датасет был с правильными данными, которые легко обработать, интерпретировать и использовать в контуре компании.
Большие объемы данных позволяют выявлять всё более нетривиальные закономерности и на их основе делать более точные прогнозы. Но мир быстро меняется, внешние условия влияют на поведение пользователей и целые отрасли, что заставляет компании искать новый подход к управлению данными.
Простой доступ к нужному источнику данных
Компании хранят данные в нескольких источниках: часть может стекаться во внутреннее хранилище, другие разделены между базами разных отделов или облачными сервисами. Чтобы в любой момент использовать нужный датасет, у специалистов должен быть доступ ко всем источникам. Для управления данными, которые разбиты между несколькими хранилищами, разработали концепцию Data mesh.
В этой концепции разрозненные источники существуют сами по себе. Каждым хранилищем управляет своя команда, она же решает, какую data-архитектуру применить. Так легче обходить бюрократические сложности, которые бывают при централизованном хранении данных. Но в то же время команде придется обеспечить доступ к источнику, если он потребуется, например, другому департаменту.
Data-mesh-архитектуру реализовал крупнейший американский банк JPMorgan Chase. С помощью этого подхода он структурировал data lakes в виде каталога, чтобы обеспечить к ним более простой доступ и легкое совместное использование.
Так американский банк JPMorgan Chase реализовал Data-mesh-архитектуру
Технологическая платформа Intuit, которая разрабатывает финансовое программное обеспечение, также заинтересовалась концепцией Data mesh. В частности, идеей, когда за данные отвечают локальные команды. В компании изучили проблемы, с которыми сталкиваются специалисты, и на этой основе разработали стратегию управления данными. Она дает возможность командам легко проектировать, развивать и описывать высококачественные системы данных так, чтобы другие пользователи могли их применять.
Хранение данных в облачных сервисах
Финансовые компании собирают большие объемы данных — более 2 Пбайт. Чтобы с ними работать, нужна data-инфраструктура, развертывать которую внутри крупной компании — дорого и сложно. Задачу упрощают облачные сервисы, которые предоставляют свою архитектуру для управления данными. Благодаря этому финтех-компании могут быстрее выводить новые продукты на рынок и оптимизировать бизнес-процессы без вложений в дорогостоящее оборудование.
Последние события в мире привели к тому, что облачные провайдеры стали уходить из России. Выбор подходящего поставщика осложняется тем, что не все учитывают особенности финансовых организаций, когда предлагают различные решения по хранению и обработке данных.
Руководитель направления «Облачные сервисы» Ассоциации ФинТех.
В общемировой практике есть тренд по стандартизации облачных сервисов и провайдеров услуг. Их внедрением, доработкой и обсуждением с участниками рынка занимаются отдельные организации. В России на данный момент разрабатываются единые требования к облачным сервисам и созданию системы сертификации. Эта работа ведется в том числе на площадке Ассоциации ФинТех (АФТ).
Несмотря на глобальные изменения, аналитика и управление данными продолжают развиваться. А решения, которые принимают финтех-компании, помогают извлекать из данных максимум пользы для бизнеса.
Источник: www.gpbspace.ru
Использование CRISP-DM для прогнозирования цен на автомобили
Наука о данных используется во все большем количестве областей и различных отраслей для увеличения ценности. Хотя варианты использования и вопросы могут сильно различаться в зависимости от отрасли, существует общий процесс, так называемый процесс CRISP-DM, который представляет собой подход к ответам на вопросы на основе данных. CRISP-DM означает Межотраслевой стандартный процесс интеллектуального анализа данных, см. Эту статью в Википедии для получения дополнительных сведений. В этом блоге мы проиллюстрируем процесс CRISP-DM и применим его к проблеме прогнозирования цен на автомобили на основе определенных характеристик автомобилей, например лошадиные силы, миля на галлон (миль на галлон) и т. д.
CRISP-DM
Процесс CRISP-DM состоит из нескольких шагов, которые кратко представлены на рисунке ниже:
- Деловое понимание: процесс начинается с делового понимания. На этом этапе мы определяем, какую проблему мы хотим решить или на какие вопросы хотим ответить.
- Понимание данных: второй шаг касается данных, которые следует использовать для поддержки решения бизнес-проблемы. Эти данные необходимо собрать и понять их значение. Например, если данные хранятся в таблице, необходимо знать точное значение каждого столбца. Понимание данных может привести к необходимости вернуться к первому шагу, то есть пониманию бизнеса.
- Подготовка данных: на этом этапе данные подготавливаются для следующего шага, то есть моделирования данных. Подготовка данных включает, например, стратегию работы с отсутствующими значениями. В общем, данные обычно не так чисты, как можно было бы ожидать. Но поскольку данные низкого качества могут привести к неправильным ответам на бизнес-вопросы, этап подготовки данных включает также очистку данных.
- Моделирование. Этот шаг — один из основных, на котором пытаются найти модель, описывающую данные. С точки зрения нашей бизнес-задачи прогнозирования цены автомобиля на основе его характеристик, modellig означает поиск функции, которая сопоставляет характеристики автомобиля с его ценой. Возможно, на этапе моделирования потребуется вернуться к этапу подготовки данных (например, если на этапе моделирования мы осознаем, что данные еще не были в достаточной степени очищены).
- Оценка. После того, как модель построена, нам нужно проверить, насколько хороша ее производительность. Это делается на этапе оценки. Например, мы могли бы спрогнозировать цены на автомобили на основе модели, для которой нам известны реальные цены, и сравнить, насколько близки прогнозируемые значения к фактическим.
- Развертывание. На последнем этапе, если мы удовлетворены производительностью модели, нам нужно запустить ее в производство. Для примера прогнозирования цены на автомобиль это может означать, что мы создаем приложение, которое позволяет вводить определенные характеристики автомобиля в форму и возвращает прогноз цены пользователю.
Пример пошагового руководства CRISP-DM для цен на автомобили
В этом разделе показаны этапы процесса CRISP-DM на примере прогнозирования цен на автомобили. Мы предоставляем здесь только общий обзор, технические подробности можно найти в репозитории GitHub.
Деловая проблема
Как упоминалось выше, процесс CRISP-DM начинается с понимания бизнес-проблемы. Представьте, например, продавца подержанных автомобилей, которому нужно оценить, какой может быть цена на подержанный автомобиль. Автосалон может быть заинтересован в прогнозировании цены автомобиля на основе его характеристик. Точнее, мы постараемся ответить на следующие 3 бизнес-вопроса:
- Связана ли цена автомобиля с мощностью?
- Связана ли цена ухода с длиной автомобиля?
- Можно ли с разумной точностью спрогнозировать цену автомобиля на основе его характеристик?
Анализ и подготовка данных
Данные взяты из репозитория машинного обучения UCI и находятся здесь. Важно прочитать документацию по данным, которую можно найти по той же ссылке, что и выше, поскольку сами данные не имеют имен столбцов. Ниже представлен образец данных:
В приведенном выше примере не все столбцы. Мы видим такие атрибуты, как «город на галлон» и «лошадиные силы». Крайний правый столбец — это цена, которую мы хотим спрогнозировать на основе других атрибутов. Данные содержат пропущенные значения, поэтому необходима их очистка. Мы заменяем значение интеллектуального анализа данных в столбце на среднее значение всех других значений в этом столбце.
Моделирование
Чтобы создать модель для прогнозирования цены на основе других характеристик, мы используем алгоритм k-ближайших соседей (kNN). Идея kNN проста: учитывая характеристики автомобиля (например, мощность в лошадиных силах и расход топлива в городе), для которых мы не знаем цены, мы ищем в наборе данных те k автомобилей, которые имеют наиболее похожие значения. этих функций и за которые мы знаем цену. На основе этих k цен мы можем сделать прогноз, например, взяв среднее значение k цен. Более подробную информацию о kNN можно найти здесь.
Оценка
Чтобы оценить производительность модели kNN, мы используем показатель, называемый r2-score. Показатель r2 — это доля дисперсии целевой переменной (которая является ценой в нашем примере), которая предсказуема на основе переменных характеристик (например, лошадиных сил и городских миль на галлон). Показатель r2 — это число от 0 до 1 (или от 0% до 100%). Чем ближе оценка r2 к 1, тем лучше модель. Более подробную информацию о r2-score можно найти здесь.
Чтобы ответить на первые два бизнес-вопроса, мы создаем модель, которая нацелена на прогнозирование цены с использованием только одной функции (нас особенно интересуют характеристики мощности и длины, поскольку они относятся к первым бизнес-вопросам) и оцениваем соответствующий r2- оценки. Вот список результатов: