Ценность данных в современном мире возрастает буквально с каждым днем. Так, спикеры и участники Web Summit 2018 уже назвали Big Data «новой нефтью». А 85% компании указали, что данные являются одним из самых ценных активов для них (исследование Global Data Management Research, 2019, № 1100, Experian). Это очевидно с учетом того, что все больше компаний ориентируются в своей деятельности на data-driven.
Для маркетинга же данные — это не только нефть, это настоящее золото. Однако, еще одно исследование (Adobe, 2016) показало неутешительные результаты — 54% компаний считают, что качество и полнота данных для них являются самой большой проблемой, когда они занимаются data-driven маркетингом. В этой статье поговорим об управлении качеством данных в маркетинге — почему это важно и зачем их улучшать.
Как используются данные
Как мы видим, данные в компаниях невероятно востребованы — они помогают принимать правильные управленческие решения и встроены во все важнейшие бизнес-процессы — то есть, по сути, вся деятельность бизнеса завязана на качественных данных.
Основное качество предпринимателя. Жесткость VS Жестокость в бизнесе.
Однако, по статистике, руководители многих компаний считают, что данные, которые у них имеются, используются не полностью. Почему так происходит? В поисках ответа на этот вопрос мы нашли удивительную цифру — всего лишь 3% менеджеров получили удовлетворительные результаты, проведя экспресс-анализ качества данных (исследование Harvard Business Review, 2017, № 100, Irish Management Institute).
И вот здесь возникает уже глобальный вопрос — как такое возможно? Исследование Harvard Business Review, хоть и довольно примитивное, но очень наглядное.
В проведенном анализе участвовало 100 менеджеров различных компаний — их попросили отобрать 10−15 критичных для бизнеса атрибутов данных. Затем они выгрузили последние 100 записей из соответствующих таблиц и сделали довольно простой анализ: посчитали процент записей, в которых нет ни одной ошибки, и таким образом получили показатели Data Quality Score.
Удивительно, но только 3% менеджеров получили значение метрики больше 97%. Это кажется невероятным, но это действительно так. Если посмотреть на моду в этом графике, то в 80% случаев данные являются корректными, а есть парадоксальные компании, у которых 90% данных — некорректные.
Почему так происходит при такой востребованности данных?
Исходя из нашего опыта, мы определили для себя 2 важные причины:
1.Отсутствие понимания, что данные — это ценнейший актив. Конечно, многие компании сейчас говорят о важности данных, но, как показывает практика, истинное понимание этого отсутствует, иначе невозможно объяснить такое безалаберное отношение к данным в компаниях.
2.Ограниченные ресурсы, стихийное развитие процессов. Ресурсов, которые бизнес выделяет на процесс управления данными, зачастую недостаточно, а компетенции в управлении данными возникают случайно и неупорядоченно.
Как обеспечить качественный результат в бизнесе?
Но в любом правиле есть и исключения — это процессы по управлению данными, которые находятся в фокусе комплаенс и информационной безопасности (здесь без контроля качества данных и оборота этих данных никак не обойтись).
При чем тут маркетинг?
Никто не станет спорить с тем, что эффективность современного маркетинга и достижение лучшего клиентского опыта основаны на анализе данных. Существует ошибочное представление, что нужны какие-то «готовые данные», но давно уже пора принять тот факт, что готовых для маркетинга данных не появится. Данные зависли в «колодцах» маркетинга, коммерческих, обслуживающих, сервисных, финансовых, IT, продуктовых и RL компании — достигается за счет оптимизации расходов на маркетинг и увеличения продаж.
4.Кросс-продажи дополнительных продуктов или услуг существующим клиентам — корректные данные дают верное представление о новых возможностях для компании.
5.Качественное представление о потребителях — правильные данные позволяют удерживать клиентов и развивать отношения с ними.
6.Возможность реагировать на изменения раньше и быстрее разрабатывать продукты в ответ на них — это важнейшее преимущество бизнеса доступно только при наличии качественных данных в компании и их корректном анализе.
А теперь рассмотрим, что происходит, если у нас данные некачественные.
Исследование Global Data Transformation Survey (McKinsey, 2019) показывает, что 30% времени в компаниях тратится впустую вследствие низкого качества данных:
- обработка и очистка данных отнимает больше половины ресурсов, включая время дорогостоящих дата-саентистов. По нашему опыту, работа с данными — это 80% времени, и получается, что около половины всего времени тратится впустую из-за некачественных данных;
- устаревшие и ненадежные данные приводят к дорогостоящим ошибкам и неправильным шагам: неточный таргетинг, некорректные сообщения, неудачное время, зря потраченный бюджет и т. д.
Что предлагаем мы?
Команда экспертов Reshape Analytics предлагает клиентам:
1) Возможность провести полноценный экспресс-аудит или отдельные сессии, направленные на понимание уровня качества ваших данных, существующих бизнес-проблем, а также выявление зон роста. Мы можем зафиксировать, что конкретно для этого нужно компании в плане аналитики и работы с данными, чтобы они помогали бизнесу постоянно расти.
2) Различные аналитические инструменты, которые позволяют сократить время работу с данными — их обработку и очистку. Так, у нас есть готовые инструменты AltMacros, которые можно развернуть и буквально за полчаса получить ответы на значимые для бизнеса вопросы. При этом, встроенные умные алгоритмы сами проводят очистку и обработку ваших данных, автоматически исследуют их и выдают правильные рекомендации по принятию управленческих решений.
Оставьте заявку на бесплатную консультацию, на которой мы подробно разберем задачи и особенности вашего бизнеса, ответим на все интересующие вопросы и сомнения, а также расскажем о реальных возможностях и инструментах для прокачки вашего бизнеса.
Источник: reshape.ru
Качество данных: критерии оценки
При работе с корпоративными данными важна их точность, непротиворечивость, доступность, достоверность, актуальность, целостность, измеримость, управляемость, релевантность. Совокупность оценок перечисленных показателей демонстрирует качество данных (Data Quality). Эта характеристика обозначает пригодность данных к обработке и анализу, их соответствие обязательным и специальным требованиям. На пригодность данных для работы влияет сфера бизнеса или отдела, который с ними работает, а также критерии оценки. Одни и те же данные для финансового отдела могут быть пригодны для работы, а для аналитиков – нет.
Анализ качества данных и работа с ним важна в проектах при построении хранилищ и озер данных. Чтобы данные, которые попадают в эти структуры, в последующие отчетности и аналитику данных были качественными, приемлемого уровня согласно требованиям, которые выдвигает заказчик. Это первая и наиболее частая задача при построении интеграционных и миграционных проектов. Также при перемещении систем важно восстановление качества данных до уровня требуемого другой системой.
Второй вид проектов, где есть работа с качеством данных: управление нормативно-справочной информацией, ведение справочников, выявление дубликатов данных, приведение данных к необходимому виду для дальнейшего использования. Например, приведение адресов в стандартизированный вид для сегментации данных.
Третий вид проектов – управление данными Data Governance, содержащее информацию о проверках качества, об уровне и показателях качества данных по тем метрикам, которые заказчик выбрал, чтобы понять, насколько можно и нужно использовать данные, получаемые пользователем при выгрузке информации или в отчетах. В таких проектах вопросы восстановления решаются отдельно в зависимости от того, что необходимо пользователю.
Вопросы качества важны и в процессах защиты данных. Например, при обезличивании тестовых сред.
Управление качеством данных
Качество данных тесно связано с продуктами, которые обеспечивают проверку и приведение качества в необходимый вид, согласно выдвигаемым требованиям со стороны владельцев данных. Поэтому инструменты, направленные на работу с качеством данных, должны содержать в себе набор характеристик и функций, которые не зависят от типа данных (важна возможность работы с данными любого формата) и имеют широкие возможности.
В первую очередь функции должны включать возможность разного рода проверок качества данных. Унифицированный формат стандартных проверок с техническими метриками – профилирование (первоначальная оценка данных, чтобы понять их текущее состояние). Оно включает в себя построение профиля данных, которое позволяет определить, что представляют данные с точки зрения технического заполнения, какого они формата, их максимальные и минимальные значения, полноту данных, соответствие требованиям по актуальности, распределение по основным профилям.
Вторая функция – проверка качества данных, согласно требованиям, выдвигаемым бизнесом. Например, попадают ли данные в нужный набор условий согласно бизнес-процессам. Так, для нефтегазовой отрасли актуален показатель условий погружения насоса в слой нефти и т.п.
Третья функция связана с возможностью восстановления качества данных и механизмами обогащения данных, их доставки из других систем и источников, стандартизации данных, то есть их приведение к нужному виду по тому, как данные стоят внутри поля (например, адрес, номер телефона, e-mail).
Четвертая функция – наличие системы отчетности, которая показывает текущий уровень качества данных, изменение уровня качества и те наборы данных, которые не соответствуют нужным параметрам с уведомлением, что качество изменилось с указанием сути проблемы.
Широкий функционал по управлению качеством данных есть у решения ФормИТ DQ. Оно решает следующие задачи: обеспечение качества данных, мониторинг полноты и качества данных, выявление дубликатов и обеспечение чистоты данных, стандартизация и консолидация данных. Решение обеспечивает качество данных путем создания проверок силами бизнес-пользователей, проверок и обеспечения качества данных на основе технических требований, единого реестра проверок качества данных, валидации данных при их передаче, выявления дубликатов и построения мастер-записей для всех видов данных, а также мониторинга проверок качества и профилирования данных на всех этапах. Как результат, растет доверие к данным, предоставляемым бизнес-подразделениями, осуществляется проактивный мониторинг качества данных с оповещением владельцев данных в случае изменения уровня качества, сквозной мониторинг качества данных в каждой точке их преобразования.
В управлении качеством может помочь и решение Юниверс DQ в проектах с Data Governance. Оно имеет программный компонент, трансформирующий входные данные в выходные, набор стандартных функций по очистке данных, возможность разработать и подключить сторонние функции, построить новые функции как композиции существующих функций. Решение помогает хранить и классифицировать найденные ошибки, фильтровать записи с ошибками в пользовательском интерфейсе, экспортировать обнаруженные ошибки с данными. Качество данных обеспечивается за счет нескольких фаз: фильтрация данных, их валидация, очистка и проверка согласованности, а также обогащение внутренними и внешними источниками.
Показатели качества данных
Метрики качества данных могут быть разнообразны. Есть методика оценки качества данных и метрики, которые определяются регулятором. К ним относятся:
- полнота – содержат ли данные информацию, необходимую для конкретного бизнес-процесса;
- точность – полностью ли соответствуют данные необходимым требованиям по значениям и заполнению;
- актуальность данных, своевременность – описываются ли данные события в требуемом временном интервале;
- согласованность – не противоречат ли данные друг другу
- доступность – время и усилия, которые требуются для получения данных в определенном формате и др.
Есть более детализированные метрики, которые могут понадобиться бизнес-пользователю. Например, валидность данных, когда при их перемещении они соответствуют данным источников, или возможность использования данных в том или ином диапазоне. Инструменты, которые отвечают за качество данных, должны уметь работать с проверками и требованиями по восстановлению данных. Не все можно восстановить и проверить с точки зрения качества данных, поэтому инструменты, которые есть на рынке, занимаются чаще всего строчными данными, числовыми, но не работают на уровне бинарных данных или не поддерживают возможность работы с большими объемами или бизнес-логикой.
Если важна метрика контролируемости данных (указание на то, что данные приходят из нужного источника), согласованность данных, соответствие хранимых данных в системе наименованиям, которые им присвоены, то используется Data Governance – платформа для управления корпоративными данными. Она позволяет быстро находить любые данные, выстраивать единую понятийную основу, обеспечивать быстрый поиск терминов, анализировать связи. Решение обеспечивает консолидацию знаний о данных, структурирует совместную работу с ними и облегчает понимание, как данные влияют на бизнес.
Данные с ошибками
Среди ошибок чаще всего встречается неполнота данных. В некоторых случаях в зависимости от выдвигаемых заказчиком требований и матрицы критериев такие данные могут считаться качественными и использоваться в определенных сферах. Например, в банке при создании единого клиентского справочника заказчик поставил задачу, что данные должны содержать ФИО, дату и место рождения клиента. В ходе работы выяснилось, что место рождения указано только у 2% клиентов. Такие данные можно использовать только в ограниченном сегменте, а для составления справочника их недостаточно.
Среди ошибок не редко возникает недостоверность данных. Например, когда имеет место неверный тип данных (значения в определенном столбце должны иметь определенный тип данных), диапазон (временной, числовой и др.), неверный набор значений.
Иногда встречается несоответствие данных. Оно возникает, когда два значения в наборе данных противоречат друг другу.
При выявлении ошибок их можно исправить вручную, автоматически при помощи инструментов обеспечения качества данных, при обработке данных с помощью скриптов. Исправление данных включает в себя анализ причин ошибок (определяется источник ошибочных данных, причины возникновения ошибок, изолируются факторы, влияющие на эту проблему), парсинг и стандартизацию (сопоставление записей в базах данных с заданными паттернами, грамматикой и репрезентациями для выявления неверных значений), сопоставление данных (выявление одинаковых данных и их объединение), добавление новых данных и их мониторинг. Все это осуществляют разные решения и платформы после оценки качества данных и выявления ошибок.
Низкокачественные данные препятствуют принятию эффективных бизнес-решений, проведению точных аналитических исследований, прогнозированию будущих процессов в бизнесе. Поэтому решения в сфере оценки и управления качеством данных так эффективны в работе бизнеса.
Автор: Олег Гиацинтов, технический директор DIS Group
Источник: dis-group.ru
Что такое метрики качества данных? (С использованием и 4 типами)
Многие представители бизнеса, такие как менеджеры по продажам и руководители высшего звена, используют метрики качества данных, чтобы помочь улучшить показатели продаж своей команды и добиться лучших результатов. Существует несколько типов метрик качества данных, и каждый из них имеет различные цели. Изучение показателей качества данных может помочь вам использовать их в своих командах и собирать более актуальную информацию, которую можно использовать для увеличения продаж.
В этой статье мы дадим определение метрик качества данных, опишем способы их использования и перечислим несколько типов, которые обычно применяются в бизнесе.
Что такое метрики качества данных?
Метрики качества данных — это показатели, которые вы можете использовать для оценки качества данных. Они могут помочь вам провести различие между высококачественными и некачественными данными, и на их основе можно принимать решения, связанные с маркетингом или распределением ресурсов. Показатели качества данных можно применять в различных отраслях, включая здравоохранение, научные круги, финансы, технологии и страхование.
Способы использования метрик качества данных в бизнесе
Вот несколько способов использования метрик качества данных в бизнесе:
Установите целевые показатели качества данных
Возможно, вы захотите установить целевые показатели качества данных после внутреннего аудита или жалобы клиента. Цель может помочь вам измерить успех инициативы по обеспечению качества данных за определенный период времени. Например, предположим, что ваш отдел обслуживания клиентов получает ряд жалоб от клиентов на неправильную адресную информацию. Вы можете поставить цель повысить точность адресов на 20% в течение следующего квартала.
Оцените качество данных
Вы можете провести оценку качества данных путем изучения исторических записей и анализа информации, которую вы храните о своих клиентах и бизнес-процессах с течением времени. Такой анализ позволяет выявить потенциальные проблемы и способы повышения качества данных. Вы также можете создать систему измерения для сбора и анализа статистических данных о качестве хранимых вами данных.
Повышение ожиданий в отношении обслуживания клиентов
Установив четкие целевые показатели качества данных, вы сможете обучить сотрудников службы поддержки вопросам качества данных, с которыми они могут сталкиваться на регулярной основе. При надлежащей подготовке вы можете лучше удовлетворить потребности клиентов. Например, вы можете уменьшить количество звонков в службу поддержки клиентов, связанных с информацией об адресе и счете, поставив цель сократить количество клиентов, сообщающих неверную информацию.
4 типа метрик качества данных
Вот несколько типов показателей качества данных.
1. Метрики точности
Эти показатели помогут вам оценить точность ваших данных. Точность данных — это мера того, насколько точно ваши данные соответствуют фактам, которые они представляют. Чем более точными данными вы располагаете, тем лучше вы понимаете эту информацию. Одним из видов метрики точности является точность.
Точность определяет долю фактических элементов данных, которые вы записываете или храните. Например, если у вас 100 сотрудников, но вы записываете данные только о 80 сотрудниках, точность составляет 80%.
Recall — это еще один тип метрики точности, которая измеряет, сколько элементов в списке существует и сколько из них релевантны для конкретных видов анализа. Вы можете рассчитать его как соотношение между количеством правильных элементов и общим количеством элементов, которые соответствуют критериям, установленным вами для результатов сопоставления. Некоторые менеджеры по продажам могут также использовать такие показатели точности, как процентиль и стандартное отклонение. Процент — это мера того, насколько вероятно, что значение в вашем наборе данных достигает целевых значений, а стандартное отклонение — это мера того, насколько разбросаны значения от своей средней точки.
2. Метрики целостности
Метрики целостности помогут вам оценить целостность ваших данных при передаче их между различными системами. Высокая целостность данных позволяет проводить более точный анализ, что позволяет лучше соответствовать ожиданиям клиентов. Если вы не испытываете никаких непреднамеренных изменений при передаче данных в разные места, значит, они обладают высокой целостностью.
Одним из способов измерения целостности ваших данных является проведение аудита транзакций. Этот вид аудита может сообщить вам, сколько операций не соответствуют всем установленным правилам. Например, если клиент приходит в страховую компанию и заполняет заявление, не указывая номер телефона, но позже получает телефонный звонок из компании с просьбой указать номер, возможно, в процессе ввода данных была допущена ошибка. Нулевые значения и отсутствующие точки данных также могут выявить случаи низкой целостности данных.
3. Показатели согласованности
Показатели согласованности помогают вам оценить, соответствуют ли значения в вашем наборе данных тем значениям, которые вы ранее записали и сохранили. Последовательность позволяет повысить качество данных за счет того, что все данные остаются неизменными. Одним из важных показателей согласованности является согласованность дат. Согласованность дат измеряет, сколько дат в наборе данных выходят за пределы исторического диапазона. Числовая согласованность может сказать вам, сколько значений в наборе данных отличается от ожидаемого диапазона.
4. Метрика полноты
Показатели полноты помогут вам оценить полноту ваших данных. Полнота данных — это мера того, насколько полно, точно и репрезентативно определенный набор данных. Вы можете использовать эту оценку, чтобы выявить потенциальные пробелы в ваших данных и определить, как заполнить эти пробелы.
Одной из важных метрик полноты данных является минимальная встречаемость. Эта метрика показывает, сколько значений в наборе данных встречается реже, чем определенное число раз. Еще одна метрика полноты, которую используют профессионалы, — это максимальная временная задержка. Максимальный временной лаг измеряет время между моментом наступления события и моментом его регистрации в вашей системе. Идеально, если временная задержка меньше, так как это может указывать на меньшие различия между первичным и реплицируемым набором данных.
Ключевые слова:
- indeed.com
Источник: hr-portal.ru