Некоторые исследователи утверждают, что мы приближаемся к границе технологической сингулярности или уже перешагнули ее. Как бы там ни было, машинное обучение и big data будут оказывать огромное влияние на наше общество и бизнес в дальнейшем. Компьютерный «разум» перемещается в сеть, и нам придется научиться приспосабливаться к изменениям, если хотим достичь успеха. В статье мы рассмотрели суть, роль и значение данных технологий.
Суть больших данных и машинного обучения
Неважно насколько образован человек, в современном мире невозможно знать все. Времена истинных эрудитов и мастеров на все руки ушли. Человек может быть очень умен, но для того чтобы выжить он должен быть специалистом. Мир стал слишком сложным для людей, даже для того, чтобы просто попытаться узнать значимую часть доступной информации.
В решении этой задачи нам помогают компьютеры, но они также имеют ограниченные возможности. У машин есть память для хранения информации и конкретные вычислительные мощности, определяющие количество производимых расчетов в секунду. Хотя эти показатели могут существенно отличаться, но сейчас даже компьютеры сталкиваются с настолько большим объемом данных, что традиционные методы анализа начинают давать сбои.
Данные (data) в бизнесе: зачем хранить, как беречь и примеры, когда они реально потребуются
Под big data подразумевают именно такие огромные массивы данных, неподвластные нашему разуму и даже технике, которые невозможно обработать привычными способами. Для решения подобных вопросов разрабатывают специальные алгоритмы, объединяющие в себе искусственный интеллект , компьютерное программирование, бизнес и философию. Они собирают колоссальные объемы данных, чтобы решать различные задачи с целью достижения наилучшего результата.
Хотя невозможность полного охвата и сложность анализа представляют серьезную проблему, но в тоже время открывают новые перспективы для предприимчивых людей, которые могут применять автоматизированные методы для достижения поставленных задач.
Простым примером является фондовый рынок. Аналитик может просматривать все виды доступной информации и время от времени заключать хорошие сделки, но он не сможет идти в ногу с автоматизированными торговыми платформами , которые выполняют тысячи подобных операций в секунду.
Почему это так важно?
В подобных ситуациях на помощь приходят компьютеризированные инструменты, позволяющие получать все данные, которые относятся к проблеме. Машинное обучение – это технология, помогающая людям решать различные задачи, даже не понимая как это сделать, или почему работает определенный подход. Компьютеры могут опробовать каждый возможный вариант и сделать это очень быстро.
Например, если существует миллион вариантов, но только один из них правильный, машина создаст модели каждого из них и систематически определит правильный. Хотя научная фантастика идеализировала возможности искусственного интеллекта и нейронных сетей, но современные алгоритмы действительно могут решать достаточно серьезные проблемы, особенно в бизнесе и культурной сфере.
Первый бизнес: Что важно знать?
Предположим, что вы являетесь основным поставщиком продукции в мировом масштабе. Пусть это будут обычные молотки, широко используемые в строительстве и быту. Возникает вопрос: нужно ли открыть еще один завод по производству молотков? Как найти верный ответ и объективно оценить изменения спроса в глобальном масштабе?
Один из подходов заключается в том, чтобы взять огромную кучу данных, скажем, 50 миллионов выписок по банковским картам, и попытаться определить, покупают ли молотки больше людей или меньше. Однако для обработки такого количества записей потребуется несколько жизней.
Машинное обучение и большие данные могут решить эту проблему с молотками или, по крайней мере, укажут нам правильное направление. В мире существует множество подобных проблем, и данные технологии начинают успешно решать их.
Новые стандарты и угроза чрезмерного регулирования
Постепенно правительства устанавливают все больше норм для регулирования деятельности в информационном пространстве. Наиболее продвинутым на сегодня является «Общий регламент по защите данных» (GDPR), который вступил в силу весной 2018 года на территории всего Евросоюза. Он не только предоставляет жителям больше прав для контроля личной информации, но и минимизирует их использование. Постановление вызвало большой резонанс среди сообщества разработчиков и массу споров на этот счет.
Все хотят быть в безопасности, и никому не понравится, если его приватные данные станут публичными или попадут в чужие руки. Однако существует опасность того, что политическое регулирование упускает некоторые моменты.
Одна из концепций GDPR предусматривает, что пользователь владеет данными о себе и сервисы должны запрашивать их только для тех целей, для которых они были собраны. Поэтому некоторые разработчики считают, что это создает ограничения для определенных видов машинного обучения. Однако это не совсем так.
Дело в том, что компьютерные алгоритмы способны идентифицировать людей необычными способами, которые для нас не являются очевидным и некоторые мы не сможет даже понять. Это приводит к формированию ложного чувства безопасности в отношении «личных» данных.
Хотя это может быть не так уж и плохо, и у правительства есть законные основания использовать аналитику машинного обучения для выявления угроз. Представьте мир, в котором любой желающий сможет купить взрывчатку, а затем запретить использовать эту информацию для выяснения личности подрывника. Поэтому в данном вопросе крайности недопустимы и огромное поле для дискуссий.
Информационная эра
Несмотря на все достижения, общество пока не до конца осознает потенциал big data и машинного обучения. Существует множество данных и человечество продолжит разрабатывать технические инструменты для их обработки. В любом случае мы живем в информационной эпохе , и хотя никто точно не знает, к чему это приведет , но движемся туда мы все вместе.
Источник: dzen.ru
Как усилить позиции бизнеса с помощью анализа данных
Руководитель технической группы консультантов SKOLKOVO MMA, директор Департамента больших данных и продвинутой аналитики компании «Лента» Павел Мягких рассказал, как данные помогают бизнесу в борьбе с хаосом.
826 просмотров
Студенты дипломной программы по аналитике и управлению бизнесом
Почему данные важны для бизнеса как никогда
Интуиция, предпринимательский талант, опыт — вот качества, на которых основан классический бизнес-подход. Однако в условиях постоянных перемен фокус экспертов, обладающих всеми этими качествами, может давать сбой.
Пару лет назад я решил узнать, насколько эффективен сейчас классический бизнес-подход, на примере фэшн-сегмента. Для этого я провел мета-анализ публикаций по эффективности прогнозирования, распределенных на три блока:
- Прогнозы экспертов;
- Прогнозирование с помощью эконометрических подходов — панельные данные, линейные модели, экспоненциальное сглаживание;
- Прогнозирование с помощью технологий machine learning.
Самым неточным способом оказалось экспертное мнение — его эффективность была на уровне 50%. Эконометрика снижала долю ошибок в прогнозировании до 30%. ML-решения сокращали этот показатель до 10-15%.
Data-driven подход, то есть решения на основе обработки данных, снижает вероятность неверных прогнозов. Сегодня выбор стратегически оправданных решений стал для бизнеса приоритетом №1. Поэтому важность работы с данными постоянно растет.
Как бизнесу начать работать с данными
Первые шаги по внедрению data-driven подхода будут типичными. Вот с чего стоит начать:
- Разбираемся в себе
Сперва нужно ответить на главный вопрос «Data-driven — чтобы что?». Аналитика всегда должна решать конкретную «боль» в конкретном бизнес-процессе. Выявите главные проблемы вашего бизнеса перед работой с данными и разберитесь, как можно улучшить бизнес-процессы. - Выбираем инструменты
После того, как вы определились с задачей, подберите подходящий инструмент для ее решения. Есть четыре крупных блока:
- Описательная аналитика
Эти инструменты помогают ответить на вопросы «Что происходит / произошло?» Они подходят, например, для мониторинга отзывов, BI-систем, отчетности или сегментации клиентов. - Прогнозная аналитика
Стоит использовать, когда вам нужно предсказать события, которые могут произойти. Этот блок подходит, например, для прогнозирования роста или оттока спроса. - Предписательная аналитика
Эта категория инструментов отвечает на вопрос «Что необходимо сделать, чтобы улучшить процесс?» Хороший пример — персонализация маркетингового предложения. - Ассистивные технологии
Такие инструменты позволяют понять, как помочь клиенту принять нужное решение. Они подходят для системы рекомендаций для клиентов или менеджеров по продажам, а еще для чат-ботов.
Все эти блоки аналитики существуют не в вакууме — они связаны между собой последовательно. Например, предписательная аналитика не получится без описаний и прогнозов. Попытка перепрыгивать «ступеньки» — самая распространенная ошибка в переходе к data-driven подходу.
Представьте ритейлера, у которого начала «сбоить» логистика. Такие проблемы быстро решает аналитика. Например, довольных клиентов можно получить при работе над прогнозированием или алгоритмами ротации товаров на складе. Но если ритейлер решит обучать нейросеть или запускать виртуальную примерочную, он может лишиться аудитории из-за банального отсутствия товара в магазине. Это значит, что он потеряет и часть прибыли.
Поэтому рекомендую бизнесу сперва разобраться с относительно простой описательной аналитикой. Как правило, 80% прибыли от работы с данными заложены уже при работе с базовыми инструментами. Уже после них стоит переходить к более сложным технологиям и подходам.
Роль данных для бизнеса в условиях неопределенности
Какая роль у анализа данных в постоянно меняющемся бизнес-климате? Он позволяет быстрее реагировать на перемены и оперативнее отслеживать тенденции.
Не так давно я работал с достаточно крупным магазином обуви, у которого было больше 100 офлайн-точек в нескольких регионах. Это семейный бизнес: процессы в нем не менялись с момента запуска. Моя задача состояла в интеграции data-driven подхода.
Первый инсайт, который появился благодаря анализу данных — погода не влияет на продажи. На встрече по эффективности продаж штатный аналитик часто объяснял невыполнение плана плохой или, напротив, хорошей погодой. Логика была простая: в плохую погоду клиенты сидят дома, а в хорошую гуляют и реже заходят в магазины.
Я решил проверить, так ли это работает на практике. Для этого построил корреляцию между продажами и погодными условиями на примере датасета компании. Оказалось, что зависимость незначительная, меньше 0,1. Значит, проблема выполнения плана заключалась в другом факторе.
Другой инсайт — компании пора повышать цены, особенно на самые ходовые товары, бестселлеры. Руководство компании отказывалось их увеличивать из-за возможности репутационных потерь. Я сомневался в этом и убедил провести их пилот в нескольких магазинах. В итоге продажи остались на том же уровне, а маржа увеличилась.
На старте сложившееся экспертное мнение могло быть верным: был бы и негатив, и отток клиентов. Но любую точку зрения нужно со временем проверять на прочность. Факты могут терять актуальность в условиях постоянных перемен.
Как управлять бизнесом с помощью данных: чек-лист
- Дороговизна и сложность data-driven подхода — это миф. На старте работы с данными компании будет достаточно простых описательных инструментов. Многие из них доступны в привычных программах, например, в Excel.
- Перед обработкой данных выявите «боли» бизнеса и контекст, в котором он существует. Это позволит поставить задачу для аналитики и быстрее ее настроить.
- Перестаньте доверять только экспертному мнению. Практика показывает, что и эксперты склонны ошибаться. Опирайтесь на данные, чтобы лучше прогнозировать и принимать оправданные бизнес-решения.
- Не гонитесь за новомодными технологиями. Например, разработка нейросетей может быть неоправданно долгим и дорогим для вашего бизнеса процессом. Перед интеграцией аналитики оцените свои запросы и возможности.
Еще больше полезных инсайтов про аналитику данных для бизнеса можно узнать на нашем открытом вебинаре. В нем много примеров работы с датасетами, например, из опыта СберМаркета. Будем рады ответить на любые вопросы в комментариях 🙂
Источник: vc.ru
Зачем бизнесу «большие данные». Исследование IDC
Агрегирование информации, полученной из разных источников, позволяет перейти на новый уровень понимания потенциала бизнеса
Сегодня анализ «больших данных» (БД) становится рутиной. С подобными задачами сталкиваются более 90% россйских компаний, участвовавших в опросе, проведенном компанией IDC совместно с Hitachi Vantara. Причем, процесс идет по нарастающей: 78% опрошенных отметили рост объема данных, обрабатываемых в компаниях по сравнению с предыдущим годом. Откуда берутся БД и какие задачи позволяют решать бизнесу?
Как показал опрос IDC, в списке задач лидирует анализ транзакционных данных из учетных систем — 61%. Для 52% компаний аналитика больших данных используется для работы с информацией о клиентах, 51% опрошенных планируют применять решения для анализа потоковой информации. Последнее особенно интересно, ведь это актуальность этой цели будет расти. Речь идет о работе с данными соцсетей и видеопотоков с камер.
Число источников информации расширяется не только «органическим» путем за счет развития технологий, но и комбинаторным. По данным исследования, для 45% опрошенных актуальна задача дополнения транзакционных данных другими источниками информации. Интеграция данных транзакционных систем и неструктурированного контента позволяет получить более точную информацию о бизнес-процессах, клиентах, продуктах и услугах.
Как отмечают исследователи, для респондентов все большую важность приобретает неструктурированная информация из различных источников (82%) и и возможность анализа этой информации без дополнительного кодирования (66%). Как это делается? Рекламная индустрия, работая с продвинутыми клиентами, а другие подобные задачи и не ставят, накопила значительный опыт. Вот только несколько примеров.
Марина Сафонова, руководитель проектов в сфере больших данных OMD OM Group
Все больше клиентов хотят узнать о своих потребителях и для этого обращаются к нам за помощью в создании единых пространств для сбора различных данных о них, зачастую полностью сырых. В некоторых компаниях создают собственные отделы, занимающиеся именно обработкой, анализом и настройкой связей между этими данными. Если говорить о рекламной индустрии в целом, то «большие данные», в первую очередь, помогают нам строить более точные сегменты для таргетинга рекламных кампаний, помогают улучшать и персонализировать креатив, увеличивать медийные показатели внутри кампании, а также понять, чем живет и интересуется потребитель того или иного товара.
Цели у клиентов разные, поэтому и задачи часто решаем нестандартные. Если говорить про какие-то стандартные вещи, то клиенты проявляют определенный интерес к данным ОФД, сотовых операторов, mac-провайдеров. Перечисленные источники данных помогают соединять онлайн с оффлайн и тем самым выстраивать воронки продаж и кросс-канальную коммуникацию. В онлайн-среде есть много информации по покупкам и поведению пользователей на сайтах. Эти данные хранятся и обрабатываются в платформах DMP и весьма полезны для дальнейшего использования в различных размещениях и глубокого анализа аудитории.
Еще не так давно данные использовались, преимущественно, агентствами для разработки и анализа рекламных кампаний. Сейчас многие клиенты предпочитают иметь у себя массивы БД по интересам своих интернет-потребителей и анализировать их самостоятельно, имея в виду различные цели.
Роман Любимцев, руководитель отдела автоматизации и аналитики MediaGuru
Большие данные — это основной источник данных при анализе стриминг хитов пользователя и его поведения на сайте. Полученную информацию можно интерпретировать разными способами: собирать из хитов сессии или агрегировать по конкретному пользователю, чтобы смотреть ретроспективу.
На этой основе можно обучать модели, выделяющие группы или даже единичных пользователей, представляющих особую ценность для клиента. Это делается методом сравнения поведения исследуемой группы от тех, кто уже идентифицирован, например, как «ценный клиент». В качестве метрик могут выступать микроконверсии и поведенческие (бихевериальные) параметры: раскрытие или дочитывание статей, добавление в избранное, в корзину, шаг пользователя в воронке, время между шагами , словом, все то, что удается извлечь из доступных данных.
Александр Савин, директор по развитию Publicis Media
Примером, подтверждающим актуальность анализа больших данных для рекламной индустрии может стать распознавание образов в видео при помощи нейронной сети. Такие решения применяют для оценки эффективности рекламных роликов