Добывание информации как бизнес

Популяризация Data Science привела к появлению выражений «Большие данные – большие деньги» и «Big Data – это нефть XXI века». В этой статье я расскажу о способах монетизации данных для компаний и физических лиц, а также поясню, насколько выгодной и легальной является купля-продажа информации.

Три способа заработка на данных

Как известно, прибыль растет при повышении доходов и сокращении расходов. В обоих случаях данные можно использовать следующими способами.

Оптимизация текущих бизнес-процессов и центров затрат

Например, предиктивная аналитика параметров технологического оборудования позволит заранее составить график его профилактических ремонтов, предупреждая поломки и простои техники.

А проанализировав отдачу от инвестиций в рекламные каналы по различным сегментам целевой аудитории, можно существенно улучшить маркетинговую стратегию, отказавшись от неэффективных инструментов продвижения.

В частности, именно таким образом, с помощью сбора и последующей аналитики данных о пользовательском поведении, были оптимизированы веб-сайт и мобильное приложение одного из отечественных банков. Об этом я подробно рассказывал здесь.

Увеличение выручки через привлечение новых клиентов и/или кросс-продажи

Здесь необходимы подробные сведения о текущих или потенциальных потребностях своего покупателя, чтобы предложить ему нужный товар или услугу в подходящее время. В частности, персональные маркетинговые предложения для пользователей интернет-магазина в виде информации о сопутствующих продуктах, ремаркетинг и выход на новые рынки с таргетированной рекламой.

Подробные данные об особенностях и поведении каждого сегмента целевой аудитории позволят максимально детализировать маркетинговую стратегию, сосредоточив усилия на наиболее эффективных каналах коммуникации с клиентом. Например, так работают рекомендательные системы и программы лояльности крупных ритейлеров: Amazon, Wallmart, «Лента» и других онлайн- и офлайн-магазинов.

Пример практического использования такой информации в задаче динамического ценообразования интернет-магазина описан в моей статье.

Продажа информации о своих пользователях внешней стороне

Несмотря на достаточно угрожающую формулировку, этот способ вполне легален. Далее я расскажу, как можно заработать, продавая данные и не нарушая законы.

Какие данные можно продать?

Прежде всего, стоит отметить, что некоторая информация является тайной (личной или производственной) и охраняется законом.

Статья 24 Конституции РФ считает недопустимым распространение информации о частной жизни человека.

Требования к защите персональных данных (ПД) – любых сведений о физическом лице (субъекту персональных данных), предоставляемых другому физическому или юридическому лицу, на основании которых можно прямо или косвенно определить субъекта ПД (ФИО, дата и место рождения, адрес места регистрации и проживания, семейное, социальное, имущественное положение, образование, профессия, доходы, паспортные данные, телефон и email), регламентируются в Федеральном законе № 152-ФЗ «О персональных данных», постановлениях правительства, методических материалах ФСБ, Роскомнадзора и ФСТЭК.

Нарушение этих ФЗ регулируется статьей 13.11 КоАП РФ, которая предписывает предупреждение или административный штраф, а также статьями 137, 140 и 272 УК РФ, которые предполагают уголовная ответственность при нарушении закона о ПД с наказанием в виде штрафа, принудительных работ, отзывом лицензии, лишением свободы до двух лет с лишением права заниматься определенной деятельностью и занимать определенные должности.

Фото: Gorodenkoff/Shutterstock

Однако, несмотря на столь суровые наказания, ПД продолжают использоваться «не по назначению» даже крупными и, казалось бы, очень надежными компаниями.

Например, Facebook на протяжении трех лет платил $20 в месяц пользователям за сбор их личных данных (истории браузера, фотографий, видео, геолокации, сообщений в соцсетях и мессенджерах), чтобы затем использовать эту информацию в маркетинговых целях.

А телекоммуникационные компании T-Mobile и AT

  • плагины в браузерах;
  • логи хостинг-провайдеров;
  • DPI-пакеты интернет-провайдеров (Deep Packet Inspection), когда статистические данные об истории посещения сайтов (сетевые пакеты по открытому HTTP-протоколу) накапливаются, проверяются и фильтруются по их содержимому; в этот сегмент данных не попадает секретная информация о финансовых платежах, поскольку находится под защитой HTTPS-протокола;
  • приложения и игры в социальных сетях, собирающие данные из профиля пользователей (пол, возраст и прочее).
  • Получение статуса беженца

    Куда уходит золото как заработать и сколько можно заработать на золоте

    Таким образом, источники «сырых данных» вполне легальны, так как анонимизированные данные о пользовательском поведении не попадают под действия 152-ФЗ.

    Однако, чтобы избежать претензий Роскомнадзора и обвинений в нарушении генерального регламента о защите персональных данных граждан ЕС (GDPR, General Data Protection Regulation), действующего во всех странах, включая РФ, с 25.05.2018, следует предупредить пользователя о сборе пользовательских данных и cookie. При этом следует получить согласие пользователя на сбор и обработку такой информации.

    Для создания таких уведомлений используются предупреждающие баннеры, которые генерируются с помощью сервисов, например, Cookiebot, CookiePro, OneTrust (рис. 2).

    Рис.2. Пример уведомления о сборе и обработке пользовательских данных

    Получив согласие пользователя на сбор и обработку его данных, можно предложить их DSP-компаниям или биржам данных (Data Exchange). Продавая данные о пользовательском поведении другим рекламодателям через биржу или DSP-платформу (рис. 3), бизнес получает фиксированное вознаграждение или процент от покупок, совершенных пользователем.

    Читайте также:  Сервис МТС бизнес это

    Рис.3. Продажа данных о пользовательском поведении DSP-компании через биржу данных

    При этом на стороне DSP-платформы выполняется агрегация «сырых данных» о пользователе с целью предложения подходящих ему рекламных объявлений. В частности, определяются потребительские интересы и намерения.

    Все страницы, посещаемые пользователем, индексируются на предмет содержания ключевых слов, отражающих определенную тематику. Каждый сайт и его разделы тоже классифицируются по тематической принадлежности. Затем каждый сегмент в таксономии описывается ключевыми словами, тематикой сайта и частотой посещения.

    К примеру, если пользователь посещал тематические сайты и задавал поисковые запросы с ключевыми словами «продажа авто», «покупка Ford», то он попадает в аудиторный сегмент, нужный рекламодателю (рис. 4).

    Рис. 4. Пример определение интересов пользователя на основе его истории посещения сайтов

    Технически поставка данных о пользовательском поведении осуществляется следующим образом: поставщик получает от DSP-компании или биржи специальный код, который при загрузке страницы сохраняет в браузере пользователя cookie, с помощью которых отслеживаются его дальнейшие передвижения по сайту и между сайтами. Как правило, для этого используется javascript или невидимая пиксельная картинка. Так создается виртуальный «образ» пользователя, то есть портрет его потребительского поведения.

    Собранные таким образом данные размечаются по максимально доступному количеству параметров. При этом также возможна интеграция информации с данными из других систем, например, сведений о клиентах из CRM, чтобы связать их с виртуальными профилями. В маркетинге это может использоваться для рекламных кампаний по возврату клиентов.

    Например, рассылка email-писем клиентам определенной категории с приглашением-ссылкой на конкретную веб-страницу или картинкой-пикселем в самом письме. Когда пользователь откроет письмо в браузере или пройдет по ссылке, добавленные таким образом cookie позволят отслеживать его профиль, чтобы показывать целевую рекламу в соответствии с интересами клиента и рекламодателя.

    Кто продает пользовательские данные?

    Выступать поставщиком данных о различных потребительских сегментах могут интернет-магазины, профессиональные соцсети и рекрутинговые сервисы, сервисы по бронированию отелей и продаже билетов, а также другие онлайн-ресурсы, владеющие информацией о пользовательских интересах и намерениях.

    За такие сведения потребители данных (DSP-компании и биржи данных) готовы платить от 100 тысяч рублей в месяц за «сырые данные» и от 300 тысяч за структурированные по определенным целевым сегментам.

    Сегодня наиболее крупными поставщиками данных на российском рынке можно назвать следующие компании: Aidata.me, tBh (партнер RTB-компании Auditorius), Amberdata, Adriver, Facetz, Pluso, Usefuldata.

    За рубежом рынок поставки данных развит гораздо активнее и наиболее популярными Data Supplier’ами считаются следующие организации: BlueKai, eXelate, eyeota, Brilig, Lotame, nugg.ad, Weborama Adatus.

    Резюме

    Итак, зарабатывать на пользовательских данных может фактически любой бизнес, используя их в своих маркетинговых целях или предлагая стороннему рекламодателю. Однако законом разрешено оперировать только с обезличенной информаций, которая содержит анонимные сведения о потребительском поведении, но не о частной жизни пользователя. Для сбора таких данных необходимо получить информированное согласие пользователя, предупредив его об этом с помощью соответствующего баннера.

    Стать поставщиком данных имеет смысл для крупного веб-ресурса с высокой посещаемостью (от нескольких тысяч уникальных пользователей в день).

    Другие, более «традиционные» способы монетизации данных (оптимизация собственных бизнес-процессов и маркетинговых кампаний) актуальны для бизнеса любого масштаба и могут быть успешно реализованы с привлечением штатного аналитика или внешнего консультанта по Data Science.

    Источник: rb.ru

    Как начать онлайн бизнес по добыче данных

    Тысячи предприятий используют методы интеллектуального анализа данных для управления информацией, которую они получают каждую секунду. Интеллектуальный анализ данных стал бесценным инструментом — от розничных операций, отслеживающих покупки своих клиентов, до компаний, предоставляющих финансовые услуги, которые ищут следующую крупную тенденцию акций. Многие фирмы восполнили эту потребность, начав свои собственные операции по сбору данных. Однако в связи с растущим беспокойством в отношении личной конфиденциальности и онлайн-безопасности операторы интеллектуального анализа данных должны проявлять осторожность при открытии своих новых предприятий.

    В поисках ниш для бизнеса

    Основная часть запуска успешного бизнеса по добыче данных заключается в поиске предприятий и отраслей, которым не хватает внутренних ресурсов для самостоятельного отслеживания данных. Многие малые предприятия не могут внедрить методы интеллектуального анализа данных, которые могут сделать их уязвимыми к изменениям вкуса клиентов, рыночной экономики или технологических инноваций. Компании, занимающиеся интеллектуальным анализом данных, особенно хорошо оснащены для того, чтобы находить и использовать неэффективные бизнес-ниши, поскольку у них есть методы для анализа данных и выявления тенденций в отраслях, где они могут использовать свои знания для ускорения роста и повышения прибыльности.

    Читайте также:  Бизнес онлайн кто владелец компании

    Методы добычи данных

    Знание инструментов и методов анализа данных также определит путь, по которому пойдет бизнес по запуску интеллектуального анализа данных. Инструменты, используемые стартапом для анализа данных для анализа тенденций в финансовых данных, могут значительно отличаться от инструментов, используемых операторами розничных магазинов для отслеживания моделей покупок, поэтому выбор из различных методов анализа данных часто будет определять типы клиентов, которых будет запускать стартап. Например, компания может разработать собственное программное обеспечение для своих клиентов или использовать стороннее решение, такое как SAS.

    Конфиденциальность и безопасность данных

    Хотя принципы анализа данных сосредоточены на проверке агрегированных данных, компания, занимающаяся интеллектуальным анализом данных, также должна предпринять шаги для защиты личных данных пользователей. Процесс создания стартап-бизнеса по интеллектуальному анализу данных должен включать изучение методов защиты данных и безопасности. В последние годы одной из главных проблем компаний, занимающихся добычей данных, были законы о конфиденциальности данных. Поскольку законы пытаются догнать технологию, многие пользователи беспокоятся о том, как будут использоваться их личные данные. Решение этих проблем клиентов является ключом к победе бизнеса.

    Контролируемые тесты

    Стартапы Data Mining могут использовать внутренних «альфа» и внешних «бета» пользователей, чтобы проверить надежность своих программ и измерить возможности своих систем. Компания может проводить тесты во время запуска, чтобы найти проблемы со своими системами в контролируемой среде. Эти тесты будут гарантировать, что стартап построил надежную методологию анализа данных, прежде чем делать свои первоначальные презентации потенциальным клиентам.

    Как быстро начать бизнес проверки данных

    Как быстро начать бизнес проверки данных

    Фоновая проверка сотрудников стала нормой в процессе приема на работу, и многие компании, особенно малые предприятия, не имеют ни времени, ни средств для адекватной проверки всех своих кандидатов на работу. Это открывает вам возможность начать свою собственную компанию по проверке данных. Служба проверки фона .

    Как стать консультантом по добыче нефти на месторождении

    Как стать консультантом по добыче нефти на месторождении

    Консультанты по добыче нефти обеспечивают контрактную работу с компаниями и корпорациями в области добычи нефти. Они работают под руководством консалтинговой фирмы или управляют своими собственными консалтинговыми фирмами. Консультанты по добыче нефти могут работать в самых разных областях: от добычи и добычи до .

    Как начать бизнес обработки данных

    Как начать бизнес обработки данных

    Обработка данных включает сбор рукописных, сетевых или электронных данных и ввод их в базу данных или электронную таблицу, чтобы вся информация находилась в одном месте и в одном формате. Это выгодный процесс, если вы знаете все тонкости работы.

    Источник: ru.ebrdbusinesslens.com

    Стартап с новым подходом к извлечению информации со сканов. А надо ли?

    Меня зовут Алексей, я программист 1С и у меня есть идея, которая может быть полезной, а следовательно приносить прибыль, более того есть работающий прототип, но, прежде всего, нужна обратная связь от людей, а надо ли это вообще? Данным постом я прежде всего хочу отметить для себя, надо ли мне тратить уйму часов своей жизни для развития данного продукта, если он никому не нужен? Начну по порядку.

    Компания, в которой я работаю занимается продажей техники отдельных брендов, то есть отдельный магазин Samsung, отдельные магазины Sony. Продажа идет по рекомендованной розничной цене, которая для основной техники практически совпадает с ценой закупа, таким образом, рентабельность магазинов очень мала, грубо говоря не ноль только благодаря аксессуаром и услугам. Прибыль с продажи телефонов получается с помощью бонусов: при продаже определенной техники, в определенный период, и/или при закупе определенного количества техники компания-бренд начисляет деньги и, или их выплачивает, или зачитывает как оплату закупа

    Всё бы хорошо, но для корректного отображения рентабельности магазинов в 1С необходимо учитывать данные бонусы в валовой прибыли и в доходах/расходах. Информация по данным бонусам передается по ЭДО и описывается на какие модели, на какой период, какая сумма начисляется при продаже либо при закупе. Задача была загружать эти данные в 1С.

    Просто так выгрузить из ЭДО не получается, заказывать отдельную интеграцию с ЭДО. Вышло достаточно дорого и компания не готова была это оплачивать, поэтому пришлось выгружать документы как PDF и заносить вручную менеджерам. А вот тут началось самое скверное: данные документы могли быть по несколько десятков страниц с таблицами с несколько десятками BOM-кодов на каждой, и это нужно было делать постоянно. Попросили решить данную проблему.

    Я всесторонне подошел к данной проблеме и пришёл к выводу, что наиболее адекватный вариант решения — это преобразование страницы в формат, который сохраняет структуру данного документа и мне нужно написать парсер, который бы получал информацию с данной структуры. В качестве OCR программы я перепробовал много, но более или менее внятный результат получил от продуктов ABBYY, сначала через льготный период FineReader, а потом и через API.

    Читайте также:  It бизнес идеи Индии

    Стал преобразовывать PDF в HTM (XML при API, все нижесказанное справделиво и для сканов, которые я потом тоже преобразовывал в HTM) и пытался разобрать. Но появилась проблема. OCR распознавала текст не всегда точно и тупо привязаться к названию колонок, областей не мог и, решив вспомнить своё математическое образование, придумал оригинальное решение. Назовём узлом либо часть текста, либо ячейку таблицы (только шапки таблицы в некоторых случаях), таким образом, совместив рядом стоящие узлы, получим граф, более того данный граф, скорее всего, уникален для данного документа и, заведя условный граф-шаблон, где для каждого узла прописано как мне извлекать информацию, я могу рассматриваемый граф сравнивать с шаблонами, выбирать нужный и PROFIT! Но снова проблема.

    OCR, даже от ABBYY, часто некорректно распознавал таблицы: часть ячеек он объединял как одну, реже, но разбивал ячейку на две, поэтому просто искать на равенство структур не получалось. В таком случае нужно искать наиболее похожий граф, а это уже на порядок более сложная задача, которая до сих пор полностью не решена. Но «полностью» это не про этот случай, тут задача достаточно частная.

    Стал искать решение. Для начала сформулировал проблему. Нужно один граф сравнить со множеством других, при этом мне нужно знать как конкретно они отличаются, то есть какие узлы в шаблоне нужно разделить/соединить, чтобы получить рассматриваемый граф, ведь из этого я могу уже корректировать правила извлечения данных.

    После нескольких недель штудирования матчасти, рефлексии о безысходности, плача менеджеров, что им так плохо и нужно быстрее всё автоматизировать, я придумал эвристический алгоритм, который решал проблему. Алгоритм строится на следующих принципах:

    1) Так как файл в HTM (XML) формате, то я могу каждый блок текста, каждую ячейку особым образом пронумеровать, а в шаблоне всё уже пронумеровано.

    2) Предполагаю, что граф и рассматриваемый шаблон одинаковы, а из этого следует, что ребра каждого узла одинаковы. Таким образом, достаточно сравнить ребра каждого узла.

    Суть алгоритм такая: обозначу рассматриваемый граф Г, а шаблон Ш, строю новый граф Н.

    — беру n узел графа Г и графа Ш,

    — сравниваю ребра n+1 узла,

    — выбираю что выгодней, либо n+1 узел из Г вставить с его ребрами в Н, либо из Ш в Н, либо вставить узел в Н с объединенными ребрами и из Г и из Ш, перехожу к следующему узлу.

    Данная, с виду простая, методика дала очень хороший результат и скорость. Граф более чем в тысячу узлов сравнивался не более нескольких секунд и выдавались конкретные места ошибок. На данном алгоритме я построил парсер, который определял структуру таблицы и получал правила загрузки информации в 1С, которые указал сам пользователь.

    Менеджеры конечно были в восторге — больше года это используют, но даже спасибо не сказали, но не важно. Данный подход я стал тестировать на других документах и оказалось, что УПД, счета-фактуры, УКД, Торг-12, просто счета на оплату, разного рода анкеты, разного рода внутренние документы, экселевские файлы с таблицами, htm файлы сайтов, любые структурированные данные — все они по своей структуре могут быть определены. А следовательно можно самому пользователю задать шаблон с правилами по извлечению информации — это позволит сделать парсер универсальным, дать простую настройку для сложной задачи для широкой массы пользователей. Более того, в идеале, если сделать мобильное приложение, которое сканирует и распознаёт таким образом бумажный документ, то можно прямо с телефона получать и загружать нужную информацию в 1С, что делает ненужным покупку сканера для микро и малого бизнеса, не говоря уже об экономии времени.

    Решил сделать стартап, так как чисто эмпирически данная вещь очень полезная для многих компаний. Но снова проблема. В стране идет курс на цифровизацию, и все говорят, что мой проект — это конечно замечательно, но ЭДО рулит, бумага уйдет в историю в ближайшие годы и никому это не надо.

    ЭДО действительно поднимает голову, его объёмы растут не по дням, а по часам, но по исследованиям бумажный объём растет паралельно с этим, и ЭДО часто дублирует работу, к примеру так как я описывал в начале. ЭДО сильно дороже пересылке по электронной почте сканов или PDF. Юридическая значимость сканов, PDF прописывается в договоре, а значит может быть дешёвым аналогом ЭДО. Я согласен, что за ЭДО будущее, но скорее в далёкой перспективе.

    Рейтинг
    ( Пока оценок нет )
    Загрузка ...
    Бизнес для женщин