Коновалов, М. В. Big Data. Особенности и роль в современном бизнесе / М. В. Коновалов. — Текст : непосредственный // Технические науки: проблемы и перспективы : материалы VI Междунар. науч. конф. (г. Санкт-Петербург, июль 2018 г.). — Санкт-Петербург : Свое издательство, 2018. — С. 8-10. — URL: https://moluch.ru/conf/tech/archive/288/14418/ (дата обращения: 29.05.2023).
В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут применяться подобные технологии, и почему большие данные, несмотря на дороговизну, все больше набирают популярность.
Ключевые слова: big bata, большие данные, масштабируемость, транзакционная система, информационная система, анализ, программное обеспечение, БД, ИТ.
Введение
Не секрет, что на сегодняшний день объемы данных, которые требуется хранить и обрабатывать, растут в геометрической прогрессии. Например, объемы данных, которые хранятся в Интернет, увеличиваются примерно на 40 % ежегодно.
Как большие данные помогают бизнесу привлекать клиентов, и сложно ли их использовать?
Интересно, что с одной стороны, именно развитие современных информационных технологий позволяет и способствует тому, чтобы объемы сохраняемых и обрабатываемых данных постоянно росли. А с другой стороны, для работы с быстрорастущими объемами самых разнообразных видов данных требуется все больше ресурсов и более сложных программных решений.
Одной из наиболее современных и быстро набирающих популярность технологий является big data. Этот термин стал применяться и быстро набирать популярность всего 8–10 лет назад. А сегодня крупнейшие мировые компании, занимающие лидирующие позиции в самых разных областях бизнес деятельности, вкладывают миллиарды долларов в развитие этого направления. В данной статье рассмотрены основные понятия, связанные с технологией big data, почему одни крупные компании готовы вкладывать огромные средства в развитие этого направления, а другие нет. Какие наиболее распространенные решения на основе big data существуют сегодня на рынке, какие есть сложности и что ждет остальной рынок ИТ с приходом новой технологии.
Понятие Big Data
Дословно big data означает большие данные. Более подробное определение можно сформулировать так. Big data — это серия подходов и методов обработки большого объема и значительного многообразия данных, которые тяжело обработать обычными способами. Целью обработки больших данных является получение новой информации. При этом данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).
Если говорить о типах данных, для которых применимы рассматриваемые методы обработки, то это может быть совершенно разная информация: документы, блоги, социальные сети, любые клиентские данные или даже информация о совершенных клиентами действиях. Также информация, поступающая от измерительных устройств и т. д. Но это все преимущественно текстовая информация. Помимо этого, обработке могут подлежать аудио и видео данные, изображения и т. д.
Практическое использование «больших данных» в бизнесе — Антон Вокруг, Data prom.
Но не все абсолютно данные подлежат обработке с применением технологий big data. Есть критерии, по которым можно отнести информацию и данные, пригодные к подобной обработке, т. к. не все данные могут быть пригодны для аналитики. В этих определяющих характеристиках как раз и заложено ключевое понятие больших данных. Все они умещаются в т. н. три V:
Объем (от англ. volume). Данные измеряются величиной физического объема “документа”, который подлежит анализу.
Скорость (от англ. velocity). Данные не статичны в своем развитии, а постоянно прирастают. Поэтому смысл этой характеристики не только в быстро растущих объемах данных, но и в необходимости их быстрой обработки для получения требуемых результатов.
Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированными, не структурированными или структурированными частично. И смысл заключается в том, чтобы одновременно обрабатывать различные типы данных.
Также к уже рассмотренным трем V, в разных источниках добавляют четвертую. Достоверность или правдоподобность (от англ. veracity). И даже пятую жизнеспособность или ценность (от англ. viability или value). В различных вариантах можно говорить о 7V, но для базового понимания достаточно трех.
Принципы работы big data
Исходя из определения big bata, можно сформулировать три основных принципа работы с такими данными:
Горизонтальная масштабируемость. Поскольку объем данных постоянно и стремительно растет и информации может быть сколь угодно много, то система, которая подразумевает обработку этих данных, должна быть расширяемой. К примеру, если 2 раза вырос объём данных, то должна быть возможность увеличить мощность аппаратного обеспечения в 2 раза в кластере и система продолжит работать без потерь в производительности.
Отказоустойчивость. Рассмотренный выше принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, в компании Yahoo кластер насчитывает более 40000 машин. При этом допускается, что часть этих машин будет регулярно выходить из строя. Методы работы с большими данными должны учитывать вероятность таких сбоев и поддерживать работоспособность системы без каких-либо значимых последствий.
Локальность данных. В крупных распределённых системах, используемые данные хранятся на большом количестве машин. Но если данные находятся физически на одном сервере, а обрабатываются на другом, то ресурсы, требуемые на передачу данных, могут превысить расходы на обработку данных. Поэтому при проектировании решений на big data одним из важнейших принципов является принцип локальности данных, суть которого заключается в том, чтобы данные обрабатывались и хранились на одной и той же машине.
Особенности применения и роль в современном бизнесе
Изучая многообразие современных технологий хранения и обработки данных, возникает логичный вопрос. Для чего придуманы методы и подходы, называемые big data? Что в этом уникального, как можно использовать информацию, обработанную с помощью данных технологий и почему компании готовы вкладывать в развитие больших данных огромные средства?
Во-первых, в отличие от big data, обычные базы данных (БД), не могут хранить и обрабатывать такие огромные объемы данных (сотни и тысячи терабайт). И речь даже не об аналитике, а только лишь о хранении данных. В классическом понимании БД предназначена для быстрой обработки (хранение, изменение) относительно небольших объемов данных или для работы с большим потоком записей небольшого размера, т. е. транзакционная система. С помощью big data как раз решается эта основная задача — успешное хранение и обработка больших объемов данных.
Во-вторых, в big data структурируются разнотипные сведения, которые поступают из различных источников (изображения, фото, видео, аудио и текстовые документы) в один единый, понятный и приемлемый для дальнейшей работы вид.
В-третьих, в big data происходит формирование аналитики и построение точных прогнозов на основании полученной и обработанной информации.
Для чего это нужно и где может быть применено на практике? Для наглядности и для того, чтобы сформулировать ответ простыми словами, рассмотрим на примере типичных бизнес-задач в маркетинге. Обладая такой информацией, как:
‒ полное понимание о своей компании и бизнесе, в том числе с точки зрения статистической информации и цифр;
‒ подробные данные о конкурентах;
‒ новая и подробная информация о своих клиентах;
‒ все это позволит преуспеть в привлечении новых клиентов, значительно повысить уровень предоставляемого сервиса текущим клиентам, лучше понять рынок и своих конкурентов, а значит вырваться вперед за счет преобладания над ними.
Учитывая вышеперечисленные результаты, которых позволяет достигнуть big data, и объясняет стремление компаний, пытающихся завоевать рынок, вкладываться в эти современные методы обработки данных сегодня, чтобы получить увеличение продаж и уменьшение издержек завтра. А если более конкретно, то:
‒ увеличение дополнительных продаж и кросс продаж за счет лучшего знания предпочтений клиентов;
‒ поиск популярных товаров и причин — почему их покупают или наоборот;
‒ усовершенствование предоставляемой услуги или продукта;
‒ повышение качества обслуживания клиентов;
‒ повышение лояльности и клиентоориентированности;
‒ предупреждение мошенничества (больше актуально для банковской сферы);
‒ снижение лишних расходов.
Один из наиболее наглядных и популярных на сегодняшний день примеров, о котором можно прочитать во многих источниках сети Интернет, связан с компанией Apple, которая собирает данные о своих пользователях с помощью производимых устройств: телефон, планшет, часы, компьютер. Именно из-за наличия такой системы корпорация владеет огромным количеством информации о своих пользователях и в дальнейшем использует ее для получения прибыли. И подобных примеров на сегодняшний день можно найти целое множество.
Краткий обзор инструментов big data
Учитывая огромные объемы информации, которые необходимо хранить обрабатывать в процессе работы, следует заметить, что подобные манипуляции не могут выполняться на простых жестких дисках. А программное обеспечение, которое структурирует и анализирует накапливаемые данные — это отдельная интеллектуальная собственность и в каждом отдельном случае является авторской разработкой. При этом можно отметить наиболее популярные на сегодняшний день инструменты, на основе которых создаются такие решения:
‒ NoSQL базы данных;
‒ Инструменты класса Data Discovery.
Анализу особенностей и отличий перечисленных инструментов, а также обзору решений, которые могут предлагаться на основе данных инструментариев может быть посвящена отдельная статья. Но, в качестве примера, хотелось бы привести модель, которая, пожалуй, является на сегодняшний день одним из лидеров на рынке — это Oracle Big Data Appliance X5–2.
Ориентировочная стоимость такой системы в максимальной комплектации может достигать 30 миллионов рублей за 1 стойку. Конечно, речь идет о промышленных системах премиум класса. Тем не менее, приведенный пример позволяет оценить порядок расходов, которые потребуются на реализацию подобных решений в компании. И это еще без учета узкоспециализированных специалистов и дополнительной ИТ инфраструктуры. Поэтому говорить о применении больших данных, например, в малом бизнесе не приходится.
Заключение
В современном бизнесе, практически не зависимо от специфики и индустрии, все более явно прослеживается ценность и высокая роль информации о потенциальных и текущих клиентах компании, о ее конкурентах и грядущих тенденциях на рынке. Все более это становится необходимыми условиями для того, чтобы сохранить конкуренцию в современном мире. В связи с этим и уже существующими примерами успеха внедрения big data крупными компаниями, которыми наполнен Интернет, можно предположить, что роль больших данных со временем будет только расти. Благодаря этому компании будут е лучше знать и понимать потребности своих клиентов и предлагать им наиболее релевантные и подходящие решения, а потребители смогут наслаждаться продуктами и услугами, которые наилучшим образом подходят именно им.
- Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим = Big Data. A Revolution That Will Transform How We Live, Work, and Think / пер. с англ. Инны Гайдюк. — М.: Манн, Иванов, Фербер, 2014.
- Академия BIG DATA: Введение в аналитику больших массивов данных: Информация // Национальный Открытый Университет «ИНТУИТ». URL: https://www.intuit.ru/studies/courses/12385/1181/info (дата обращения: 30.06.2018).
- Аналитический обзор рынка Big Data // Хабр. URL: https://habr.com/company/moex/blog/256747/ (Дата обращения: 30.06.2018).
- Streamline Your Big Data Platform // ORACLE. URL: https://www.oracle.com/big-data/index.html (Дата обращения: 30.06.2018)
- MapReduce and Teradata Aster SQL-MapReduce // Teradata. URL: https://www.teradata.com/products-and-services/Teradata-Aster/teradata-aster-sql-mapreduce (Дата обращения: 30.06.2018)
Основные термины (генерируются автоматически): данные, информация, компания, объем данных, принцип работы, быстрая обработка, обработка данных, программное обеспечение, современный бизнес, транзакционная система.
Источник: moluch.ru
Краткий экскурс по Big Data: что это такое, как использовать и где хранить?
В материале разберемся с понятием Big Data, какие задачи бизнеса решает инструмент и расскажем об основных источниках получения больших данных и многом другом.
- позволяет делать максимально достоверные прогнозы. Например, на пользовательский спрос на те или иные виды товаров и услуг, а также планировать производство, продажи и денежные потоки. Так бизнес может управлять ценой, продумывать маркетинговые акции и производственную активность, избегая упущенной выгоды и ненужных производственных и коммерческих расходов;
- моделировать сложные системы на основе выявленных причинно-следственных связей, паттернов и закономерностей. Таким образом бизнес может лучше понять поведение рынка и его участников, что в свою очередь поможет улучшить продукт и сделать его более конкурентным. Примером такого удачного решения можно назвать кейс Toyota — компания повысила безопасность машин на основе сведений о поведении водителей в момент аварии;
- оптимизирует и позволяет автоматизировать процессы за счёт обеспечения цифровизации и структурированности данных, которые управляют процессом и участвуют в нём.
Методы и техники анализа и обработки
Теперь мы понимаем, что такое Big Data, и какие бизнес-задачи большие данные помогают решить. Встает следующий вопрос: каким образом этого удаётся достичь?
Надо отметить, что работа с большими данными выделяется в отдельное направление и носит гордое название Data Science. И это неспроста — из-за большого объема Big Data анализируют с помощью специальных методов и больших вычислительных мощностей.
Начнём с того, как осуществляется сбор информации. Она фиксируется и собирается автоматически в соответствующем хранилище. Например, это могут быть данные о количестве пользователей, которые перешли по определенным ссылкам, оставили реакции и комментарии, какие касания по смартфонам сделали.
- интернет вещей (IoT) и подключенные к нему устройства;
- соцсети, блоги и СМИ;
- данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов;
- показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников;
- статистика городов и государств: данные о перемещениях, рождаемости и смертности;
- медицинские данные: анализы, заболевания, диагностические снимки.
При работе с полученными данными принято придерживаться двух принципов: обезличивание (часть персональных данных скрывается) и агрегирование (работа с усредненными показателями).
После того, как информация собрана, обработка Big Data происходит по стандартному циклу: подготовка-> обработка -> анализ -> обратная связь. Последний пункт может включать в себя предложение о принятии соответствующих решений на основе полученного анализа, аналитические отчеты и дэшборды.
- Краудсорсинг — ручной анализ, к которому привлекают большое количество интернет-пользователей. Например, фильтрация цен или поиск контента с определенными параметрами.
- ИИ и нейросети, машинное обучение — искусственный интеллект ищет закономерности и делает прогнозы с помощью математических методов, в том числе распознает образы. Прогнозирование помогает предсказывать поведение людей и принимать эффективные решения.
- Data Mining — глубинный анализ, который структурирует и выявляет закономерности. Использует математические алгоритмы и статистические методы, например, дерево принятия решений или нейронные сети. Data Mining — это совокупность различных методов.
- Визуализация аналитических данных — создание анимированных моделей и графиков на основе больших данных. А также имитационные модели, которые позволяют проверять гипотезы с помощью имитации тех или иных ситуаций и событий.
Технологии хранения и обработки Big Data
Хранение и обработка больших данных требуют соответствующих технологических решений.
Напомню, что для работы с большими данными, можно использовать как физические локальные хранилища — «железо», так и виртуальные серверы на базе своих или арендованных мощностей.
Разберемся теперь в том, как технически реализуется хранение и обработка Big data.
Data lake — система хранения большого объема неструктурированных данных разных форматов, которые собираются из множества источников, подключенных к хранилищу для дальнейшей обработки и анализа.
Можно подключить, например, несколько сайтов и метрик, CRM-систему с данными о поставщиках и заказчиках, инструменты сбора обратной связи с результатами опросов, базы данных и т.д. Поток может быть непрерывным — data lake примет всё.
Для обработки данных из data lake подключаются соответствующие аналитические решения, например, класса BI или сервисы машинного обучения для создания ML-моделей и нейросетей.
Отмечу, что архитектура хранения данных в data lake выстроена таким образом, чтобы её можно было легко масштабировать, при этом сокращая риски полной потери данных в случае чрезвычайных ситуаций. Помимо самих данных система хранит метаданные, которые позволяют в дальнейшем их обрабатывать и структурировать, делая полезным рабочим инструментом.
Кстати, об инструментах. Как же построить data lake? С этим поможет набор инструментов Hadoop. Это open-source решение, которое можно использовать бесплатно и кастомизировать под нужды своего бизнеса.
- в распределенных сервисах доставки еды хранятся, обрабатываются и анализируются данные о заказах еды и покупателях,
- в социальных сетях хранятся данные пользователей, их переписок, файлов и медиа, которые они публикуют или обмениваются,
- в сервисах перевода и обработки платежей хранятся данные о миллионах транзакций, сделанных пользователями.
Какие задачи бизнес решает с помощью Big Data и кто этим занимается
Переход от обычных массивов данных к большим — особая грань технологий, которая нуждается в специалистах и навыках работы на этом стыке. Несмотря на то, что все еще ощущается дефицит айтишников, работающих с Big Data, рынок развивается быстро: появляются решения для банкинга и телекома, прогнозируется техническая эксплуатация оборудования, потребитель получает персональные рекомендации по контенту.
Сбор данных, гранулярность и примеры массивов из жизни
Данные — это фиксация фактов во времени, возникающих при любом варианте взаимодействия: человека с компанией, машины с компанией, машины с машиной или машины с человеком. Если взять пример из реального мира: простое измерение температуры в комнате за какой-то период дает массив данных. Сбор, хранение и обработка данных имеет свою цену.
Поэтому каждая компания определяет для себя, какие именно данные ей понадобятся для решения своих задач: начиная от внутренних процессов и заканчивая взаимодействием с внешними контрагентами или отслеживание поведения сотрудников. Некоторые данные используются не в рамках организации, а представляют ценность для другой компании.
Возникает вопрос обмена полезной информацией. Например, если ритейлер просто сохраняет все транзакции и не может провести исследование из-за неполной картины, то всегда есть вариант сотрудничества с другой компанией, имеющей желаемые смежные данные. Разумеется при таких коллаборациях соблюдается анонимность и деперсонализация данных, массивы информации подвергаются шифрованию и хэшированию. Таким образом, речи о том, что компании могут передавать личные данные пользователей — не идет.
Big Data решает задачи бизнеса: от просмотра ТВ-программы до эффективности наружной рекламы
В каждой отрасли есть потребность и применимость продуктов на основе больших данных. Как правило, такие продукты позволяют получить более полную картину по задаче, что раньше было невозможно. Традиционный подход заключается в проведении панельных исследований, когда оценка требуемых показателей производится по репрезентативной, но достаточно ограниченной выборке.
Например, чтобы узнать, что смотрят по телевизору люди из Москвы, компания анализирует всего 10 тыс. панель-листов, а затем проводит экстраполяцию ко всему населению города. Если 1 тыс. из 10 тыс. человек посмотрели программу, значит, это сделали порядка 10% всех москвичей.
Большие данные позволяют использовать существенно большие выборки для анализа, так как анализируются хоть и анонимные, но реальные данные поведения пользователей. Хороший пример того, к каким выводам это может приводить, — история аналитики в наружной рекламе.
Традиционно в этой области применялись ограниченные наборы измерений: например, в определенных точках города в определенные часы подсчитывали количество проехавших машин. Дальше аналитики экстраполировали данные с помощью сложной математической модели на весь месяц.
В результате исследования заказчик получал усредненную оценку аудитории за день для каждого рекламного щита. Использование данных, полученных от навигационных систем и мобильных приложений, сделало прежние модели существенно точнее. Аналитики могут выделять профили аудитории для каждой конструкции в зависимости от дня недели / часа.
А использование Wi-Fi датчиков на конструкциях позволило изучить поведение аудитории: увидеть районы их проживания и интересы. Так, датчики выявили, что далеко не все проезжающие машины принадлежат москвичам. На магистралях много людей едет из области, есть транзитный трафик из других городов. Big Data дает наиболее полную аналитику и выход за рамки.
Поэтому на основе больших данных можно делать корректные прогнозы, тренировать модели машинного обучения. Например, сделать предположение, что заемщик на основе каких-то характеристик может быть неблагонадежным. Или на базе косвенных признаков предположить, что агрегат на заводе скоро потребует технического обслуживания.
Итоговый продукт на основе больших данных
Формат продукта всегда зависит от бизнес-задачи. Это может быть обычный отчет, если достаточно раз в месяц на него посмотреть, чтобы принять решение. Продукт может представлять собой поставку обогащенных данных, когда база клиентов анализируется и возвращается заказчику с дополнительными атрибутами. Это может быть API, в которую можно обращаться и получать ответ, например рекомендации для клиента в онлайн-кинотеатре. А также приложение для конечного пользователя.
Решения для сбора и агрегации данных
Технология сегодня в основном завязана на open source решениях: они уже давно применяются в индустрии как стандарт. По сути, это могут быть разные виды хранилищ для хранения больших массивов данных: соответственно, Hadoop, стек для хранения и обработки данных, Spark — для параллельных вычислений, Air Flow, и Apache NiFi как оркестраторы для процессов перекладки, трансформации и изменения форматов данных. Если раньше совмещали хранение и вычисление данных на одних и тех же серверах при помощи Hadoop, то сейчас считается более эффективным подход, при котором хранение данных и вычисления разделяются. Такой подход чаще всего реализуется у облачных провайдеров.
Технология обезличенной передачи данных
Применение технологии обезличенной передачи данных зависит от конкретных датасетов, но по современным стандартам простого хэширования и анонимизации уже недостаточно. Зачастую задача стоит намного сложнее.
Если требуется смэтчить данные от разных компаний между собой и посмотреть на обогащенные массивы данных или построить на их основе модели, нужно применять соответствующие методы. Банальное обезличивание уже не сработает: в несколько этапов используется хэширование, проводится замена индикаторов на случайные, а затем уже происходит каскадное смэтчивание баз с невозможностью расхэширования внутри платформы. Сами данные остаются только у их владельцев. В основном такие процессы реализуются внутренними ресурсами с помощью локальных разработок.
Сырые данные, построение моделей и эмбеддинг
Это могут быть самые разные массивы: от телекоммуникационных до банковских. Например, мы не работает с сырыми данными: условными телекомовскими массивами по кликстриму. Если у поставщика есть данные по телесмотрению, эти данные компания передавать не будет, но на их основе может построить собственные модели.
В целом компании в рамках своей деятельности оперируют сотнями терабайт, поэтому если бы приходилось работать с сырыми данными, речь шла бы о петабайтах. Что касается банковских данных — там, например, применяется метод эмбеддингов — это такой метод, в котором развернутый набор данных с помощью специальных нейросетей упаковывают в вектор-представление этого набора.
Такие векторы не могут интерпретироваться человеком, но подходят для дальнейшего создания прикладных моделей машинного обучения для конкретных задач. Если необходимо построить модель на истории транзакций, где указана, например, тема покупки — оплата за АЗС, покупка детских игрушек, продукты, кафе, — возникает сразу несколько проблем.
Такая история транзакции, во-первых, сенситивная, а во-вторых, она переменной длины, то есть у каждого клиента она будет своя. Эти проблемы решаются с помощью эмбеддинга. Специальная нейросеть тренируется и формирует одну таблицу из сотни столбцов с данными, которые не может интерпретировать ни один человек.
Даже если о клиенте известны определенные персональные данные — например, номер телефона, понять, что именно означают числа в его столбце — невозможно. А на самом деле в этих цифрах зашита вся необходимая информация о клиенте: владеет ли человек машиной, есть ли у него домашние питомцы и так далее. Такую нейросеть можно натренировать на банковских базах данных о хороших и плохих заемщиках таким образом, что впоследствии она сможет предсказывать, будет ли конкретный клиент добросовестным кредитором или будет уходить в дефолт.
Специалисты по работе с большими данными: от дата-инженеров до дата-офицеров
Основную роль играют люди, отвечающие за бизнес-постановку задач — это как правило заказчик в виде product owner, который опирается на запрос клиента. Именно product owner ставит специалистам по данным задачи — построить модель, докупить данные и т.д. Такое часто практикуется в компаниях, которые у себя внутри занимаются обработкой данных.
У них кто-то должен заказывать задачи, а кто-то должен быть интересантом деятельности. Аналитикой занимаются дата-сайентисты или аналитики данных. Кто-то разделяет эти понятия, кто-то считает, что это одни и те же люди. Кроме того, в команде присутствует дата-инженер, который подготавливает данные и витрины для того, чтобы аналитики на следующем этапе могли с ними работать.
Еще один специалист в команде — MLOps занимается реализацией идеи с доказанной эффективностью в конкретном фреймворке и на языке, который можно запустить в продакшн. DevOps отвечает за эксплуатацию развертывания и настройку инструментов, с которыми работает вся команда, то есть всей инфраструктуры.
Когда мы говорим об инфраструктуре, мы можем иметь в виду «железо», виртуальные ресурсы, облака, но DevOps’ы отличаются, как правило, от простых системных администраторов более высоким уровнем знания, умения, использования автоматизации. Одно дело администрировать 2-3 сервера вручную, а другое, когда у тебя кластер из 100 серверов и нужно провести обновление так, чтобы сервис не прерывался. Дата-офицеры — это люди, которые ведут всю номенклатуру данных. Они знают, какие данные есть у компании. По сути, это системные или бизнес-аналитики с упором на работу с данными.
Дефицит кадров в Big Data
Специалистов действительно не хватает: речь, прежде всего, идет о DeVOps. Сейчас настоящий бум на них и очень не хватает людей с достаточными навыками. Простого инженера или системного администратора можно найти, а именно DevOps, который работал бы с большими данными, кластерами, Kubernetes — таких специалистов сильный дефицит.
Что касается MLOps, то порой кажется, что такие люди вообще только в теории существуют. Системно обученных людей в этой сфере вообще нет. Предложение дата-сайентистов на рынке более-менее догнало спрос: можно уже не просто хвататься за первого попавшегося специалиста, а отсматривать и собеседовать кандидатов. То же самое касается и дата-инженеров.
ИИ и распознавание речи: будущее Big Data
Сама по себе Big Data давно распалась на множество направлений: это такой зонтичный термин, обозначающий сегодня самые разные технологии. Основной потенциал роста Big Data — применение в искусственном интеллекте и поиск прикладных решений Big Data там, где они реально полезны. Участники рынка уже прошли хайп и долину разочарований, сейчас технологии выходят на плато продуктивности. Спектр применения Big Data широкий: автоматические системы добавления «умных» вещей в систему мониторинга, отчетности, НЛП — умение распознавать речь и внятно ее синтезировать, более «умные» и законченные для конечного пользователя продукты с использованием видеоаналитики. Это история принесения пользы, экономии для бизнеса, а не просто научного интереса.
Источник: www.it-world.ru