Виды обработки информации в бизнесе

Обработка информации – это процесс преобразования любых форм данных путём систематического выполнения операций над ними (вычислений, анализа и синтеза).

Понятие и сущность обработки информации

Значение информации как фактора производства с каждым годом только увеличивается. Следствием этого является организация систематического проведения работ над любыми формами информации, которая может быть полезна в рамках ведения экономической деятельности. Одной из разновидностей подобных работ является обработка информации.

Обработка информации представляет собой процесс преобразования данных, информации, знаний (в том числе, их вычисления, анализа, синтеза) путём систематического выполнения операций над ними. Данный процесс по своему содержанию характеризуется как емкий, поскольку включает в себя несколько более мелких взаимосвязанных операций: поиск, выборка, сортировка, фильтрация, проведение расчётов, объединение, слияние и т.д.

Китайский с нуля для начинающих
Увлекаем Китаем, китайским языком и культурой

Ты — суперкомпьютер. Или как работать с информацией. 6 способов

Нынешнее состояние опыта работы с информацией свидетельствует о существовании большого числа вариантов технологических процессов обработки информации. Их использование зависит от того, какие средства вычислительной и организационной техники применяются организациями на отдельных операциях технологического процесса.

Обработке информации предшествует обработка данных. Она заключается в преобразовании цифр, символов и букв в информацию.

Информация может быть представлена в определенном виде – в текстовом, в графическом, в звуковом и т.д. В процессе обработки информация перерабатывается и преобразуется в информацию другого вида. В связи с этим различают:

  • Обработку текстовой информации;
  • Обработку изображений / графической информации (видео, фото, графика и мультипликация);
  • Обработку звуковой информации (речь, музыка, другие звуковые сигналы).

Информационные технологии обработки информации

Совокупность последовательно выполняемых взаимосвязанных действий (начиная с момента возникновения информации и до получения желаемых результатов) называется технологией обработки информации (информационной технологией). Ее предназначение заключается в решении хорошо структурированных задач, по которым имеются необходимые входные данные, известны алгоритмы и другие стандартные процедуры их обработки.

«Современные технические средства и методы обработки информации в организации и управлении предприятием»

Готовые курсовые работы и рефераты
Решение учебных вопросов в 2 клика
Помощь в написании учебной работы

К применению информационной технологии обращаются, когда необходимо автоматизировать постоянно повторяющиеся (рутинные) операции. Благодаря этому сотрудники организаций освобождаются от необходимости выполнения подобных операций, что делает возможным сокращение численности сотрудников и повышение производительности труда в организации.

Технологии обработки информации. Лекц. 07.09.16 Ч1

В процессе обработки используются такие информационные технологии, как:

  • Сбор и регистрация данных непосредственно в процессе производства в форме документа с использованием электронно-вычислительной машины или персональных компьютеров;
  • Обработка данных в диалоговом режиме;
  • Агрегирование (объединение) данных;
  • Использование электронных носителей информации (например, флэш-карт).

Технические средства обработки информации

Обработка информации осуществляется посредством использования специальных технических средств, которые подразделяются на основные и вспомогательные. Основным техническим средством обработки информации является электронно-вычислительная машина (ЭВМ), которая в настоящее время в большей степени распространена и известна в качестве персонального компьютера.

Центральным блоком персональных компьютеров является микропроцессор, который непосредственно выполняет арифметические и логические операции над информацией, а также управляет работой других блоков компьютера. Другие блоки компьютера также занимаются обработкой информации посредством использования специального программного обеспечения (программ). Программа представляет собой упорядоченную последовательность команд (инструкций) компьютера для решения задачи, которая заключается в обработке соответствующей информации.

К компьютерам прилагаются также вспомогательные технические средства, которые выполняют какие-либо отдельные функции в рамках обработки информации. Так, существует сканер, который позволяет получить, передать и проанализировать некую графическую или текстовую информацию. Встроенные микрофоны записывают произносимые звуки, которые затем также распознаются и обрабатываются компьютером.

Команды для проведения обработки информации задаются компьютеру через такие периферийные устройства, как клавиатура, мышь, тачпад. В некоторых системах возможно использование микрофона (голосовое управление) и камер (система захвата движений).

Результат обработки информации пользователь персонального компьютера может получить через устройства вывода информации. Такими, в первую очередь, являются монитор и принтер, которые выводят информацию (текстовую и графическую) на электронный и бумажный носители, соответственно.

Таким образом, современные информационные системы предполагают комплексное использование технических средства обработки информации. В их основе, как правило, лежит технико-экономический расчёт целесообразности их применения, а также соотношение «цена/качество» и надежность работы технических средств.

Совокупность технических средств и решаемых ими задач по выполнению типовых операций обработки информации формируют в организации, так называемую, систему обработки данных. Именно ее функционирование позволяет обеспечить в полном объеме своевременное информационное обслуживание специалистов разных уровней администрирования в организации, которые уполномочены на принятие управленческих решений.

Источник: spravochnick.ru

Что такое обработка данных? Этапы, виды и методы

Обработка данных — важная работа, которая позволяет компаниям использовать имеющиеся у них данные в легкодоступных формах. Специалисты по данным обрабатывают информацию, используя свой опыт для сжатия больших наборов данных в функциональных форматах. Это позволяет другим использовать данные в конструктивных целях. В этой статье мы обсудим, что такое обработка данных, различные этапы и типы обработки, а также три метода, используемые для ее завершения.

Что такое обработка данных?

Обработка данных — это преобразование информации из необработанных данных в удобочитаемый и функциональный формат и сохранение ее для будущего использования. Он существует во многих формах и предоставляет данные для использования предприятиями в различных отраслях. Вы можете завершить обработку данных с помощью передовых технологических методов или вручную.

Этапы обработки данных

В методе обработки данных есть шесть этапов преобразования необработанной информации в функциональные данные:

Программы для Windows, мобильные приложения, игры — ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале — Подписывайтесь:)

1. Коллекция

Чтобы обработать данные, вы сначала обрабатываете их, что может включать доступ к существующим базам данных или сбор информации для непосредственного использования в новой базе данных. Это обеспечивает необработанную информацию для обработки и преобразования в более функциональный формат.

2. Подготовка

Этап подготовки включает в себя очистку данных и проверку их на точность. Это включает в себя проверку данных на наличие потенциальных ошибок и проверку на наличие повторяющихся записей, где их не должно быть кратных. Этот критический шаг повышает целостность данных перед обработкой для получения более точных результатов.

3. Ввод

После очистки данных вы готовы ввести их в выбранную вами систему обработки данных. Это может быть обычное программное обеспечение для обработки данных, такое как программа для работы с электронными таблицами, или система обработки, разработанная для ваших конкретных нужд. Ввод данных в выбранную вами систему обработки позволяет начать их обработку и использование.

4. Обработка

После того, как вы ввели свои данные в систему, вы можете начать обработку. Это может включать ручную работу, при которой вы манипулируете данными и анализируете их по мере необходимости, или можете использовать функции, предоставляемые выбранной вами системой обработки данных, для автоматизации работы. Вы можете указать конкретные цели для обработки или разрешить вашей системе обрабатывать данные в соответствии с настройками по умолчанию.

Читайте также:  Что такое фокусирование бизнеса

5. Выход

Получение выходных данных из вашей системы обработки данных позволяет вам представлять информацию в более презентабельном виде. Это могут быть отчеты, диаграммы, графики или другие наглядные пособия и документы для передачи наиболее важной информации. Часто именно здесь профессионалы, не являющиеся специалистами по данным, начинают взаимодействовать с обрабатываемыми данными.

6. Хранение

После создания выходных данных вы можете сохранить данные для будущего использования. Это позволяет вам или другим лицам получить доступ к информации и перейти к этапу интерпретации, а также получить максимальную выгоду от обработанных данных.

Типы обработки данных

Существует несколько типов обработки данных, которые можно использовать для получения различных результатов. Два или более типов могут быть объединены для одного и того же проекта. Общие типы обработки данных включают в себя:

1. Пакетная обработка

При пакетной обработке вы одновременно обрабатываете большие группы данных. Это может включать хранение данных, которые вы получаете в течение установленного периода, а затем обработку всех данных по завершении периода. Хотя это приносит в жертву немедленные результаты обработки информации в режиме реального времени по мере ее получения, оно может предложить более эффективный метод обработки больших объемов информации, когда своевременность не является главной задачей.

2. Распределенная обработка

Распределенная обработка — это метод, при котором обработка данных выполняется на нескольких машинах или серверах. Это полезный подход при работе с большими наборами данных, которые не помещаются на одном компьютере, или при использовании информации, собранной и сохраненной на нескольких устройствах. Этот подход также обладает высокой отказоустойчивостью, поскольку несколько серверов позволяют продолжать обработку в функциональных системах, когда один или несколько выходят из строя.

3. Мультиобработка

В многопроцессорном подходе вы используете несколько процессоров, как и в распределенном подходе, но каждый процессор находится в одном физическом компоненте. Как и в случае с распределенной обработкой, использование нескольких процессоров может ускорить процесс, хотя многопроцессорная система более подвержена замедлению в результате отказа одного или нескольких процессоров. Это может быть предпочтительнее распределенной обработки при работе с конфиденциальной информацией, поскольку локализация данных на одном сервере упрощает их защиту.

4. Обработка в реальном времени

Обработка данных в режиме реального времени является опцией, когда вам требуются быстрые выходные данные. Компьютер пытается обработать информацию как можно быстрее, пропуская записи с ошибками и переходя к обработке следующего фрагмента данных. Это полезно в ситуациях, когда вам нужны результаты быстро, но вы не беспокоитесь о случайных ошибках в данных.

5. Обработка транзакций

Обработка транзакций — это метод обработки важной информации в режиме реального времени, который должен быть безошибочным. Он отличается от обработки в реальном времени своим реагированием на данные, которые не могут быть обработаны, что вызывает паузу в обработке, пока вы не исправите ошибку. Вы можете спроектировать свою систему обработки данных, включив в нее аппаратные или программные компоненты, которые отвечают за предоставление решений и позволяют возобновить обработку в случае ошибок.

Методы обработки данных

Существует три метода обработки, которые вы можете использовать при выборе одного из вышеперечисленных типов обработки. Не все методы совместимы со всеми типами обработки:

1. Руководство

Ручная обработка данных происходит, когда один или несколько человек обрабатывают данные без помощи механических устройств или электроники. Хотя это менее распространенный подход в современной обработке данных, вы все же можете использовать его в некоторых ситуациях. Например, государственное учреждение может инициировать ручной подсчет бюллетеней во время пересчета.

2. Механический

Механическая обработка данных происходит, когда вы используете простые устройства для обработки данных. Вы можете использовать такие предметы, как калькуляторы или пишущие машинки, для помощи в обработке и преобразовании информации в функциональный формат. Механическая обработка данных может повысить скорость проекта и снизить вероятность ошибок.

3. Электронный

Электронная обработка данных является наиболее распространенной формой современной обработки данных и происходит при использовании современных компьютерных устройств. Это предпочтительный метод для большинства бизнес-профессионалов, поскольку он может увеличить возможности и скорость. Использование компьютера для автоматизации обработки данных также может помочь снизить вероятность ошибки.

Источник: buom.ru

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.

От Excel до ML — уровни зрелости дата-аналитики

В начале текста мы упомянули семейную парикмахерскую. Хороший пример, чтобы продолжать рассказывать про то, что вообще происходит в мире аналитики данных. Для дальнейшего повествования пусть это будет сеть барбершопов «Бородатый сисадмин», раз уж мы на Хабре.

Ниже — график зрелости аналитических систем, основанный на классификации компании Gartner. На нем можно выделить четыре уровня. Далеко не каждая компания линейно проходит эволюцию от начала до конца. Есть те, что «с ноги» врываются на 3-4 уровни. Главное, чтобы были необходимые ресурсы — деньги и специалисты, а также соответствующие бизнес-задачи.

А есть компании, которые за все время существования так и останутся на Excel-таблицах и простенькой BI-системе. Это тоже нормально.

Наш «Бородатый сисадмин» пройдет по каждому этапу, чтобы было проще понять разницу уровней зрелости.

Первый уровень: описательный

Первые три пункта объединим в один блок: сырые и очищенные данные, стандартные отчеты. Это самый низкий уровень работы с данными, который чаще всего производится в Google Таблицах или Excel.

Так, наш барбершоп начал собирать данные о клиентах, которые приходят на стрижку, и считать посещения. Администратор вбивает информацию вручную, некоторые данные стягиваются из формы регистрации на сайте. Менеджер может очистить данные от дублей, поправить ошибки, которые были совершены при регистрации, и даже структурировать данные по количеству и разнообразию оказанных услуг в месяц.

Читайте также:  Что такое бизнес ланч в столовой

На основе этого можно делать обычные отчеты. Узнать, растет ли количество клиентов месяц к месяцу, что дало больше дохода за лето — стрижка бороды и волос.

Эти данные отвечают на вопрос: что случилось? На основе них можно формулировать гипотезы и принимать решения. В большинстве своем — в ручном режиме и за счет когнитивных усилий менеджера.

К этому же уровню относятся такие форматы аналитики, как Ad hoc reports и OLAP. Ad hoc reports — это отчеты, сделанные под конкретный бизнес-запрос. Чаще всего это что-то нестандартное, чего нет в обычной отчетности. Например, перед менеджером «Бородатого сисадмина» стоит задача узнать, сколько продаж случилось за три месяца для когорты лысых, но бородатых посетителей (с разбивкой по дням).

Второй уровень: диагностический

На этом уровне — так называемая аналитика самообслуживания (self-service BI). Она подразумевает, что выполнять запросы к нужным данным и генерировать обобщающие отчеты могут специалисты разных профилей, а не только аналитики данных. Такой подход также проявляется в использовании BI-cистем типа Power BI, Qlik или Tableau. При этом дашборды в них, как правило, настраивают специалисты по работе с данными.

Здесь данные отвечают на вопрос, почему это случилось? Они не просто описывают нынешнее состояние компании, но являются источником аналитических выводов. Например, выручка «Бородатого сисадмина» выросла в 2 раза в сравнении с предыдущим месяцем. Данные показывают, что случилось это из-за нескольких рекламных постов в Telegram об акции барбершопа.

На этом уровне компания может перейти от Excel-таблиц к Python-скриптам и SQL-запросам. Также здесь уже не обойтись без одного-двух дата-аналитиков в команде.

Зачем вообще переходить на более сложные инструменты?

Причины могут отличаться для каждой конкретной компании:

  1. Увеличился объем работы с данными. Компания стала не только подсчитывать прибыль и расходы за месяц, но и собирать данные по маркетинговым активностям, фиксировать отток клиентов и так далее. Плодить десятки новых Excel-таблиц становится нерационально — в них легко запутаться и сложно проводить корреляции между событиями.
  2. Появилась потребность в автоматизации. Сотрудники тратят много времени, чтобы собирать данные вручную. Это время они могут посвятить более полезной для роста бизнеса работе.
  3. Нужно повысить качество данных. Чем меньше автоматизации процессов, тем больше поле для человеческих ошибок. Какие-то данные могут перестать собирать или вносить с ошибками. Автоматизация и BI-системы помогут лучше «чистить» данные и находить новые направления для аналитики.
  4. Увеличилось число аналитиков. Например, компания стала развиваться в нескольких регионах. В каждом — свой аналитик, но сводить данные им нужно в одном месте. Для унификации инструментов и подходов можно использовать единую BI-систему и общее хранилище (или хотя бы базу данных).

Третий уровень: предикативный и предписательный

На этом уровне начинается работа с более сложными концептами. Речь о предсказательной и предписательной аналитике.

В первом случае данные отвечают на вопрос, что будет дальше. Например, можно спрогнозировать рост выручки или клиентской базы через полгода. Тут алгоритм анализа может лечь в основу ML-модели.

Предписательная аналитика строится на вопросе, что стоит оптимизировать. Данные показывают: чтобы показатели выручки барбершопа выросли на 60%, нужно увеличить бюджет на рекламное продвижение на 15%.

На этом этапе речь уже не о нескольких аналитиках, а о целой команде, которая может работать на несколько бизнес-направлений. Как правило, в этой точке у компаний появляется необходимость в платформах для обработки данных.

Четвертый уровень

«Вышка» — это автономные системы аналитики на основе искусственного интеллекта. Тут машина предлагает некоторое предположительно верное решение по результату анализа больших данных, а человек принимает финальное решение.

Подобные системы могут использовать банки. Например, это могут быть скоринговые системы для выдачи кредитов. А наш барбершоп может использовать Lead scoring — технологию оценки базы данных клиентов с точки зрения их готовности приобрести продукты компании.

Третий и четвертый уровни только для больших данных?

Короткий ответ — нет.

Объем данных не так важен, как задачи, которые стоят перед компанией

Конечно, чем больше данных, тем репрезентативнее результаты. Но оперировать доводами в духе «у меня база всего на 1 млн человек, вся эта платформенная обработка — не для меня» тоже неверно.

Данных может быть немного, но они могут быть очень разнообразными: записи бесед с клиентами, записи с камер наблюдения, пользовательские изображения и т.д. Все это нужно систематизировано хранить, чтобы успешно извлекать из них ценные для компании, применимые в бизнес-задачах знания.

Объем данных не так важен, как количество аналитики и аналитических команд

Если в компании несколько аналитических команд по разным бизнес-направлениям, это приводит к проблемам. Команды могут использовать один источник данных, но при этом разные инструменты аналитики, разные хранилища. Иногда они могут анализировать одно и то же или по-разному считать один и тот же показатель, что не очень рационально. Если добавить новую аналитическую команду, она рискует начать дублировать часть уже сделанной работы.

Разнородность аналитических пайплайнов также приводит к задержкам в выполнении требований бизнеса. Продакт-менеджер попросит починить дашборд с выручкой по продукту, а фикс получит только через 1,5 месяца.

Когда растут сложность аналитических задач и число аналитиков, компании задумываются о платформах обработки данных. Они дают общую базу, общепринятые договоренности: с помощью каких инструментов и как мы забираем данные из источников, куда их складываем, каким образом организуем хранилище.

Из чего состоят платформы обработки данных

В целом, дата-платформа — это набор интегрированных между собой инструментов, которые позволяют компаниям делать регулярную и воспроизводимую аналитику данных.

Набор инструментов может быть разнообразным, но вкладываются они примерно в один и тот же пайплайн работы с данными:

  1. Источники. Весь набор источников данных — от простых файлов и реляционных БД до SaaS-решений, собирающих какую-либо потенциально полезную для бизнеса информацию.
  2. Обработка и трансформация данных. Здесь в работу вступают ETL- или ELT-инструменты. Данные забираются из источника, подвергаются преобразованиям, если это необходимо, и направляются в хранилище. Здесь могут быть задействованы такие инструменты, как Apache Spark, Kafka, Airflow.
  3. Хранение данных в формате, подходящем для дальнейшей работы c ними. Самыми популярными тулзами для этого являются Greenplum, Clickhouse, Vertica, инструменты из экосистемы Hadoop.
  4. Непосредственно анализ данных — описательный и/или предсказательный. В качестве инструмента тут может использоваться SQL, Python или любые другие языки.
  5. Вывод/визуализация данных для конечных пользователей. Чаще всего какая-то принятая в компании BI-система (Power BI, Qlik, Tableau, Apache Superset или их аналоги).
Читайте также:  Как привлечь людей в сетевой бизнес через инстаграм

Как построить дата-платформу

Здесь вернемся к нашему «Бородатому сисадмину». Довольно сложно представить барбершоп, которому нужна платформа обработки данных, но мы уже слишком далеко зашли. Допустим, им управляет Федор Овчинников. Филиалы барбершопа открыты в 4 регионах страны и 22 городах. А еще он запустил онлайн-курсы по уходу за бородой в домашних условиях и всероссийскую платформу для барберов с системой личных кабинетов.

В общем, данных много, запросов для роста бизнеса тоже, аналитические команды не справляются. Какие есть варианты?

Создаем самостоятельно, с нуля

Самый трудно реализуемый вариант, но исключать его полностью нельзя. В таком случае компании нужно нанимать дорогостоящих на рынке специалистов — DevOps- или дата-инженеров. И надеяться, что они справятся без дата-архитектора (или нанять и его тоже).

Также нужно будет арендовать или закупать инфраструктуру под платформу. Понадобятся быстрые серверы и хорошие пропускные каналы. Если инфраструктура on-premises, серверы, естественно, нужно будет еще обслуживать (+ сменные инженеры в техническую команду для обслуживания 24/7).

Весь набор выбранного для платформы ПО нужно будет настроить и «подружить» между собой, чтобы обработка данных проходила максимально автономно и без сбоев. Отраслевого стандарта по факту нет, готовых инструкций очень мало.

В общем, проект масштабный — нужно вложить большие средства в то, что не будет приносить прибыли до и немного после окончания «стройки». А работа может растянуться в лучшем случае на несколько месяцев.

Нашему барбершопу не подходит. Нужных специалистов нет, IT-бренда, чтобы привлекать хороших специалистов, нет, а профит от анализа данных нужен как можно быстрее.

Нужно искать что-то более готовое. Какие есть варианты?

Идем к облачному провайдеру

У зарубежных компаний, которые нередко cloud native, есть один распространенный сценарий. Когда нужна платформа для обработки данных, они идут к одному из популярных иностранных облаков — например, AWS, Google Cloud, Azure — и там из отдельных «кубиков» собирают себе систему.

У них много продуктов, и там можно найти нужное «коробочное» решение для каждого из этапов пайплайна, который мы рассмотрели выше. «Кубики», впрочем, тоже нужно будет связать — с помощью собственных cloud-архитекторов или соответствующего managed-сервиса от провайдера.

Приобретаем готовую платформу

Еще один вариант — обратиться, например, к компании Cloudera, которая на данный момент является единственным адекватным поставщиком Hadoop. У них можно получить готовую, уже собранную платформу и даже техническое сопровождение. Но будет дорого. Ценник сможет принять только крепко стоящий на ногах энтерпрайз.

Пример зарубежной платформы обработки данных

Где проблема? Владелец «Бородатого сисадмина» понимает, что оплата сервисов сейчас затруднена, платить нужно в долларах, а данные безопаснее хранить на территории России. Нужно рассматривать отечественные альтернативы.

Что в России?

В стране есть альтернативы обоим «западным» форматам: и набор необходимых PaaS-решений в облаке, не связанных между собой, и варианты, что ближе к «коробочным». В этом тексте не будет подробного обзора российских решений — этому стоит посвятить отдельный текст (кстати, напишите в комментариях, если вам будет интересно почитать такой обзор).

Здесь мы сосредоточимся на варианте, который обособлен от существующих решений и может быть полезен тем, кто ищет баланс между ценой и качеством.

Арендуем инфраструктуру с предустановленным ПО для обработки данных

Наша ситуация: у «Бородатого сисадмина» нет компетентных архитекторов и нескольких миллионов на интеграцию «коробочного» решения. Какие есть еще варианты?

У Selectel появилась платформа обработки данных — сервис, который снимает с бизнеса сразу две боли: необходимость связывать сервисы в одной инсталляции и заниматься вопросами безотказной работы инфраструктуры.

Работает как ателье. Клиент — это может быть CTO, DevOps, главный аналитик, дата-инженер — рассказывает о своих потребностях. Указывает «мерки»: сколько данных обрабатывается, какой вид обработки нужен — потоковая или пакетная (можно обе), что хочется получать на выходе.

Под требования подбирается инфраструктура — выделенные серверы на высокочастотных процессорах (до 3,6 ГГц) с большим объемом RAM и быстрыми дисками. На ней дата-инженеры из ITSumma поднимают все необходимое ПО под платформу обработки данных — настраивают сетевую связность и все необходимые каналы их взаимодействия.

Минимально достаточное число серверов — четыре машины. Это необходимо для обеспечения отказоустойчивости. Большинство из систем, устанавливаемых в платформу, — распределенные, нужно несколько мастер-нод, размещенных на разных «железных» хостах. Верхняя граница не устанавливается. Инфраструктура под платформу может масштабироваться горизонтально под запросы клиента.

Список open source-инструментов, которые связываются в рамках платформы обработки данных Selectel. В основе — выделенные серверы, соответствующие ФЗ-152 «О персональных данных».

Выбранное ПО — инструменты, которые можно встретить в большинстве эволюционно зрелых дата-платформах. Это open source, поэтому можно не переживать из-за вендор-лока.

Другие особенности

Умеренная кастомизируемость. Клиент может подключать любой источник данных, который ему удобен. Также можно синхронизировать вывод данных в BI-систему клиента, если он, например, использует не Apache Superset. В остальном стек негибкий: поменять один инструмент на другой или добавить инструмент к существующему списку не получится.

Можно удалить лишние элементы — например, Kafka и Spark, если компания не занимается потоковой обработкой данных. Это позволит снизить нагрузку на инфраструктуру и сэкономить место для хранения данных.

Контроль на каждом этапе. Клиент получает доступ ко всему: от физической инфраструктуры до интерфейсов каждого из входящего в нее инструмента. Всегда можно добавить новый источник данных или запланировать выполнение нового Python-скрипта в Airflow. Это можно сделать также через поддержку в ITSumma. Если компании это не надо, такой вариант тоже рабочий.

И инфраструктура, и софт будут настроены для работы с данными без участия ее сотрудников.

Отдельный бонус — можно добавить к платформе сопровождение дата-инженеров ITSumma, исключив необходимость нанимать in-house специалистов. Все через панель управления Selectel.

Не обязательно быть клиентом. Чтобы построить платформу обработки данных в Selectel, не обязательно хостится на инфраструктуре компании. Сетевую связность можно настроить как on-prem-площадки. Единственное — при этом сценарии могут быть ожидаемые задержки при трансфере данных из источников. Для высоконагруженных систем и систем, чувствительных к latency, лучше перевезти обрабатываемые данные ближе к месту размещения платформы.

Стоимость платформы складывается из стоимости инфраструктуры и работы дата-инженеров ITSumma. Оплата помесячная. Время построения платформы зависит от сложности запроса конкретной компании. На выходе клиент получает отказоустойчивую, хорошо отлаженную систему для регулярной обработки данных.

Зачем компаниям платформы обработки данных

Рейтинг
( Пока оценок нет )
Загрузка ...
Бизнес для женщин