Бизнес анализ подготовка данных моделирование

Стандартный процесс интеллектуального анализа данных CRISP-DM

1. Первый разговор о концепции модели KDD

KDD: обнаружение знаний в базе данных (KDD) — это нетривиальный процесс определения допустимых, новых, потенциально полезных и в конечном итоге понятных шаблонов из набора данных. Обнаружение знаний превращает информацию в знания, а поиск скрытых золотых самородков на шахтах данных будет способствовать инновациям в знаниях и развитию экономики знаний.

Здесь я должен упомянуть концепцию интеллектуального анализа данных, интеллектуального анализа данных (англ .: Data mining), и переведенную на разведку данных, интеллектуальный анализ данных. Это шаг в KDD. Под интеллектуальным анализом данных обычно понимается процесс поиска информации, скрытой в большом количестве данных с помощью алгоритмов. Интеллектуальный анализ данных обычно связан с информатикой и позволяет достичь вышеуказанных целей с помощью многих методов, таких как статистика, онлайн-анализ и обработка, поиск информации, машинное обучение, экспертные системы (в зависимости от прошлых правил) и распознавание образов.

CRISP-DM — Межотраслевой стандартный процесс исследования данных


Анализ данных использует идеи из следующих областей: (1) выборка, оценка и проверка гипотез на основе статистики, (2) алгоритмы поиска для искусственного интеллекта, распознавания образов и машинного обучения, Методы моделирования и теория обучения. Интеллектуальный анализ данных также быстро охватил идеи из других областей, включая оптимизацию, эволюционные вычисления, теорию информации, обработку сигналов, визуализацию и поиск информации.

Некоторые другие области также играют важную вспомогательную роль. В частности, системы баз данных должны обеспечивать эффективную поддержку хранения, индексации и обработки запросов. Технологии, основанные на высокопроизводительных (параллельных) вычислениях, часто важны при обработке больших наборов данных. Распределенная технология также может помочь обрабатывать огромные объемы данных, и это еще более важно, когда данные не могут быть обработаны вместе.

2. Межотраслевой стандарт добычи данных

CRISP-DM (межотраслевой стандартный процесс интеллектуального анализа данных), который является «межотраслевым стандартным процессом интеллектуального анализа данных». Модель CRISP-DM является одной из моделей KDD. Он был разработан аналитиками из DaimlerChrysler, SPSS и NCR. CRISP предоставляет открытый, свободно используемый стандартный процесс интеллектуального анализа данных, что делает интеллектуальный анализ данных подходящим для стратегий решения проблем бизнеса или исследовательских подразделений.

Как показано на блок-схеме

CRISP-DM предоставляет полное описание процесса для проекта KDD или проекта интеллектуального анализа данных. Он определяет этот процесс как шесть стандартных этапов: понимание бизнеса, понимание данных, подготовка данных, построение модели, оценка модели и публикация модели. Ниже приводится краткое введение:

INFADAY 2020. Self Service при подготовке данных силами бизнес-пользователя

(I) Стадия понимания бизнеса

Можно также сказать, что понимание бизнеса является стадией понимания бизнеса / исследований и определения целей анализа.

Сначала определите цель: определите бизнес-цель, которую нужно достичь, и включите ее в тему интеллектуального анализа данных.

Во-вторых, трансформируйте определение интеллектуального анализа данных: поймите потребности бизнес-подразделений с точки зрения бизнеса, переведите понимание бизнес-потребностей в определение интеллектуального анализа данных и составьте предварительный план для достижения бизнес-целей. Он включает в себя бизнес-анализ, определение критериев успеха бизнеса, оценку ситуации, получение списка ресурсов предприятия, получение требований и предположений предприятия, оценку затрат и выгод, оценку рисков и неожиданностей, а также предварительное понимание отраслевых условий.

Доработайте цели и стратегии: определите цели интеллектуального анализа данных и разработайте план интеллектуального анализа данных.

  • Установите бизнес-цели: четкие бизнес-предпосылки, бизнес-цели, измеримые критерии успеха
  • Среда оценки: четкие корпоративные ресурсы, потребности, ограничения, риски, коммуникации, анализ затрат и затрат
  • Определите цели интеллектуального анализа данных: четкие цели и измеримые критерии успеха
  • Разработать план проекта

(2) Стадия понимания данных

Сначала соберите данные: выясните возможные факторы, которые влияют на субъекта, определите носитель данных, проявление данных и место хранения данных этих влияющих факторов.

Во-вторых, знакомство с данными, включая следующие задачи: определение качества данных, предварительное понимание данных, краткое описание данных, определение значения данных,

Наконец, продвиньте данные: проанализируйте информацию и знания, скрытые в данных и предложите гипотезы, которые должны быть проверены с данными.

  • Собрать необработанные данные: написать отчет о сборе данных (полностью понять источник данных, обратить внимание на срок действия набора данных)
  • Описательные данные: отчет с описанием данных
  • Исследование данных: отчет об исследовании данных
  • Проверка качества данных: отчет о качестве данных

(3) Стадия подготовки данных

Подготовка данных заключается в преобразовании и объединении ранее найденных данных для создания широкой таблицы формата и содержимого, требуемого программным обеспечением для интеллектуального анализа данных. На этапе подготовки данных окончательный набор данных, который является объектом анализа моделирования, формируется из исходных данных. Конкретная работа на этапе подготовки данных в основном включает в себя табулирование данных, обработку записей, выбор переменных, преобразование данных, форматирование данных и очистку данных. Порядок выполнения не требует предварительного определения, и работа по подготовке данных может повторяться много раз Сделай это

  • Подготовка данных: набор данных и описание набора данных
  • Выбор данных: критерии включения / исключения данных
  • Очистка данных: отчет об очистке данных, обязательно запишите метод очистки данных
  • Построение данных: производные атрибуты, преобразование данных, дискретизация, новые записи и т. Д.
  • Консолидация данных: объединение данных, сопоставление данных
  • Форматирование данных: демеризация и т. Д.

(IV) Стадия построения модели

Построение модели — инструмент прикладного программного обеспечения. Выберите подходящий метод моделирования, обработайте подготовленную таблицу данных и выясните скрытые правила в данных. На этапе построения модели будут выбраны и использованы различные методы моделирования, а параметры модели будут оптимизированы.

Для решения одной и той же бизнес-задачи и подготовки данных можно выбрать несколько методов технологии интеллектуального анализа данных. В настоящее время можно выбрать метод технологии интеллектуального анализа данных с высокой степенью улучшения, высокой степенью достоверности, простым и легким обобщением бизнес-политик и рекомендаций. В процессе моделирования также могут быть обнаружены некоторые потенциальные проблемы с данными, требующие возврата к этапу подготовки данных. Конкретная работа на этапе построения модели включает в себя: выбор подходящей технологии моделирования, проведение инспекционного проектирования и построение модели.

  • Выбор технологии моделирования: алгоритм моделирования, построение модели
  • Создание тестовых проектов: написание тестовых проектных документов
  • Создать модель: используемые параметры, модель и описание модели
  • Оценка модели: оцените модель и уточните параметры

(V) Стадия оценки модели

Оценка модели заключается в оценке выводов модели с точки зрения бизнеса и статистики. Требуется проверка всего процесса моделирования, чтобы убедиться, что модель не содержит серьезных ошибок, и проверка важных бизнес-проблем, которые отсутствуют. Когда фаза оценки модели заканчивается, должен быть согласован план публикации результатов анализа данных.

  • Оценка результатов: оценка результатов модели и моделей аудита на основе критериев коммерческого успеха
  • Инспекционный процесс: процесс построения модели аудита
  • Последующая проверка: окончательное решение

(6) Стадия выпуска модели

Публикация модели также называется развертыванием модели. Создание самой модели не является целью интеллектуального анализа данных. Хотя модель обеспечивает отображение информации и знаний, скрытых за данными, основная цель интеллектуального анализа данных состоит в том, чтобы каким-то образом организовать и представить информацию и знания. И используется для улучшения операций и эффективности. Конечно, в реальных работах по интеллектуальному анализу данных, в соответствии с бизнес-потребностями различных предприятий, конкретная работа по публикации моделей может быть такой же простой, как отправка отчета по интеллектуальному анализу данных, или такой же сложной, как интеграция модели в основную операционную систему предприятия.

  • Создание плана выполнения: план развертывания
  • Создание плана регулирования / технического обслуживания: план
  • Подготовьте итоговый отчет: получите итоговый отчет или отчет
  • Пересмотр проекта: опыт работы

резюме

Стандартный процесс Crisp-DM:

Понимание бизнеса (отрасль) -> понимание данных (отношения) -> подготовка данных (качество) -> модель здания (алгоритм) -> оценка модели (стандарт) -> модель публикации

Читайте также:  Методы определения стоимости бизнеса в постпрогнозный период

Разумно перевести тему майнинга: бизнес-проблемы-> проблемы с данными-> модели данных-> решения(Способность к общению + способность к выражению + способность понимать + способность к моделированию)

Источник: russianblogs.com

Моделирование и анализ бизнес-процессов.-3

ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ М.П. Силич МОДЕЛИРОВАНИЕ И АНАЛИЗ БИЗНЕС-ПРОЦЕССОВ Методические указания к лабораторным работам для студентов направлений «Программная инженерия» (уровень бакалавриата), «Государственное и муниципальное управление» (уровень бакалавриата), «Бизнес-информатика» (уровень бакалавриата),

Томск 2022

3
Оглавление
ВВЕДЕНИЕ.4
1ЛАБОРАТОРНАЯ РАБОТА «ОПИСАНИЕ БИЗНЕС-ПРОЦЕССА».5
2ЛАБОРАТОРНАЯ РАБОТА «МОДЕЛИРОВАНИЕ
ОРГАНИЗАЦИОННОЙ СТРУКТУРЫ» .11
3ЛАБОРАТОРНАЯ РАБОТА «СОЗДАНИЕ IDEF0-МОДЕЛИ БИЗНЕС-
ПРОЦЕССА» .16
4ЛАБОРАТОРНАЯ РАБОТА «СОЗДАНИЕ IDEF3-МОДЕЛИ БИЗНЕС-
ПРОЦЕССА» .26
5ЛАБОРАТОРНАЯ РАБОТА«СОЗДАНИЕ ARIS-МОДЕЛИ БИЗНЕС-
ПРОЦЕССА В НОТАЦИИ EPC» .35
6ЛАБОРАТОРНАЯ РАБОТА«ФУНКЦИОНАЛЬНОСТОИМОСТНОЙ
АНАЛИЗ БИЗНЕС-ПРОЦЕССА».44
7ЛАБОРАТОРНАЯ РАБОТА«АНАЛИЗ ВРЕМЕНИ ВЫПОЛНЕНИЯ
БИЗНЕС-ПРОЦЕССА» .52
8ЛАБОРАТОРНАЯ РАБОТА«ПРОЕКТИРОВАНИЕ
ИНФОРМАЦИОННОЙ СИСТЕМЫ» .60
СПИСОК ЛИТЕРАТУРЫ .67
ПРИЛОЖЕНИЕ ВАРИАНТЫ ИНДИВИДУАЛЬНОГО ЗАДАНИЯ.68

4 ВВЕДЕНИЕ Лабораторные работы по дисциплине «Моделирование и анализ бизнеспроцессов» имеют целью : формирование практических умений и навыков по моделированию и анализу деловых процессов и информационных систем поддержки бизнеса, необходимых для успешной реализации полученных умений и навыков на практике. Лабораторные работы выполняются индивидуально.

Все работы выполняются на примере одного бизнес-процесса, выбранного в качестве индивидуального задания . Бизнес-процесс выбирается студентом перед проведением первой лабораторной работы и согласовывается с преподавателем. Примеры заданий приведены в приложении.

Лабораторные работы выполняются с использованием программного средства Microsoft Office Visio, а также табличного редактора MS Excel. Состав лабораторных работ для студентов различных направлений обучения может отличаться. Для некоторых направлений выполняются не все работы из представленных в данном учебно-методическом пособии лабораторных работ.

Состав и продолжительность (в академических часах) лабораторных работ по каждому направлению обучения указаны в рабочих программах дисциплины. Лабораторные работы выполняются в соответствии с порядком, описанном в данном учебно-методическом пособии. При их выполнении могут использоваться результаты предыдущих работ.

Каждой лабораторной работе предшествует самостоятельная работа , выполняемая студентом перед аудиторным занятием. Содержание самостоятельной работы по подготовке к каждой лабораторной работе приводится в данном учебно-методическом пособии. В основном самостоятельная работа состоит в сборе информации об исследуемом бизнес-процессе, необходимой для выполнения работы. Для сбора информации можно использовать опрос экспертов и других лиц, связанных с бизнес-процессом; наблюдения, непосредственное участие в выполнении процесса; поиск информации в статистических сборниках, в литературных источниках и Интернете. Форма контроля выполнения лабораторной работы: демонстрация преподавателю построенных моделей и результатов анализа, собеседование, ответы на вопросы, выполнение дополнительных заданий.

5 1 ЛАБОРАТОРНАЯ РАБОТА «ОПИСАНИЕ БИЗНЕС-ПРОЦЕССА» Цель работы Получить практические навыки в описании бизнес-процесса и его взаимодействия с окружением, в построении функциональной иерархии и организационной структуры управления, а также в оформлении результатов с использованием программного средства MS Visio. Самостоятельная работа по подготовке к лабораторной работе 1. Выберите в качестве индивидуального задания бизнес-процесс, на примере которого будут выполняться лабораторные работы.

Вы можете выбрать один из вариантов процессов, описанных в приложении, или, по согласованию с преподавателем, выбрать свой вариант. 2. Соберите сведения об исследуемом процессе: что является входом и выходом процесса; кто предоставляет входы и потребляет выходы; какие ресурсы необходимы для выполнения процесса; каковы его основные характеристики (тип, границы процесса, ключевые показатели).

3. Изучите порядок выполнения процесса. Выделите основные функции, составляющие процесс. Для каждой функции определите входы, выходы, исполнителей, средства, управляющую информацию. 4. Соберите сведения об организации, выполняющей процесс. Постройте организационную структуру.

Выделите тех исполнителей, которые участвуют в исследуемом процессе. Продумайте состав команд процесса. Порядок выполнения работы 1. Знакомство с Microsoft Office Visio Программное средство MS Visio используется для графического представления данных в самых различных сферах деятельности.

Оно позволяет создавать разнообразные блок-схемы, диаграммы процессов в различных нотациях, организационные диаграммы, схемы календарного планирования, гистограммы и графики, планы помещений и многое другое. В Visio представлены тысячи фигур для создания разнообразных схем и диаграмм. Фигуры сгруппированы в шаблоны , каждый из которых предназначен для конкретных целей.

Например, шаблон «Схема IDEF0» используется для создания модели процесса в нотации IDEF0, шаблон «Организационная диаграмма» – для представления организационной структуры, шаблон «Схема при- чинно-следственных связей» – для создания диаграммы «Рыбий скелет». Шаблон может содержать несколько коллекций фигур, так называемых трафаретов (shapes). Например, шаблон «Простая блок-схема» содержит четыре трафарета: «Рамки и заголовки», «Стрелки», «Фоновые рисунки», «Фигуры простой блок-схемы».

6 Шаблоны объединены в категории . Выделяют следующие категории: «Бизнес», «Блок-схема», «Карты и планы этажей», «Общие», «Программное обеспечение и базы данных», «Расписания», «Сеть», «Техника». Некоторые шаблоны могут входить сразу в несколько категорий. Например, шаблон «Простая блок-схема» входит сразу в три категории – «Бизнес», «Блок-схема» и «Общие».

При запуске программы Visio открывается окно, где предлагается выбрать шаблон создаваемого документа. Запустите Visio, выберите категорию «Блок-схема» и шаблон «Простая блок-схема»». Откроется окно документа (рабочая область), содержащее пустую страницу для рисования диаграмм, и окно «Фигуры» слева от рабочей области.

В окне «Фигуры» будет загружены трафареты, входящие в шаблон «Простая блоксхема», – «Фигуры простой блок-схемы», «Экспресс-фигуры». Для каждого трафарета имеется своя вкладка. Открыть вкладку можно, щелкнув мышкой на заголовке трафарета. При необходимости всегда можно загрузить дополнительные трафареты. Например, нам потребуется трафарет «Объекты рабочего процесса».

Чтобы его загрузить выберите в окне «Фигуры» меню «Дополнительные фигуры» и выберите в нем: Бизнес/Бизнес-процесс/Фигуры схемы рабочего процесса. Трафарет появится в окне «Фигуры». Подробные сведения об MS Visio, об основных методах работы в этой программе, содержатся в [1].

2. Описание процесса Моделирование бизнес-процесса начнем с диаграммы, показывающей весь процесс в целом, его связи с окружением, используемые ресурсы, а также ключевые показатели процесса. Пример диаграммы приведен на рисунке 1.1.

Для начала разместим заголовок . Выберите в меню «Главная» элемент «Текст», разместите с помощью мыши на странице блок текста, щелкните двойным щелчком и введите текст заголовка, например: » Описание процесса «. Вы можете изменить шрифт, размер шрифта, цвет текста, используя элементы меню «Главная». Затем выберите элемент «Указатель».

В центр диаграммы поместим блок, показывающий процесс в целом . Можно использовать фигуру «Процесс» трафарета «Фигуры простой блоксхемы». Выберите данную фигуру и расположите ее в центральной части страницы. Можете «растянуть» блок до нужного размера. Щелкните на нем двойным щелчком и введите наименование бизнес-процесса, выбранного Вами в качестве индивидуального задания.

Можно настроить изображение блока – изменить цвет линии или заливки. Чтобы изменить цвет заливки, вызовите контекстное (всплывающее) меню щелчком правой кнопки мыши, выберите в нем Формат/Заливка и выберите в окне цвет заливки.

7 Рисунок 1.1 – Диаграмма описания процесса Справа от блока процесса расположим потребителей , получающих основной выход процесса. Выход – это результат выполнения процесса, например, некоторое изделие (товар, продукт), услуга, документ.

Потребителями могут быть не только внешние субъекты – клиенты, заказчики (как физические лица, так и внешние организации), но и подразделения или процессы той же компании, которая выполняет исследуемый процесс. Слева от блока процесса поместим поставщиков процесса, предоставляющих входы . К входам относят сырье, материалы, комплектующие т.е. объекты, которые перерабатываются для получения выхода.

Входом может являться и входная информация, например, заявка клиента. Процесс может получать входы не только от внешних поставщиков, от клиентов, но и от других процессов, подразделений той же компании, которая выполняет процесс.

Можно представить потребителей и поставщиков в виде блоков, либо в виде графических изображений («картинок»), которые можно взять из трафаретов «Объекты рабочего процесса», «Отдел». Чтобы вставить изображение, загрузите трафарет, выберите нужную фигуру, перетащите ее на диаграмму, дважды щелкните на ней и введите наименование. Входы и выходы процесса представляются в виде связей процесса с потребителями и поставщиками. Обычно входы представляются в виде стрелок, входящих в левую сторону блока процесса, выходы – в виде стрелок, выходящих из правой стороны блока. Для рисования связей используем фигуру «Динамическая соединительная линия», которая есть практически в любом трафарете. Перетащите фигуру на диаграмму, один конец соедините с блоком про-

Читайте также:  Выдвиньте ваши предложения какой семейный бизнес мог процветать

9 Ключевые показатели результативности (метрики) позволяют оценить эффективность процесса. Примеры показателей: среднее время выполнения заказа; объем продукции в месяц; среднее количество клиентов в месяц; себестоимость продукции (услуги); качество продукции; процент брака; удобство обслуживания клиента.

Описание характеристик процесса можно представить в виде выноски – текстового блока, связанного с блоком процесса. Можно использовать фигуру «Примечание» или «Поле с автоподбором высоты» трафарета «Фигуры простой блок-схемы». Кроме того, выноски самых разнообразных форм содержатся в трафарете «Выноски» категории «Дополнительные решения Visio».

Разместите выбранную фигуру на диаграмме, введите текстовое описание и соедините выноску с блоком процесса. 3. Построение диаграммы декомпозиции бизнес-процесса Диаграмма декомпозиции представляет собой иерархию функций (пример иерархии приведен на рисунке 1.2). Она строится путем разделения процесса на части (функции): сначала исследуемый процесс разбивается на крупные функции-этапы; затем каждая из этих функций – на более мелкие функцииподэтапы. Выделенные функции-подэтапы можно расчленить на еще более мелкие функции-операции и так вплоть до элементарных операций.

Рисунок 1.2 – Диаграмма функциональной декомпозиции процесса

10 Создавать диаграмму декомпозиции будем на отдельной странице. Вставьте новую страницу. Для этого щелкните правой кнопкой мыши на ярлыке первой страницы и выберите в контекстном меню «Добавить страницу». Введите наименование страницы, например «Декомпозиция».

Постройте диаграмму, используя фигуры «Процесс» и «Динамическая соединительная линия» трафарета «Фигуры простой блок-схемы». Сохраните созданный документ. Он может быть использован для выполнения других лабораторных работ. Требования к результатам выполнения лабораторной работы Созданная Вами модель процесса должна включать: диаграмму описания процесса; диаграмму функциональной декомпозиции процесса, содержащую не менее трех уровней.

Источник: studfile.net

Развитие новых информационных моделей для внутреннего аудита на основе технологии больших данных

В середине 90-х концепция использования ресурсов кредитно-финансового сектора претерпела существенные изменения, что большинство экспертов и аналитиков связывают с внедрением нового стандарта 2 , описывающего общие процессы и подходы в практике финансовых и нефинансовых компаний. Теоретические положения, обосновывающие научную значимость данного стандарта позволили связать воедино бизнес-процессы и бизнес-цели компании в рамках существующих ресурсов (рис.1). Рис. 1 Концепция стандарта на основе взаимосвязи бизнесе-процессов и бизнес-целей компаний в рамках существующих ресурсов Концептуально новым элементом данного стандарта стали информационные данные, определяющие необходимость использования больших данных и их последующую обработку на цикличной основе. Позднее упомянутая концепция стандарта на основе взаимосвязи бизнесе-процессов и бизнес-целей компаний кредитно-финансового сектора в рамках существующих ресурсов была преобразована в отдельную методологию CRISP-DM 3 , в основе которой заложено пошаговое руководство по достижению бизнес-целей компании. При реализации любого проекта методология предусматривает последовательную реализацию пяти основных шагов:

  1. Анализ бизнеса компании;
  2. Анализ данных;
  3. Подготовка данных;
  4. Моделирование процесса;
  5. Оценка его результата и практическое внедрение.

Важнейшая особенность данной методологии состоит в изучении бизнеса компании или клиента на предмет соответствия бизнес-целям, что позволяет воспринимать любой проект в качестве «песочницы» для внедрения эксперимента. Не менее существенной особенностью является детальное документирование каждого шага, что позволяет в дальнейшем принять более правильное решение. В таблице 1 обобщены основные характеристики данной методологии в целях ее использования для внутреннего аудита и раскрыты основные мероприятия, реализуемые аудитором в рамкам подготовки к моделированию информационных данных. Для проведения анализа бизнеса компании внутренний аудит используется следующие действия: определяет бизнес-цели, проводит оценку текущей ситуации, определяет цели для подготовки аналитики и наконец, осуществляет подготовку плана проекта. Анализ информационных данных в целях внутреннего аудита охватывает сбор, описание и изучение информационных данных, а также их качество. В целях подготовки информационных данных проводится их выборка, очистка, сортировка, генерация и интеграция, по итогам чего, осуществляется их форматирование. Непосредственно моделирование информационных данных происходит на основе выборки алгоритмов, подготовки плана тестирования и обучения моделей, с учетом чего, проводится оценка качества модели. Таблица 1

Компоненты методологии CRISP-DM для целей внутреннего аудита

Бизнес-анализ деятельности компании на рынкеАнализ информационных данныхПодготовка информационных данныхМоделирование информационных данных
Определение бизнес-целейСбор информационных данныхВыборка информационных данныхВыборка алгоритмов для моделирования
Оценка текущей ситуацииОписание информационных данныхОчистка/сортировка информационных данныхПодготовка плана тестирования
Определение целей аналитикиИзучение информационных данныхГенерация информационных данныхОбучение моделей
Подготовка плана проектаПроверка качества информационных данныхИнтеграция информационных данныхОценка качества моделей
______________________Форматирование информационных данных_____________

Однако использование методологии не может стать основой для автоматизации задач внутреннего аудита, она лишь позволяет оценить качество проекта, связанного с развитием новых информационных моделей.

В этой связи считаем, что определяющим этапом по построению информационной модели для внутреннего аудита является формирование обучающей выборки на основе уже имеющихся факторов или схем. Основной целью обучающей выборки является возможность построения информационной модели для выявления отклонений, мошеннических действий или нетипичных операций в деятельности организации.

Модель должна уметь распознавать такие операции на основе уже имеющихся больших данных, среди которых будут присутствовать, как типичные, так и нетипичные операции. Процесс обучения модели будет включать в себя следующие основные этапы. 1. Определение организационной структуры и цели создания комплексной информационной модели.

Основной проблемой, с которой сталкиваются внутренние аудиторы при автоматизации процедур аудита, является необходимость подготовки обоснования для руководства, включающего формализацию сроков реализации проекта аудита с учетом возможности выявления финансовых рисков, объема и источников информационных данных, а также определения заинтересованных сторон, обладающих наиболее существенной информацией. Иными словами, аудиторы должны создать не только agile-команду для реализации конкретного проекта, но и обосновать примерные сроки его окупаемости с учетом потенциальных выгод от практического внедрения.

2. Определение круга задач, решаемых в рамках аналитики больших данных. Цель данного этапа – создание комплексной системы структурированных и неструктурированных данных, определяющих неочевидные и очевидные закономерности в бизнес-процессах.

Внутреннему аудитору необходимо учитывать, что работа информационной модели объединяет не только отдельные бизнес-процессы, но и позволяет решать специализированные задачи с учетом потребностей конкретного клиента. Например, жизненный цикл проекта интеллектуального анализа информационных данных в целях аудита может состоять из отдельных этапов (фаз), допуская переход на предыдущий этап для уточнения исходных данных, что придает ему характер «спирали».

В тоже время, начало второго этапа обуславливает необходимость первоначального сбора информационных данных с целью изучения и идентификации проблем, лежащих в основе первоначальных наблюдений. В рамках этого этапа осуществляются: первичный сбор информационных данных; их описание и изучение, а также проверка качества исходной информации.

Для цели внутреннего аудита необходимо учитывать, что большие данные собраны, как правило, в едином хранилище, но имеют особенную структуру и свойства, поэтому для их использования необходимо поставить не только первоначальную задачу, но и сформировать перечень потенциальных вопросов, на основе которых будут строиться проверочные мероприятия. Таким образом, проверка качества информационных данных будет включать в себя оценку их достоверности в рамках подготовки к следующему этапу.

3. Формирование единого хранилища для анализа информационных данных. Анализ больших информационных данных предполагает определение их сильных и слабых сторон с целью формализации источников, обоснования и возможности для дальнейшего использования во внутреннем аудите.

Иными словами, аудитору необходимо убедиться в достаточности информационных источников и определить место единого хранилища больших данных. 4. Подготовка информационных данных в целях внутреннего аудита может включать в себя этап подготовки обучающей выборки для дальнейшего использования и моделирования.

Читайте также:  Какой бизнес магазин лучше открыть

Например, на данном этапе может определяться потенциальная релевантность к решаемым задачам, а также может быть сформирован список конкретных кейсов и исходных атрибутов. Именно этот этап позволяет провести первоначальную интеграцию данных из корпоративного хранилища в заранее подготовленную витрину информационных данных.

Иными словами, происходит горизонтальное и вертикальное объединение информационных данных в единую аналитическую таблицу для создания обучающей выборки. 5. Моделирование информационных данных на основе сравнения гиперпараметров для получения лучшей комбинации данных с учетом заданной аналитики.

Что такое моделирование информационных данных, и для чего оно необходимо внутреннему аудитору? Именно на этом этапе возникает максимальное количество вопросов у внутренних аудиторов, поскольку их (данных) последующая интеграция определяет не только сложности в дальнейшем форматировании, но и достаточность используемых информационных источников.

Данный процесс может занять достаточно продолжительное время, однако именно процесс моделирования и «примерка» будущей информационной модели позволяют убедиться в нужных объемах используемой информации и при необходимости увеличить или уменьшить их. 6. Тестирование и обучение модели (т.е. выбор наиболее удачных параметров в результате тестирования данных), оценка полученных результатов. С одной стороны, данный этап характеризует завершение проекта с учетом определения возможностей для дальнейшего моделирования, однако с другой – определяет основные проблемы, возникающие ввиду сложности построения любого алгоритма, состоящего не только в объеме полученных данных, но и последующей совместимости различной информации с учетом круга решаемых задач. Кроме того, данный этап определяет возможность дальнейшей валидации данных и переобучения модели в целях определения наиболее надежного информационного канала.

С нашей точки зрения, отдельного внимания заслуживает процесс обучения модели с целью поиска наиболее эффективного алгоритма и выявления возможных закономерностей. Например, если предсказание вероятности совершения «аналогичных» по параметрам операций оказались неверны, это может отразиться на качестве исходной модели, нуждающейся в дальнейшем переобучении.

В обучающей выборке могут быть дополнительно заложены примеры, ошибочно классифицируемые алгоритмом на предварительных этапах апробации, что позволяет присваивать рейтинг не только каждому клиенту, но и каждой совершенной им транзакции в целях упорядочивания операций по степени потенциального риска. 7.

Оценка полученного результата моделирования с целью возможности практического применения. Для чего внутреннему аудитору необходим этот этап?

Как правило, именно на этом этапе выявляются основные проблемы и недостатки, не фиксируемые на промежуточных этапах, поскольку происходит технический анализ качества модели, оценка заданных критериев качества, достижения бизнес-целей и пр. Например, в рамках заранее заданной модели может быть спрогнозирован массовый отток клиентов равный 95%, тогда как на практике он не превышает 10-15%.

В этом случае модель признается нерезультативной, и принимается решение о ее повторной доработке. 8. Практическое внедрение и настройка мониторинга модели может предполагать как запуск пилотного проекта в рамках утверждения его технического плана, так и его тиражирование для создания новых проектов на основе больших данных.

Однако окончательный этап завершается отчетом о моделировании и может включать в себя дальнейшие рекомендации по развитию и доработки модели. Например, если в процессе проведения пробного тестирования в зону высокого риска попали операции, не обладающие признаками рисковых операций, это может определить необходимость введения дополнительных критериев не только для клиентов, но и для сотрудников, совершающих такие операции.

В число дополнительных критериев также могут быть внесены такие характеристики, как изменение бизнес-плана и продуктовой линейки, изменение в мотивации сотрудников и пр. В заключительной части публикации постараемся структурировать и обобщить основные проблемы, с которыми может столкнуться внутренний аудитор при создании информационной модели на основе больших данных.

Во-первых, это преобразование неструктурированных данных в структурированные данные. Данная проблема характерна для большинства информационных моделей, включающих в себя большое количество признаков, характеристик, паттернов, не поддающихся количественной оценке. Иными словами, некоторые характеристики клиента не могут быть преобразованы в числовые переменные.

Поэтому при возникновении сложных ситуаций целесообразно расширять потенциальные характеристики или паттерны поведения клиентов для цели последующего преобразования информации. Во-вторых, еще одной проблемой выступает нецелесообразность автоматизации отдельных критериев по причине высокой вероятности возникновения ошибок или получения некорректных данных, что повышает трудозатраты для его обработки с помощью средств машинного обучения.

Постоянное обогащение модели новыми характеристиками позволит снизить количество ошибок и уменьшить объем предварительной выгрузки операций. В-третьих, существенной проблемой выступает качество анализа дополнительной информации конкретным специалистом или экспертом в результате проводимого отбора или анализа.

Даже совершенная автоматизация не создает новых подходов для мониторинга или анализа, поэтому с целью снижения подобных проблем и рисков необходимо настроить процесс «обучения» модели для выборки на опыте каждого эксперта, с тем, чтобы в процессе мониторинга не возникало спорных ситуаций. Иными словами, процесс обучения модели должен быть апробирован всеми сотрудниками, реализующими функции апробации информационной модели.

В-четвертых, наряду с уже указанными проблемами, еще одной проблемой выступает определение размера выгрузки больших данных с учетом ограниченного набора информационных источников. С моей точки зрения, разумное ограничение количества информационных данных будет способствовать снижению рисков и повышению качества полученной классификации признаков и характеристик клиентов, а также повышению качества конечного алгоритма работы модели с целью более точного подтверждения необходимых характеристик или признаков операций. В-пятых, создаваемая внутренними аудиторами информационная модель может попросту не сработать по причине недостаточности ретроданных. Для того, чтобы обучить модель, необходим достаточный объем «плохих» и «хороших» примеров по уже проведенным операциям, что предполагает формирование качественной ретроспективной информационной базы. Таким образом параметры практической реализации информационной модели в целях внутреннего аудита должны учитывать особенности и ограничения, связанные с практической реализацией проекта в части:

  • сбора информационных данных и методик в целях осуществления регулярного мониторинга;
  • выгрузки характеристик клиентов и паттернов для обучающего и тестового набора используемых примеров;
  • организации дополнительного «обучения» алгоритма классификации признаков, лежащих в основе поведения клиентов для цели использования тестового набора признаков;
  • организации дополнительной проверки классификаций и характеристик отдельных информационных источников;
  • возможности масштабирования модели на отдельные направления деятельности в целях использования унифицированных информационных данных;
  • обеспечения необходимого объема ретроданных для обучения модели на основе «плохих» и «хороших» операций.

С моей точки зрения, даже самая совершенная информационная модель для внутреннего использования не может быть абсолютно эффективна для всех анализируемых операций или сделок, что определяет учет специфики деятельности организации в рамках обоснованных трудозатрат на ее практическую реализацию.

В тоже время, реализация информационной модели для предсказания рисковых событий, мошенничества, нетипичного поведения клиентов, нестандартных операций или платежей может быть использована не только в целях внутреннего аудита, но и для разработки скорингового продукта, совершенствования СRM-модели, адаптированной под потребности конкретного клиента или группы клиентов, а также для снижения трудозатрат при подготовке аналитической информации для менеджмента. Развитие больших данных сегодня связано также с необходимостью превращения знаний в интегрированные информационные модели в целях совершенствования и создания новых конкурентоспособных продуктов и услуг для компаний. В эпоху развития цифровых технологий многие компании, особенно в высокотехнологичном секторе экономики, сосредоточены на преобразовании человеческого и интеллектуального капитала в структурный капитал, однако основная задача больших данных заключается в возможности интеграции знаний в информационное поле для повышения эффективности и скорости их передачи конечному пользователю.

1 Прим. автора. Исследование PWC опубликованное в докладе об экономических преступлениях в РФ [http://rapsinews.ru/incident_news/20180516/282711572.html]

2 Прим. автора. CRoss Industry Standard Process for Data Mining (CRISP-DM) – стандарт, описывающий общие процессы и подходы к аналитике данных, используемые в промышленных проектах независимо от конкретной задачи и индустрии.

Источник: www.audit-it.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
Бизнес для женщин