Nlp что это в бизнесе

NLP-инженер (NLP от англ. natural language processing) — специалист, обладающий компетенциями в сферах прикладной математики, лингвистики и разработки программного обеспечения. Сегодня предлагаем поближе познакомиться с профессией NLP-инженера, узнать об основных задачах и роли в компании. Помог разобраться в непростой теме Иван Харченко, руководитель математико-лингвистического отдела системы управления репутацией и медиа анализа «СКАН-Интерфакс».

Кто такой NLP-инженер и чем он занимается в компании

Как технический специалист NLP-инженер отвечает за расширение возможностей бизнеса при обработке информации на естественных языках. NLP-инженер реализует наукоёмкие правила и алгоритмы и применяет инструменты машинного обучения. NLP-инженер решает задачи по анализу и извлечению информации из текстов, в том числе методами ML.

Иван Харченко

Руководитель математико-лингвистического отдела системы управления репутацией и медиа анализа «СКАН-Интерфакс»

НЛП в бизнесе. Мартин Лейвиц. [Аудиокнига]

Однако его задачи могут не ограничиваться только сферой машинного обучения, так как некоторые из них требуют углублённых знаний математики, лингвистики и теории алгоритмов. Ну и, конечно же, NLP-инженер должен быть неплохим программистом. Чтобы анализировать и извлекать данные из текстов, необходимо не только отвечать на множество инженерных вызовов, но и уметь правильно готовить такие данные.

В 2017 году в области искусственного интеллекта и машинного обучения произошла революция. Появилась нейросетевая архитектура «трансформер». Она позволила добиться невероятных результатов в решении задач автоматизированной обработки текстовых данных. NLP-инженеры получили в свои руки инструменты, которые в короткие сроки значительно повышают качество анализа неструктурированной информации.

Взаимосвязь математики и лингвистики

Скажем сразу: в данной специальности одно без другого существовать не может.

В работе NLP-инженера две противоположных науки связаны через необходимость создания математической модели естественного языка.

Современные компьютеры способны понимать только числа и логические операции. Для обработки текстов требуется описать лингвистические закономерности и правила на понятном машине языке. Многие задачи невозможно решить, опираясь только на знания математики и программирования. Разработчик обязан владеть предметной областью, с которой работает — лингвистикой.

Другими словами, если математик-лингвист не понимает русский язык, то он не сможет написать правило, которое будет действовать на обработку падежей в тексте.

Старт профессии: где учиться и куда пойти работать

В российских университетах много программ бакалавриата и магистратуры в различных отраслях Data Science. В МГУ имени М. В. Ломоносова на механико-математическом и филологическом факультете есть:

НЛП в бизнесе

  • «Фундаментальная и прикладная лингвистика»
  • «Математика»
  • «Прикладная математика и информатика»
  • «Фундаментальная информатика и информационные технологии»
  • «Математика и компьютерные науки»

В ВШЭ — «Прикладной анализ данных и искусственный интеллект», «Компьютерные науки и анализ данных», «Компьютерные системы и сети». В МГТУ имени Н. Э. Баумана — «Информатика, искусственный интеллект и системы управления», «Системы обработки информации и управления», «Фундаментальная и компьютерная лингвистика» и другие.

Чтобы определиться с направлением обучения, необходимо понять, какая из областей вас интересует:

  • Если в ваши цели входит самостоятельное изобретение инновационных технологий в ИИ, то в университете нужна профильная математика с углублённым изучением Data Science и Deep Learning.
  • Если же вы стремитесь к решению прикладных и бизнес-задач и готовы использовать уже существующие решения, то предпочтение сто́ит отдать разработке программного обеспечения и ML-инфраструктуры. К промышленным языкам разработки относим: C++, C#, Java и другие. Область знаний — разработка распределённых систем. Средства MLOps — инфраструктура для автоматизации работы с машинным обучением: MLFlow, AirFlow и так далее.

Но и в первом, и втором случае необходимо хорошо знать и чувствовать русский язык. Качество работы логических правил, алгоритмов и моделей машинного обучения невозможно оценить без базовых знаний в области лингвистики. Специалисту важно понимать природу данных, с которыми он работает.

Любой естественный язык, в том числе русский, непрерывно развивается — появляются новые слова и понятия, устойчивые словосочетания, меняется информационный фон, и многие ранее важные контексты становятся статистически незначимыми. Из-за этого необходимо постоянно адаптировать лингвистическую логику, алгоритмы и статистические модели к изменчивости языка. Помимо грамотности, важно, чтобы человек ориентировался в соответствующем бизнес-контексте и понимал, что и как ему оценивать. Само понятие качества решения задачи не всегда ограничивается только точностью и полнотой. Можно оценивать ещё ресурсоёмкость и скорость работы, а для этого уже нужны инженерные знания.

Чтобы быстро углубить свои знания в специальности, можно пройти дополнительное обучение. У «Нетологии» есть несколько курсов в области Data Science, которые подходят даже начинающим.

Важно понимать, что не все компании готовы брать к себе специалистов без практического опыта. Например, СКАН — большой и логически нагруженный проект со сложной инженерной структурой и высоким порогом входа. Поэтому при найме разработчиков мы ориентируемся как на их теоретическую базу, так и на практический бэкграунд.

Отдаём предпочтение тем, кто ранее был связан с обработкой текстов. При этом мы с радостью берём ребят из вузов в отдел лингвистической обработки — они работают над качеством разметки текстов. Там студенты учатся специальности и осваивают инструменты.

Личные качества и профессиональные навыки, которые нужны NLP-инженеру

Профильные навыки, без которых специалист не сможет выполнять поставленные задачи:

  • Знание профильной математической базы.
  • Базовое понимание русского языка (морфология, семантика, падежи).
  • Знание программирования на уровне middle и выше.
  • Знание Python, в особенности для NLP-инженера.
  • Умение находить самое простое решение — оно всегда лучшее.
  • Понимание алгоритмов машинного обучения: нейронные сети, алгоритмы кластеризации, логистическая регрессия.
  • Знание промышленных языков разработки: C++, C#, Java.

Личные качества позволяют эффективно выполнять рабочие задачи и продвигаться вверх по карьерной лестнице. Самые основные:

  • Умение работать с людьми.
  • Лидерские качества.
  • Внимательность.
  • Желание углублять знания в разных областях IT.
  • Стрессоустойчивость: работа не из простых.
  • Ответственный подход к работе.

Повышение компетенции — один из ключевых моментов в работе IT-специалистов. У NLP-специалистов это происходит в процессе работы. Для достижения результатов необходимо осваивать новые инструменты и улучшать уже существующие алгоритмы и правила. Специалисты повышают квалификацию непрерывно. Для реализации новых функций и решения задач нужны знания в смежных областях.

А это приводит к вертикальному и горизонтальному карьерному росту. Безусловно, уровень заработной платы напрямую зависит от опыта работы и от специализации: чем уже профиль, тем выше востребованность сотрудника.

Работа NLP-инженера на практике

NLP-инженеры могут поделить свою работу на две сферы:

  1. Плановые задачи по разработке и поддержке существующих функций системы.
  2. Факультативные исследовательские задачи. В их рамках разрабатывают стратегию улучшения бизнес-процессов, проверяют аналитические гипотезы, ищут новые подходы к решению разных задач.

Если говорить о СКАНе, то мы делим работу на несколько блоков.

Первый блок — это поддержка логического ядра системы. СКАН исторически построен на системе логических правил, оперирующих моделями естественных языков. Правила и языковые модели описаны на высокоуровневом промышленном языке программирования и позволяют извлекать из текстовых документов те знания, которые мы предоставляем клиентам.

Есть задача определения прямой речи. Прямая речь в СКАНе — не только прямая, но и косвенная, то есть всё, что может считаться «голосом компании». Для определения прямой речи на основе анализа корпуса новостных текстов описано множество паттернов.

Они содержат различные части речи и конструкции, которые могут быть семантически интерпретированы как речевые маркеры: сообщил, сказал, заявил, по сообщению, по информации, согласно исследованию.

Для определения границ прямой речи необходима точная работа синтаксического анализатора. Помимо непосредственно определения прямой речи и её границ требуется произвести ещё ряд специализированных действий над сущностями, которые являются авторами прямой речи. Например, снять с них тональность — если организация является автором исследования, в рамках которого делается негативный вывод, то на эту компанию не должен ставиться негатив, даже контекстный. Всё это требует разработки специальной логики и инструментов работы с лингвистическими моделями документов.

Второй блок — применение искусственного интеллекта для решения бизнес-задач. Инженеры отвечают за разработку новых подсистем, использующих как нейросетевые технологии Deep Learning, так и алгоритмы классического машинного обучения от сбора и анализа тестовых данных до проверки гипотез и поставки обученных моделей в промышленную эксплуатацию.

Для повышения точности связывания именованных сущностей из текста с организациями из базы данных СПАРК необходимо было реализовать механизм классификации контекстов упоминания этих сущностей по видам экономической деятельности в соответствии с ОКВЭД. То есть если в тексте упоминается некая компания ООО «Рога и Копыта» в следующем контексте: «За прошлый год ООО „Рога и Копыта“ закупило 200 единиц сельскохозяйственной техники, поэтому в этом году полностью готово к началу посевной кампании», — то мы должны по этому предложению определить, что ООО «Рога и Копыта», скорее всего, соответствует коду 01 ОКВЭД, а именно «Растениеводство и животноводство, охота и предоставление соответствующих услуг в этих областях». Это позволило бы в дальнейшем при решении задачи связывания сущностей — идентификации по СПАРК — отсеять варианты с неподходящим кодом экономической деятельности.

Вот что мы сделали для решения этой задачи:

  1. Для каждого кода ОКВЭД верхнего уровня собрали новостные документы с упоминаниями компаний, у которых в уставных документах указан соответствующий вид экономической деятельности как основной.
  2. Из этих документов собрали контексты упоминания организаций: 1–2 предложения до упоминания и 1–2 предложения — после упоминания.
  3. На основе выделенных контекстов составили словари ключевых слов для каждого из видов экономической деятельности.
  4. Взвесили их с помощью меты Tf*Idf.
  5. Для каждого вида экономической деятельности обучили модель SVM-классификатора методом ONE-vs-ALL.
  6. Откорректировали параметры классификаторов для достижения требуемой точности 95%.
  7. Реализовали REST-сервис, использующий обученные модели для multilabel-классификации контекстов.
  8. Захостили сервис в k8s и реализовали его вызов в пайплайне обработки документа.
Читайте также:  Изготовление косметики как бизнес

Для оценки качества решения задач NLP-инженеры используют множество показателей. Основные — точность и полнота. Вычисляют их на основе специально подготовленной выборки данных.

Допустим, нужно провести классификацию новостей и разделить их на технические — сводки финансовых рынков — и нетехнические:

  1. Собираем новости с упоминаниями акций, котировок, тикеров.
  2. Размечаем эту выборку вручную: помечаем документы, которые точно являются техническими, и те, которые ими не являются.
  3. Делим полученную выборку на две части: обучающую и тестовую в соотношении 70 на 30.
  4. Обучаем модель на обучающей выборке, тестируем на тестовой.
  5. Смотрим на показатели качества и проводим кросс-валидацию.
  6. Проводим экспертное тестирование на промышленных данных.
  7. Делаем выводы.

Почему NLP-инженеры — это будущее сервисов информационного поиска?

Бизнесу, связанному с обработкой текстовой информации, особенно необходимы такие специалисты. Необходимо постоянно адаптироваться к изменчивости естественных языков и информационного фона. Поэтому инженерные усилия концентрируются на создании максимально универсальных технологических решений. А они зачастую представляют собой симбиоз различных технологий. Люди, которые ими владеют, будут всегда в топе.

  • natural language processing
  • nlp
  • data science
  • data scientist
  • лингвистика
  • лингвистический анализ
  • лингвистические технологии
  • nlp (natural language processing)
  • Блог компании Нетология
  • Машинное обучение
  • Искусственный интеллект
  • Natural Language Processing
  • Data Engineering

Источник: habr.com

НЛП для бизнеса: то, о чем умолчат НЛП-тренеры

Рисунки и инфографика Михаила Казанцева

Почему я нахально заявляю, что могу рассказать об НЛП то, о чем другие молчат?

Дело в том, что НЛП – не единственная и не главная «поляна», которую я освоил. Я изучал и практиковал онтопсихологический метод, когнитивную психологию, телесно-ориентированные практики, технологии креативности. Я применял все эти подходы в бизнесе, а потом и в работе тренера и консультанта.

Мое отношение к НЛП с одной стороны, очень теплое. Я искренне люблю НЛП, прочитал, наверное, все книги, изданные на русском языке, и ключевые на английском. С 1995 по 1997 прошел курс практика и мастер-практика НЛП. И до сих пор успешно применяю технологии НЛП в работе. С другой стороны, я не испытываю к этому направлению фанатизма.

Это позволяет мне трезво оценивать его пользу и практический смысл.

Давайте попробуем понять, откуда сформировалось такое отношение?

В первой части статьи я рассмотрю историю НЛП не с точки зрения НЛП-фанатика, а с точки зрения человека бизнеса. Это мой взгляд, который основан на личном опыте, практике и взаимодействии с бизнесменами. Во второй части немного расскажу о том, что можно получить на тренингах НЛП по переговорам и насколько это применимо.

У нейролингвистического программирования в России интересная судьба. Массовая публика впервые это название вычитала в одной из книг популярного психиатра-психолога Владимира Леви. Если не ошибаюсь, это произошло в конце 70-х годов. Мэтр высмеял ажиотаж, который подняли первые энтузиасты НЛП в Москве.

Вторая волна нейролингвистического программирования прокатилась по стране уже значительно шире и была инициирована перестройкой и открытыми границами. Люди получили возможность съездить в Америку и пройти семинары у отцов-основателей НЛП Ричарда Бендлера и Джона Гриндера.

Я был знаком с некоторыми людьми из этой первой волны. Честно говоря, эти люди мне очень нравились. И то, что они делали, нравилось тоже. Эти люди были успешны, талантливы и чрезвычайно убедительны. Но, самое главное, они учились у «отцов-основателей», а это дорогого стоило.

Первая волна людей, занимавшихся НЛП, в основном использовала эти технологии для психотерапии, образования и программ личностного роста. Применение для бизнеса они практически не рассматривали.

Следующие поколения НЛП-истов было уже совершенно другим. Большинство из них не учились у Бендлера и Гриндера, а учились у наших и западных тренеров и мастеров первой волны. Кроме того, энтузиазм второго поколения был направлен уже и в область зарабатывания денег с помощью изученных методик, а не только на личностный рост или помощь пациентам.

Следующие волны НЛП-истов, кроме «классики», начали заниматься всяческими «улучшениями» НЛП, скрещивая НЛП с шаманизмом, биоэнергетикой и прочими «потусторонними» вещами.

Давайте проанализируем, что может дать НЛП-тренинг. Чаще всего не больше, чем то, что изложено в самых первых книгах Бендлера, Гриндера, а также Роберта Дилтса и Майкла Холла.

Человек, приходящий на тренинг, который ведет НЛП-специалист, должен помнить, что НЛП было разработано в 70-е годы, как система, моделирующая высококлассных психотерапевтов. И все первые технологии НЛП касались, в больше степени психологии, а не бизнеса.

Что, как правило, люди получают во время стандартного НЛП-тренинга по бизнес-переговорам?

Первое: Вам обязательно расскажут о прессупозициях или базовых предположениях НЛП. С этого начинается, практически, любой НЛП-тренинг. Эти утверждения задают «систему верований» о мире, человек и его возможностях. Базовые прессупозиции НЛП – это некие позитивные утверждения о мире и Вас.

Пример подобного утверждения: «Карта – это не территория», или «Вселенная – это дружественная сфера, изобилующая ресурсами». НЛП-фанатики принимают пресупозиции за абсолютную истину, забывая о том, что даже основатель НЛП Гиндер писал, что все эти утверждения не более, чем одна из возможных моделей. Практическая ценность пресуппозиций существует, но для бизнеса она не является основополагающей. Более того, базовые пресуппозиции НЛП – вдохновляющие, позитивные и гуманистические, но их глубокий идеализм может откровенно навредить как людям бизнеса, так и компаниям.

Второе: Вам, наверняка, расскажут о каналах восприятия и научат делить людей на «визуалов», «аудиалов», «кинестетиков» и «дигиталов». Вы научитесь определять, какая из систем восприятия является у человека ведущей, по его словоупотреблению и поведению. Кроме того, Вас будут учить распознавать так называемые глазные сигналы доступа: то есть определять по направлению взгляда, рассматривает ли человек внутренние картинки, прислушивается ли к внутренним ощущениям или ведет внутренний диалог.

Все это, действительно, можно применять в ходе переговоров, хотя для бизнеса эти умения, возможно, не являются ключевыми. Кроме того, для уверенного определения, а тем более использования, ведущей системы восприятия или интерпретации положения глаз клиента в ходе бизнес-переговоров, Вам однозначно будет недостаточно ни 2-х, ни 3-х, ни 10-дневного тренинга. Для уверенного освоения этих методик нужны недели и месяцы практики. Если Вы не верите, почитайте книгу Джона Гриндера «Шепот не ветру», где подробно описано, как неистово тренировались создатели НЛП, когда открывали, разрабатывали и осваивали эти методики.

Читайте также:  Открыть свой бизнес мед

Третье, чему, обычно, учат на тренингах НЛП – это «постановка якорей». Эта техника позволяет фиксировать и вызывать у партнера по переговорам определенные и нужные Вам психологические состояния.

Для того чтобы эта техника хоть как-то работала, Вы должны овладеть искусством «калибровки». «Калибровка» – это умение различать тончайшие изменение во внешнем облике, поведении и состоянии клиента. Полный список параметров, за которыми стоит наблюдать, я расскажу на Workshop`е 11 июня. Здесь приведу пару любопытных примеров.

Меня учили, например, отслеживать изменение цвета кожи человека в ходе взаимодействия с ним, степень кровенаполнения губ, высоту голоса, темпа речи и т.п. Если упражняться каждый день, то мало-мальски пристойно Вы научитесь «калибровать» приблизительно за месяц. Мое мнение: калибровка – это не просто нужное, а чрезвычайно нужное умение для тех, кто ведет переговоры. Калибровка позволяет считывать нюансы того, что происходит с человеком. Это умение позволяет увидеть как на человека, на самом деле, действуют те приемы, с помощью которых Вы пытаетесь оказать на человека (клиента, бизнес-партнера) влияние.

Здесь я пожалуй, закончу эту статью. Приводить примеры того, чему учат на стандартных тренингах НЛП в переговорах можно долго. Но есть два ключевых момента.

  • Момент первый: для человека бизнеса НЛП — это всего лишь техники. Для НЛП-тренера – это его жизнь, любовь и идеология. И эта идеология может Вам не подойти.
  • Второй момент: Техники НЛП, для того чтобы их применять в реальной жизни (и не с пациентами, а с бизнес-партнерами), требуют очень серьезных и длительных тренировок.

Если Вам обещают, что Вы сможете их использовать после 2-х, 3-х, 4-х дней тренинга, не верьте! На тренинге Вы просто познакомитесь с новым материалом.

Для того чтобы нормально освоить техники НЛП и применять их в переговорах, Вам нужны постоянные занятия: индивидуальные и групповые. И занятия эти должен вести не специалист по психотерапии, а тот, кто знает НЛП и имеет приличный опыт ведения бизнес-переговоров.

Справка

Компания «Новые технологии бизнес-обучения» предлагает удобный к аталог бизнес-тренингов, который содержит более 100 программ.

Каталог разделен на 22 направления, в том числе это тренинги по продажам, тренинги для руководителей, тренинги переговоров, тайм-менеджменту, управлению конфликтами, тренинги для call-центров, тренинги по сервису, тренинги по телефонным продажам, публичным выступлениям, работе с возражениями, деловой коммуникации, а также консалтинг и коучинг специалистов разных уровней от менеджеров среднего звена (групповой коучинг) до индивидуального коучинга руководителей компаний и владельцев бизнеса.

Подобный структурированный каталог, где представлены бизнес-тренинги на большинство актуальных тем, во многом является уникальным на рынке бизнес-обучения.

Новости

Возможно, лучшая книга по продажам B2B.

В издательстве «Манн, Иванов и Фербер» вышла книга Михаила Казанцева «Школа B2B продаж. От понимания ситуации клиента к сделке» — первое в России визуализированное пособие, где системно рассматриваются технологии продаж B2B. Книга быстро завоевала признание читателей и популярность. По итогам первой недели продаж книга стала бестселлером. В книге описаны 9 измерений ситуаций сделки и кардинальные различия между B2B и B2C продажами. Книга богато иллюстрирована и содержит 115 авторских рисунков .

Коучинг для руководителей и владельцев бизнеса от Михаила Казанцева

Коучинг Михаила Казанцева для владельцев бизнеса и руководителей «Процветание. Новый взгляд» — это и ндивидуальная программа системных изменений, которая основана на трех ключевых составляющих: личности, стратегиях взаимодействий, управлении ситуацией. Такой трехмерный подход опробован Михаилом Казанцевым в течение двадцатилетней практики коуча. В виде законченной системы он является авторским ноу-хау.

В отличие от большинства тренеров и коучей, которые обучают целеполаганию и технологиям успеха, Михаил Казанцев рассматривает процветание не как состояние, а как ситуацию.

«Процветание. Новый взгляд» — это новое понимание жизненного успеха и процветания, своих ключевых ресурсов и предназначения, гармонизация личных и профессиональных целей, формирование внутреннего стержня для преодоления сложных жизненных ситуаций и кризисов. Наконец, это просто возможность почувствовать себя более счастливым.

Программа коучинга адресована владельцам и руководителям компаний. Ряд модулей программы — молодым карьеристам.

Источник: www.b-mode.ru

NLP-инженер: чем он занимается и почему будет всегда востребован в сфере обработки текстовой информации

NLP-инженер (от англ. natural language processing) — специалист, который обладает компетенциями в сферах прикладной математики, лингвистики и разработки программного обеспечения.

Вместе с командой системы управления репутацией и анализа медиа «СКАН-Интерфакс» разобрались, что это за профессия, какими навыками нужно обладать для старта и что нужно изучить, чтобы претендовать на должность NLP-инженера.

NLP-инженер: чем он занимается и почему будет всегда востребован в сфере обработки текстовой информации

Команда системы «СКАН-Интерфакс»

Кто такой NLP-инженер и чем он занимается в компании

Как технический специалист NLP-инженер отвечает за расширение возможностей бизнеса при обработке информации на естественных языках. Он реализует наукоёмкие правила и алгоритмы и применяет инструменты машинного обучения (англ. ― machine learning, ML).

Кроме того, NLP-инженер решает задачи по анализу и извлечению информации из текстов, в том числе методами ML. Однако его задачи могут не ограничиваться только сферой машинного обучения, так как некоторые из них требуют углублённых знаний математики, лингвистики и теории алгоритмов.

Ну и конечно же, NLP-инженер должен быть неплохим программистом. Чтобы анализировать и извлекать данные из текстов, необходимо не только отвечать на множество инженерных вызовов, но и уметь правильно готовить такие данные.

В 2017 году в области искусственного интеллекта и машинного обучения произошла революция. Появилась нейросетевая архитектура «трансформер». Она позволила добиться невероятных результатов в решении задач автоматизированной обработки текстовых данных.

NLP-инженеры получили в свои руки инструменты, которые в короткие сроки значительно повысили качество анализа неструктурированной информации.

Взаимосвязь математики и лингвистики

В профессии NLP-инженера математика и лингвистика не могут существовать друг без друга. Эти две противоположные науки связаны через необходимость создания математической модели естественного языка.

Современные компьютеры способны понимать только числа и логические операции. Для обработки текстов требуется описать лингвистические закономерности и правила на понятном машине языке. Многие задачи невозможно решить, опираясь только на знания математики и программирования. Разработчик обязан владеть предметной областью, с которой работает — лингвистикой.

Если математик-лингвист не понимает русский язык, то он не сможет написать правило, которое будет действовать на обработку падежей в тексте.

Старт в профессии: где учиться и куда пойти работать

В российских университетах много программ бакалавриата и магистратуры в различных отраслях Data Science. В МГУ имени М.В. Ломоносова на механико-математическом и филологическом факультете есть:

  • «Фундаментальная и прикладная лингвистика»;
  • «Математика»;
  • «Прикладная математика и информатика»;
  • «Фундаментальная информатика и информационные технологии»;
  • «Математика и компьютерные науки»;

В ВШЭ — «Прикладной анализ данных и искусственный интеллект», «Компьютерные науки и анализ данных», «Компьютерные системы и сети».

В МГТУ имени Н.Э. Баумана — «Информатика, искусственный интеллект и системы управления», «Системы обработки информации и управления», «Фундаментальная и компьютерная лингвистика» и другие.

Чтобы определиться с направлением обучения, необходимо определиться с областью интересов:

  • Если цель ― самостоятельно изобрести инновационные технологии в ИИ, нужна профильная математика с углублённым изучением Data Science и Deep Learning.
  • Если стремиться к решению прикладных и бизнес-задач и использовать уже существующие решения, то предпочтение стоит отдать разработке программного обеспечения и ML-инфраструктуры.

Но и в первом, и во втором случае необходимо хорошо знать и чувствовать русский язык. Качество работы логических правил, алгоритмов и моделей машинного обучения невозможно оценить без базовых знаний в области лингвистики. Специалисту важно понимать природу данных, с которыми он работает.

Любой естественный язык, в том числе русский, непрерывно развивается: появляются новые слова и понятия, устойчивые словосочетания, меняется информационный фон, — и многие, ранее важные контексты становятся статистически незначимыми. Из-за этого необходимо постоянно адаптировать лингвистическую логику, алгоритмы и статистические модели к изменчивости языка.

Читайте также:  Как составить бизнес доставки

Помимо грамотности, важно ориентироваться в соответствующем бизнес-контексте и понимать, что и как оценивать. Само понятие качества решения задачи не всегда ограничивается только точностью и полнотой. Можно оценивать ещё ресурсоёмкость и скорость работы, а для этого уже нужны инженерные знания.

Важно понимать, что не все компании готовы брать к себе специалистов без практического опыта. Например, «СКАН-Интерфакс» — большой и логически нагруженный проект со сложной инженерной структурой и высоким порогом входа. Поэтому при найме разработчиков в компании ориентируются как на их теоретическую базу, так и на практический бэкграунд. В более выигрышном положении оказывается тот, кто ранее был связан с обработкой текстов.

При этом в команду с радостью берут студентов вузов в отдел лингвистической обработки — они работают над качеством разметки текстов. Там студенты учатся специальности и осваивают инструменты.

Личные качества и профессиональные навыки, которые нужны NLP-инженеру

Профильные навыки, без которых специалист не сможет выполнять поставленные задачи:

  • Знание профильной математической базы.
  • Базовое понимание русского языка (морфология, семантика, падежи).
  • Знание программирования на уровне middle и выше.
  • Знание Python, в особенности для NLP-инженера.
  • Умение находить самое простое решение — оно всегда лучшее.
  • Понимание алгоритмов машинного обучения: нейронные сети, алгоритмы кластеризации, логистическая регрессия.
  • Знание промышленных языков разработки: C++, C#, Java.

Личные качества позволяют эффективно выполнять рабочие задачи и продвигаться вверх по карьерной лестнице. Самые основные из них:

  • умение работать с людьми;
  • лидерские качества;
  • внимательность;
  • желание углублять знания в разных областях IT;
  • стрессоустойчивость: работа не из простых;
  • ответственный подход к работе.

Повышение компетенции — один из ключевых моментов в работе IT-специалистов. У NLP-специалистов это происходит в процессе работы.

Для достижения результатов необходимо осваивать новые инструменты и улучшать уже существующие алгоритмы и правила. Специалисты повышают квалификацию непрерывно. Для реализации новых функций и решения задач нужны знания в смежных областях. А это приводит к вертикальному и горизонтальному карьерному росту.

Уровень заработной платы NLP-инженера напрямую зависит от опыта работы и от специализации: чем уже профиль, тем выше востребованность сотрудника.

NLP-инженер: чем он занимается и почему будет всегда востребован в сфере обработки текстовой информации

Профессия

Python-разработчик с нуля

Узнать больше

  • Освоите один из самых универсальных языков программирования
  • Добавите в портфолио три полностью работоспособных проекта
  • Получите опыт работы в команде — выполните совместный проект с одногруппниками

Работа NLP-инженера на практике

NLP-инженеры могут поделить свою работу на две сферы:

  • плановые задачи по разработке и поддержке существующих функций системы;
  • факультативные исследовательские задачи: разработка стратегии улучшения бизнес-процессов, проверка аналитических гипотез, поиск новых подходов к решению разных задач.

В «СКАН-Интерфаксе» работа специалистов делится на два блока.

Первый блок — это поддержка логического ядра системы. «СКАН» исторически построен на системе логических правил, оперирующих моделями естественных языков. Правила и языковые модели описаны на высокоуровневом промышленном языке программирования и позволяют извлекать из текстовых документов те знания, которые компания предоставляет клиентам.

Есть задача определения прямой речи. Прямая речь в «СКАНе» — не только прямая, но и косвенная, то есть всё, что может считаться «голосом компании». Для определения прямой речи на основе анализа корпуса новостных текстов описано множество паттернов. Они содержат различные части речи и конструкции, которые могут быть семантически интерпретированы как речевые маркеры: сообщил, сказал, заявил, по сообщению, по информации, согласно исследованию.

Для определения границ прямой речи необходима точная работа синтаксического анализатора. Помимо непосредственно определения прямой речи и её границ требуется произвести ещё ряд специализированных действий над сущностями, которые являются авторами прямой речи. Например, снять с них тональность — если организация является автором исследования, в рамках которого делается негативный вывод, то на эту компанию не должен ставиться негатив, даже контекстный. Всё это требует разработки специальной логики и инструментов работы с лингвистическими моделями документов.

Второй блок — применение искусственного интеллекта для решения бизнес-задач. Инженеры отвечают за разработку новых подсистем, использующих как нейросетевые технологии Deep Learning, так и алгоритмы классического машинного обучения от сбора и анализа тестовых данных до проверки гипотез и поставки обученных моделей в промышленную эксплуатацию.

Для повышения точности связывания именованных сущностей из текста с организациями из базы данных «СПАРК» специалистам «СКАНа» необходимо было реализовать механизм классификации контекстов упоминания этих сущностей по видам экономической деятельности в соответствии с ОКВЭД.

Если в тексте упоминается некая компания ООО «Рога и Копыта» в следующем контексте: «За прошлый год ООО „Рога и Копыта“ закупило 200 единиц сельскохозяйственной техники, поэтому в этом году полностью готово к началу посевной кампании», — то система должна по этому предложению определить, что эта компания, скорее всего, соответствует коду 01 ОКВЭД, а именно «Растениеводство и животноводство, охота и предоставление соответствующих услуг в этих областях».

Это позволило бы системе в дальнейшем при решении задачи связывания сущностей — идентификации по «СПАРК» — отсеять варианты с неподходящим кодом экономической деятельности.

Что в «СКАНе» сделали для решения этой задачи:

Для каждого кода ОКВЭД верхнего уровня собрали новостные документы с упоминаниями компаний, у которых в уставных документах указан соответствующий вид экономической деятельности как основной.

Из этих документов собрали контексты упоминания организаций: 1–2 предложения до упоминания и 1–2 предложения — после упоминания.

На основе выделенных контекстов составили словари ключевых слов для каждого из видов экономической деятельности.

Взвесили их с помощью TF-IDF — статистической меры, которая используется для оценки важности слова для какого-либо документа относительно других документов.

Для каждого вида экономической деятельности обучили модель SVM-классификатора методом ONE-vs-ALL.

Откорректировали параметры классификаторов для достижения требуемой точности 95%.

Реализовали REST-сервис, использующий обученные модели для multilabel-классификации контекстов.

Захостили сервис в k8s и реализовали его вызов в пайплайне обработки документа.

SVM или метод опорных векторов — линейный алгоритм, который используется в задачах классификации и регрессии.

REST — архитектурный стиль взаимодействия компонентов распределённого приложения в сети.

K8S или Kubernetes — платформа с открытым исходным кодом, которая автоматизирует операции с контейнеризированными приложениями.

Для оценки качества решения задач NLP-инженеры используют множество показателей. Основные — точность и полнота. Вычисляют их на основе специально подготовленной выборки данных.

Допустим, специалисту нужно провести классификацию новостей и разделить их на технические — сводки финансовых рынков — и нетехнические. Как он будет действовать:

  • соберёт новости с упоминаниями акций, котировок, тикеров;
  • разметит эту выборку вручную: пометит документы, которые точно являются техническими, и те, что ими не являются;
  • разделит полученную выборку на две части: обучающую и тестовую в соотношении 70 на 30;
  • обучит модель на обучающей выборке, протестирует на тестовой;
  • посмотрит на показатели качества и проведёт кросс-валидацию;
  • проведёт экспертное тестирование на промышленных данных;
  • сделает выводы.

Почему за NLP-инженерами будущее сервисов информационного поиска

Бизнесу, связанному с обработкой текстовой информации, особенно нужны такие специалисты: требуется постоянно адаптироваться к изменчивости естественных языков и информационного фона. Поэтому инженерные усилия концентрируются на создании максимально универсальных технологических решений, а они зачастую представляют собой симбиоз различных технологий. Специалисты, которые ими владеют, будут всегда востребованы.

Читать также

NLP-инженер: чем он занимается и почему будет всегда востребован в сфере обработки текстовой информации

Кто такой компьютерный лингвист, чем занимается и как им стать

NLP-инженер: чем он занимается и почему будет всегда востребован в сфере обработки текстовой информации

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Мнение автора и редакции может не совпадать. Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

NLP-инженер: чем он занимается и почему будет всегда востребован в сфере обработки текстовой информации

Команда системы «СКАН-Интерфакс»

Источник: netology.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
Бизнес для женщин