Поволжский Образовательный Портал

Почему важно знать русский язык, чтобы овладеть профессией в сфере машинного обучения

Опубликовано 05 февраля 2022

В настоящее время огромными темпами набирает популярность сфера машинного обучения и искусственного интеллекта. Одной из наиболее перспективных областей в блоке «глубокого машинного обучения» (Deep Learning) является обработка естественного языка (Natural Language Processing). И если в англоязычном сегменте уже есть определенные успехи, то в части специалистов по русскому языку ощущается острая нехватка кадров, обладающих соответствующей квалификацией. В данном случае недостаточно только знаний в ИТ, например, программирования; человек, занимающийся "языковыми моделями" ИИ должен хорошо разбираться во всех правилах пунктуации и орфографии.

Сейчас специалистов в сфере Data Science начинают "выращивать" уже со школьной скамьи, поэтому родителям, желающим, чтобы их ребенок начал первые шаги к освоению востребованной профессии в сфере информационных технологий, рекомендуется направить школьника на соответствующие курсы изучения русского языка как можно раньше, если наблюдаются определенные пробелы в знаниях или необходимо закрепить определенные темы, вызывающие затруднения.

Что представляет собой Natural Language Processing в контексте машинного обучения

NLP Natural Language Processing этапы токенизация лемматизация стемминг

Чтобы разобраться для чего требуется русский язык в машинном обучении, необходимо прежде всего понимать какие задачи решает данная сфера:

  • Во первых, это задача перевода текста. Без познаний в одном языке невозможно сделать точный перевод фразы на другой язык, тем более обучить этому искусственный интеллект.
  • Во вторых, это суммаризация текста и перефразирование - выделение смысловых фраз и краткий пересказ основной сути написанного.
  • В третьих, это задачи автоматического восстановления текста, например, при некачественном сканировании и распознавании - исправление орфографических ошибок и восстановление знаков пунктуации.
  • В четвертых, это написание диалоговых помощников (ботов), способных корректно распознать вопрос-обращение и дать соответствующий ответ.

И так далее, задач на данный момент в области обработки текста очень много.

Какие аспекты русского языка используются в области Natural Language Processing

Прежде всего обработка текста для решения вышеуказанных задач предполагает умение выделить блоки ключевых слов как в одном предложении или абзаце, так и во всем тексте целиком. Для таких целей существуют специальные процедуры - токенизация, стемминг и лемматизация. Это требует отличных знаний орфографии, умения корректно отделять корень слова, понимание, что относится к союзам, предлогам, частицам и т.д. Потому что, если токенизация (разделение текста на отдельные слова) еще достаточно простая процедура, то при стемминге (выделении корня) и лемматизации (приведении слова к нормальной форме) уже без хорошего знания правил русского языка не обойтись.

Другие матералы рубрики: