Главная страница > Новости > «Наносемантика» предоставит свою систему NLab Marker для обучения контент-аналитике студентов ТГУ

«Наносемантика» предоставит свою систему NLab Marker для обучения контент-аналитике студентов ТГУ

31 мая 2021

Глобальная цель проекта — обучение разметке данных студентов не только ТГУ, но и Консорциума, в который входит 31 ВУЗ. Для работы с данными учащиеся будут использовать специальную программу «Наносемантики» — NLab Marker. Она позволяет размечивать данные для машинного обучения, в частности аудиоданные, тексты, изображения и видео.

На первом этапе «Наносемантика» предоставит студентам ТГУ академическую лицензию на пользование программой, что позволит изучать разметку данных в научных целях и для реализации некоммерческих научных проектов.

Среди возможностей программы NLab Marker:

  • автоматическая проверка — ханипоты, таймер и валидация данных обеспечивают высокое качество разметки за счет постоянного повышения квалификации разметчиков;
  • модуль для диктора — позволяет дикторам записывать аудио, из которых в дальнейшем формируется датасет для синтеза речи;
  • разметка категорий и сущностей — позволяет выделить в тексте определенный набор символов и присвоить им какую либо сущность (например, приветствие, ФИО, жалоба), или присвоить категорию для всего текста для последующего анализа.

Работа с текстовыми данными в NLab Marker включает в себя поиск и исключение персональных данных из датасета, исправление отекстовки аудио, редактирование длины аудиофайла под отекстовку и оценку качества аудиозаписи.

Старт программы и сотрудничества с ТГУ был анонсирован 13-ого в рамках круглого стола «Большие данные — большие вызовы». Генеральный директор «Наносемантики» Станислав Ашманов рассказал о новой профессии и о перспективах, которые открываются перед такими специалистами уже сейчас.

Цитата Станислава Ашманова:

«Топливо для машинного обучения — это обучающие данные, на основе которых ИИ выявляет полезные закономерности и подбирает "математическую формулу" для их анализа. Основная проблема любого разработчика искусственного интеллекта — где добыть такой датасет – массив обучающих данных, который будет и качественным, и большим, и релевантным поставленной задаче. Любой достаточно большой датасет требует огромного количества ручного труда: иногда это труд людей без специализации, а иногда — труд врачей, юристов или лингвистов. В любом случае участник этого процесса — контент-аналитик, разметчик, асессор — должен понимать критерии качества, способы организации работы над разметкой, а также уметь работать в различных инструментах для сбора, разметки и аналитики данных. В рамках совместной программы с Университетом Открытых данных и ТГУ мы хотим обеспечить рынок ИИ достаточным количеством специалистов по датасетам, без которых ни одна коммерческая организация, университет или ФОИВ не смогут разработать алгоритмы продвинутой автоматизации, которую мы сейчас называем искусственным интеллектом».

В будущем «Наносемантика» также планирует адаптацию программы NLab Marker для людей с ограниченными возможностями, что также позволит им освоить новую востребованную профессию, которой можно заниматься из любой точки мира и не выходя из дома.