Главная страница > Новости > «Наносемантика» разработала платформу сбора данных для обучения ИИ

«Наносемантика» разработала платформу сбора данных для обучения ИИ

21 сентября 2020

Компания «Наносемантика», разработчик технологий искусственного интеллекта, участник Отраслевого Союза «Нейронет» и резидент ИТ-кластера Фонда Сколково запустила сервис NLab Marker, с помощью которого данные преобразуются в информацию, понятную нейронным сетям.

Большие данные нуждаются в специальной ручной обработке – разметке, подготовке обучающих примеров специалистами для алгоритмов машинного обучения. Это делается в платформе NLab Marker: выделяются объекты на видео, расшифровываются аудиозаписи, размечаются врачами медицинские снимки. Для специалистов по подготовке данных, разметчиков, сервис сокращает время работы и количество совершаемых ошибок при формировании датасета, набора обучающих данных.

Ошибки в датасете критически влияют на качество обучения нейронной сети. Например, обученная нейросеть для видеоаналитики будет пропускать брак на производственной линии или будет неверно переносить персональные данные из заполненной анкеты в МФЦ. В NLab Marker внедрили систему автоматической проверки работы разметчиков, которая позволяет проверять их работу на примерах-ловушках (т. н. ханипотах), контролировать время и объём выполнения заданий.

В NLab Marker, кроме того, встроены различные модули для работы с текстом и аудио. Например, модуль для дикторов позволяет им записывать аудио для синтеза речи, а модуль категоризации дает возможность присвоить категорию определенному тексту.

Представители компании заявляют о готовности платформы NLab Marker к внедрению и эксплуатации в задачах с большими объемами данных. Платформа может быть полезна компаниям с крупными департаментами Data Science и цифровой трансформации, которые для своих ИИ-проектов нуждаются в разметке большого массива данных.  Использование сервиса позволяет компаниям экономить временные и финансовые ресурсы. Объем выполненных разметчиками заданий напрямую зависит от скорости их работы. А на скорость, в первую очередь, влияют наличие системы контроля и специальной среды для работы специалистов. 

«В NLab Marker разработана удобная система для организации и управления командой разметки: куратор распределяет задачи и инструкции по руководителям проектов или исполнителям, устанавливая индивидуальные сроки выполнения задач под конкретный проект, экономя тем самым временные и денежные ресурсы компании. 

Сервис позволяет работать людям из отдалённых регионов, безработным, людям с ограниченными возможностями. Не важно, в какой точке мира находится разметчик, главное, чтобы у него был компьютер и доступ в Интернет. Это сейчас особенно актуально, ведь в тренде удаленная работа с гибким графиком без привязки к рабочему месту» – пояснил руководитель направления «Робототехника и искусственный интеллект» Фонда «Сколково» Павел Кривозубов.

Разработчики NLab Marker постоянно работают над снижением себестоимости получаемых данных, внедряют новые инструменты проверки качества работы, системы автоматической разметки на глубоком обучении (т. н. технологии Active Learning) и повышают качество размеченных данных.

Компания «Наносемантика» также позаботилась о защите персональных данных своих клиентов. В NLab Marker есть функционал, позволяющий вычистить из готового датасета персональные данные, чтобы они не попали в открытый доступ.

«Машинное обучение невозможно без обучающих данных – примеров, по которым алгоритмы учатся. Мы, как разработчики алгоритмов ИИ, знаем, насколько важны качественно размеченные данные. Наша команда разработала платформу NLab Marker для себя, но теперь мы готовы предложить этот продукт рынку, так как видим спрос на промышленные платформы разметки данных, которые позволяют гибко реализовывать любые задачи по разметке и самостоятельно администрировать этот процесс компаниям с сильным отделом Data Science», – отметил генеральный директор компании «Наносемантика» Станислав Ашманов.

Обработка данных, по словам представителей компании, занимает от 3-х месяцев, в зависимости от поставленного ТЗ, а количество разметчиков, которые могут находится на платформе одновременно, может достигать нескольких сотен. Платформе NLab Marker уже удалось поработать с такими крупными заказчиками, как Сбербанк, ВТБ и Газпром.