Icon project 8912809d77d657b57b9e74ab50903dbdc2bb8795297cd4da9d47b022b8366facПроект АОИ-2501

Генерация синтетических данных для обучения нейронных сетей

Направление

Информационные технологии

Вид проекта

практико-ориентированный

Цель проекта

Создание систем генерации синтетических (искусственных) данных для
обучения нейронных сетей

Основные задачи проекта на этапах реализации

1) Анализ предметной области
2) Выбор инструментов реализации
3) Изучение инструментов реализации
4) Разработка системы
5) Тестирование системы

Заинтересованные структуры

Исследователи и инженеры данных, компании в области ИИ

Потребные ассигнования

Не предусмотрены

Источники средств

Не предусмотрены

Актуальность тематики проекта

Системы генерации синтетических данных предназначены для создания искусственно сгенерированных наборов данных, которые имитируют реальные сценарии, но могут быть настроены для улучшения качества обучения нейронных сетей. Такие системы позволяют генерировать данные в условиях, когда реальный сбор данных затруднён, дорог, или этически неприемлем. Они широко применяются в задачах компьютерного зрения, обработки естественного языка, анализа временных рядов и других областях. Для создания системы в зависимости от требований предполагается использование симуляторов физической среды (например, Unity, Unreal Engine) для создания данных с высокой степенью реализма и генеративно-состязательные сети (GAN) для создания изображений, текстов или других сложных структур. Основной упор будет направлен на создание фото/видео данных, с расширением в будущем.

Научная новизна проекта

Не предусмотрена

Практическая значимость проекта

Синтетические данные помогают устранить проблему недостаточного объёма обучающих данных. Это особенно полезно для редких или сложных случаев, которые трудно собрать в реальной жизни. Создание синтетических данных обходится дешевле, чем сбор реальных данных, особенно в условиях, требующих высокой точности. Генерация данных с точно контролируемыми характеристиками помогает обучать модели на разнообразных, сбалансированных наборах данных. Синтетические данные исключают использование реальных персональных данных, что снижает риски нарушения приватности.

Ожидаемые результаты

Создание системы генерации синтетических данных для обучения нейронных сетей содержащих модули генерации, поддерживающие различные типы данных (изображения, текст, временные ряды и т. д.).

Прогноз возможных сроков реализации проекта

24 месяца

Целевая аудитория (потребители)

Исследователи и инженеры данных, компании в области ИИ