Юрий Александрович Васильев

Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие


Скачать книгу

т.е. каждое исследование должно быть просмотрено двумя специалистами.

      Однако многочисленные исследования9 показывают, что одно чтение можно доверить ПО на основе ТИИ, при этом качество скрининга не ухудшается10. Другой пример успешного применения ПО на основе ТИИ – пандемия COVID-19: в условиях острой нехватки медицинского персонала применение ТИИ позволило уменьшить время обработки заключения КТ11, а также осуществить сортировку исследований, благодаря чему исследования пациентов в более тяжелом состоянии обрабатывались в первую очередь [3].

      Однако для успешного применения ТИИ необходимо создание релевантных, репрезентативных, корректно размеченных наборов данных (НД).

      НД используются не только для разработки и обучения ПО на основе ТИИ, но и их валидации, т.е. проверки качества работы ПО. Благодаря Национальной стратегии развития искусственного интеллекта в Российской Федерации стало возможным активное создание и внедрение в повседневную практику таких НД, а также инструментов их хранения, администрирования и использования.

      На первый взгляд может показаться, что создание НД – несложный процесс: ведь ежедневно генерируются терабайты данных медицинской информации, а применение МИС позволяет их хранить, передавать и использовать (например, данные лучевой диагностики медицинских организаций ДЗМ хранятся в Едином радиологическом информационном сервисе – ЕРИС ЕМИАС). Тем не менее процесс создания НД (не стоит забывать о том, что они должны быть релевантными, репрезентативными и корректно размеченными) – очень сложный, имеет множество важных аспектов и вовлекает в себя большое количество специалистов, как медицинских (врачи, лаборанты), так и технических (инженеры, разработчики, аналитики и т.д.), а также смежных направлений (биофизики, кибернетики, биоинформатики).

      Кроме того, недостаточно создать НД – необходимо уделить внимание инфраструктуре и инструментам хранения, использования и управления, таким, например, как библиотеки и реестры. Их основными задачами являются аннотация, интеграция и представление НД для контроля качества, удобного и повсеместного использования, в том числе для ПО на основе ТИИ.

      Методологии создания наборов данных для сферы здравоохранения продолжают формироваться и в настоящее время, прежде всего – на основе масштабных научных исследований. Так, в основу настоящего учебного пособия положены результаты «Эксперимента по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы» (mosmed.ai) – крупнейшего в мире проспективного многоцентрового клинического исследования технологий искусственного интеллекта [3].

      Глава 1. НАБОРЫ ДАННЫХ И ПРИНЦИПЫ ИХ КЛАССИФИКАЦИИ

      1.1. Основные понятия

      Медицинские данные подразделяются