Юрий Александрович Васильев

Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие


Скачать книгу

и медикаментов (Food and Drug Administration, FDA [5]). Под верификацией понимают проверку данных на достоверность, правильность и точность. На рисунке 1 изображены методы верификации данных по возрастанию их ценности.

      Рисунок 1 – Диаграмма методов верификации НД

      Наименьшей ценностью обладает верификация по заключению врача, т.е. вывод о наличии или отсутствии патологии делается на основании заключения врача, описывавшего исследование. Как правило, такой способ разметки используется на первых этапах отбора данных и может быть осуществлен с помощью алгоритмов автоматического анализа текстовых протоколов, например MedLabel12. Следующим по ценности методом верификации является экспертный пересмотр: слепой анализ исследований врачами-экспертами с достижением заданного уровня согласованности их решений (подробно описан в подпараграфе 3.3.2 «Разметка данных»). Следующие две группы методов являются наиболее достоверными, и их можно условно назвать «подтвержденный диагноз»: исследование той же модальности в динамике, исследование другой модальности, лабораторное исследование, которые в совокупности с остальными данными медицинской карты дают клинический диагноз. Стоит отметить, что для верификации каждой патологии существует свой метод «золотого стандарта», который позволяет подтвердить диагноз.

      На рисунке 2 представлена классификация видов разметки на примере рака молочной железы (РМЖ) с учетом ценности разметки.

      Рисунок 2 – Классификация видов разметки в медицинской диагностике по диагностической ценности

      В наиболее общем виде разметка данных может проводиться на основании:

      А. Информации об имеющейся целевой патологической находке, представленной на изображении в виде пиксельной маски (оконтуренной области изображения). Дополнительно может содержаться в метаданных (аннотации).

      B. Информации об имеющейся целевой патологической находке, представленной в виде координат. Может помещаться в метаданных (в аннотации, в сводном табличном сопроводительном файле) и/или присутствовать на изображении в виде отметки области расположения простой геометрической фигурой.

      С. Информации о наличии/отсутствии целевой патологической находки, содержащейся в метаданных (то есть в аннотации – сопроводительных файлах) и отсутствующей на изображении.

      Классификация A, B, C для уровня 3 (обнаружение находки) предполагает вовлечение врачей-экспертов с целью поиска (наличие/отсутствие – С), локализации (В) и сегментации (А)13.

      В случае локализации врачу необходимо обозначить координаты области интереса простой геометрической фигурой, в случае сегментации – обвести контур области интереса, т.е. создать пиксельную маску. Для уровня 2 (классификация находки) необходимо классифицировать находку, используя общепринятые шкалы (например, BI-RADS14, ASPECTS15).