Коллектив авторов

Искусственный интеллект в здравоохранении


Скачать книгу

это может соответствовать распределению 50/50 для случаев «патология/норма».

      Важным этапом подготовки данных является деидентификация (обезличивание). Должны быть удалены любые персональные данные. В случае необходимости возможно их изменение, например замена даты рождения на возраст.

      Подготовленные наборы данных могут быть структурированы посредством выделения признаков в соответствии с поставленной задачей. В процессе структурирования снижают размерность набора данных, оставляя достаточный список атрибутов для точного и полного описания элементов набора данных, что будет способствовать последующему обобщению шагов и проведению качественной разметки (аннотации) данных.

      Фильтрация набора данных позволяет исключить данные, не соответствующие заданным параметрам (например, смазанные изображения), повысив их качество.

      Существенную роль в подготовке данных играет разметка. Выделяется три вида разметки: ретроспективная, проспективная разметка, верификация [Национальный стандарт РФ ГОСТ Р 59921.5…].

      Ретроспективная разметка представляет собой сбор элементов согласно указанным метаданным, перечень которых выбирают в соответствии с поставленной целью. Такую разметку проводят путем выгрузки данных из информационной системы. Ретроспективная разметка не предполагает выполнение манипуляций или какой-либо обработки элементов. Для каждого элемента набора данных устанавливают соответствие с информацией (диагноз, результаты лабораторного исследования и др.). К примеру, ретроспективная разметка пациентов с подтвержденной новой коронавирусной инфекцией предполагает следующий перечень метаданных: идентификационный номер, дата рождения, дата выполнения рентгенологического исследования, результаты теста на полимеразную цепную реакцию.

      Проспективная разметка представляет собой сбор элементов в соответствии с поставленной целью, а также проведение дополнительных манипуляций с элементами (постановка меток начала и окончания события, меток обнаружения признаков, обозначений патологий и т. п.). Для проведения такой разметки помимо технических специалистов привлекаются лица, обладающие специальными знаниями, например медицинскими. Разметка проводится путем ручного аннотирования содержания данных или их частей, которое может быть выполнено в графической или текстовой форме либо при их комбинации.

      Верификация данных может обеспечиваться:

      – внесением дополнительных сведений в набор данных, подготовленный при проспективной разметке (например, дополнение результатами повторных исследований);

      – слепым анализом набора данных экспертами с достижением заданного уровня согласованности их решений.

      Основные критерии отнесения к верифицированному набору данных:

      – данные получены из реальной практики (не допускается получение синтезированных данных, например ЭКГ от генератора физиологических сигналов);

      – данные