Р. С. Маков

Искусственный интеллект. Начало новой технологической революции: вызовы и возможности


Скачать книгу

Хотя первые попытки анализа изображений появились еще в 1960-х, долгое время успехи в этой области были довольно скромными. Программы могли с горем пополам находить границы объектов или распознавать простейшие символы, но для более-менее комплексного "понимания" картинки их возможностей категорически не хватало.

      Ситуация кардинально изменилась в начале 2010-х с приходом глубоких сверточных нейросетей. Эти многослойные математические модели, вдохновленные структурой зрительной коры, оказались невероятно эффективны в выделении иерархий визуальных признаков – от простых линий и контуров до сложных текстур, форм и семантических концептов. Обученные на гигантских базах размеченных изображений, современные нейросети способны классифицировать объекты на фото и видео с точностью, сравнимой с человеческой или даже превосходящей ее.

      Более того, передовые модели компьютерного зрения уже выходят за рамки простой классификации и демонстрируют поистине удивительные навыки визуального "понимания". Они могут находить и отслеживать множество объектов в динамической сцене, сегментировать изображение по классам пикселей, оценивать трехмерную структуру и положение предметов в пространстве, определять аномалии и нехарактерное поведение. По сути, у машин появляется своего рода "модель мира", позволяющая не просто воспринимать, но и интерпретировать увиденное.

      Естественно, столь впечатляющие способности тут же нашли применение в целом ряде индустрий:

      В робототехнике компьютерное зрение стало "глазами" автономных агентов – беспилотных автомобилей, дронов, сервисных роботов. Оно позволяет им ориентироваться в пространстве, различать объекты, оценивать препятствия и безопасные траектории движения. Без качественного "машинного зрения" немыслимы такие инновации как роботы-доставщики, робомобили, автоматизация складов и производств.

      В медицине алгоритмы анализа изображений помогают ставить диагнозы, обнаруживать отклонения и патологии на снимках МРТ, рентгена, УЗИ, КТ. Нейросети научились распознавать злокачественные опухоли, определять стадии болезней сетчатки, прогнозировать осложнения на основе анализа медицинских фото и видео. Компьютерное зрение уже показывает точность, не уступающую опытным специалистам и даже превосходящую их в некоторых узких задачах.

      В ритейле и рекламе визуальная аналитика используется, чтобы изучать поведение покупателей в магазинах, оценивать их реакцию на товары и промо-материалы. Интеллектуальные камеры способны отслеживать перемещение людей, фиксировать, где они останавливаются и на что обращают внимание. На основе этих инсайтов ритейлеры могут оптимизировать выкладку, персонализировать предложения, повысить эффективность продаж.

      В охранных системах нейросети видеонаблюдения умеют распознавать лица, идентифицировать конкретных людей, определять опасные ситуации, такие как оставленные предметы или нетипичное поведение. Это позволяет