Современные камеры машинного зрения
Способы получения 3D изображений в двумерном формате на основе нескольких базовых технологий и применении камер машинного зрения известны уже достаточно давно и традиционно использовались в научной и военной сферах.
Современное стремительное развитие и рост аппаратных возможностей в области цифровой обработки значительно ускорили внедрение таких систем в сферу автоматизации процессов контроля и систем безопасности, в том числе и производственной. Системы, основанные на машинном зрении, уже сейчас широко применяются в области аналитики, автоматизации и контроля, беспилотного движения и даже в игровой индустрии. Для любого человека понятна и привычна двумерная модель отображения и передачи изображения – именно так мы видим все, что нас окружает. Но, как уже отмечалось, в ряде технологических процессов и анализа состояния объекта двумерного отображения критически недостаточно. Именно этот «недостаток» и восполняют системы машинного зрения, элементом которых и являются камеры глубины.
Основа таких систем заключается в определении расстояния до объектов, идентификация, распознавание положения и объема. Иными словами, вычисление глубины сцены и объекта, при этом двумерное изображение трансформируется в трехмерное. Можно сказать, что двумерное изображение дополняется параметром глубины. При этом информация об объекте представляется не просто в единицах яркости, а параметрами пиксель/дальность. Это камеры, которые снимают видео, в каждом пикселе которого хранится не цвет, а расстояние до объекта в точке съемки. Такое представление весьма отличается от привычного нам «зрения» бионических систем.
Варианты применения на основе технологий машинного зрения могут быть почти повсеместны: это логистика, контроль качества, навигация, робототехника, точное распознавание лиц (в том числе и скрываемых), системы защиты и безопасности, системы, предотвращающие производственный травматизм, системы видеонаблюдения. Такая технология находит решение многих проблем, с которыми сегодня сталкиваются традиционные 2D-устройства.
Именно сочетание данных о глубине с высоким разрешением наряду с мощными алгоритмами классификации открывает широкие перспективы и возможности ее использования в перечисленных областях.
Исходя из прикладного применения, весьма условно, можно выделить несколько основных технологий в развитии таких устройств:
- Time of Flight камеры
Камеры, основанные на измерении задержки отраженного света.
- Depth from Stereo камеры
Камеры построения глубины из стерео сенсора.
- Lidar технологии
Представляет собой активный дальномер оптического диапазона, работающий на принципе на измерения задержки отраженного света.
- Structured Light камеры
Камеры структурного света, когда есть проектор (часто инфракрасный) и камера, снимающая структурный свет проектора.
- Light Field Camera
Камеры светового поля или пленоптические камеры.
Ознакомление с разделом: Камеры машинного зрения
Технология 3D Time-of-Flight (TOF) основана на измерении времени задержки света. Суть метода в том, что при освещении сцены модулированным источником света можно обнаружить и измерить фазовый сдвиг между прямым освещением и отражённым светом.
Зная скорость света, длину модулируемой волны и время накопления заряда на матрице сенсора, можно с достаточной точностью вычислить разность хода лучей, а следовательно, и расстояние до объекта, от которого произошло отражение. Из известных величин легко определить, что световая волна проходит 1 мм примерно за 3,3 пикосекунды и столько же в обратном направлении до сенсора. Отсюда следующее следствие – для правильной синхронизации в ToF камерах используются чипы с тактовой частотой не меньше 1 Ггц, что по современным меркам уже давно не является проблемой.
Чаще всего освещение осуществляется светодиодом или твердотельным лазером, работающим в ближнем инфракрасном диапазоне (~850 nm), невидимом для человеческих глаз. В реальной практике более распространенной является прямоугольная модуляция , так как ее легче реализовать с помощью современных цифровых преобразователей.
Датчик изображения, предназначенный для работы в том же спектре, принимает свет и преобразует фотонную энергию в электрический сигнал.
Следует отметить, что, увеличивая количество сенсоров с разным временем накопления заряда, можно существенно повысить точность измерения расстояния до объекта.
При этом информация о расстоянии (глубине) слабо подвержена помехам и практически не зависит от общей освещенности сцены.
Эта технология нашла широчайшее применение в промышленных роботах, системах контроля и автоматизации, для которых ToF камеры — идеальное решение. ToF технологии нашли также применимы в системах проектирования и построения 3D моделей, то есть везде, где есть необходимость быстрого и точного трехмерного описания сложной поверхности - от стоматологии до сложных конструкторских разработок.
Нашлось применение ToF камерам и в системах видеонаблюдения – независимость от внешнего освещения делает такие камеры просто незаменимыми при охране особо важных объектов. Обмануть такие камеры в темноте или прямой засветкой объектива просто невозможно, в том числе и в аналитических системах распознавания лиц или заданных объектов.
Например, оригинальное решение по применению камеры ToF нашла одна тайваньская компания, использовав время - пролетную (ToF) камеру в системах подсчета пассажиропотока. Особенностью такой системы подсчета была легкая масштабируемость, то есть не было ограничения по количеству дверей в транспортном средстве или месте установки. При этом достигалась очень высокая точность распознавания и подсчета.
Стереоскопическое зрение — это более простая технология по отношению к ToF. Как видно из названия метода, он основан на применении двух разнесенных сенсоров, и реализация такого классического решения известна достаточно давно.
Но в современных стереокамерах есть существенные отличия. Понятно, что для построения и оценки глубины требуется как минимум две видеокамеры, разделенные определенным расстоянием. Подобно человеческому глазу, любая точка в пространстве будет находиться в разных положениях в каждой камере. И если в системах «доцифрового» периода стереоизображение формировалось исключительно оптическим преобразованием (стереоочки), то сейчас система уже вычисляет положение этой точки в пространстве математически, используя весьма сложные алгоритмы и вычисления для составления истинной карты глубины.
Основным преимуществом стереоскопических систем является то, что для них, как правило, не требуется активного освещения, то есть подсветки собственным источником света, в большинстве случаев достаточно внешнего освещения. Более того, солнечный свет при этом даже очень полезен, так как является естественной подсветкой во всем видимом спектре. Кроме того, подобные системы дешевле, потому что для сбора данных требуются только две камеры без сложного аппаратного решения, хотя для нахождения соответствующей точки и разработки трехмерного изображения может понадобиться сложный прикладной процессор. Еще один важный положительный момент заключается в том, что эти системы могут выводить для фиксации (например, для хранения данных) еще и обычные двумерные изображения с высоким разрешением.
Основным недостатком стереокамер является требование контраста в наблюдаемой сцене. То есть, если нет явного контраста между изображениями с двух камер, расстояние не может быть рассчитано достаточно точно. Например, в средах с монохромным покрытием, где нет контраста между тем, что видят две камеры, и в средах с недостаточным освещением при отсутствии собственной подсветки. Очевидно, что такой метод измерения глубины эффективен только на небольших расстояниях, так как увеличение расстояния до объекта увеличивает погрешность карты. Для решения этой проблемы потребуется разносить сами камеры, что не всегда возможно. Именно поэтому производители сборных стерео модулей обязательно указывают такой важный параметр, как параметр допустимой глубины съемки. Как уже отмечалось, глубина из стерео - самый дешевый метод, так как сами камеры недорогие. Сложность в том, что дальнейшая обработка намного более ресурсоемкая, чем для других способов.
Lidar технологии
Light Detection and Ranging - «обнаружение и определение дальности с помощью света» -именно такая транслитерация определяет еще один метод построения глубины или 3D карты. Изначально это были уже давно известные активные лазерные дальномеры – стационарные или вращающиеся в горизонтальной плоскости. Принцип работы лидара аналогичен ToF устройствам и заключается в замере запаздывания отраженного света с вычислением расстояния до объекта. В итоге получалось круговое изображение с хорошо просматриваемыми объектами в плоскости сканирования.
До появления твердотельных лидаров (Solid-state lidar) развитие этого направления шло медленно, в первую очередь из-за высокой стоимости. Новая технология лидаров не имеет подвижных частей, которые очень уязвимы при установке на транспортное средство. Как следствие новое поколение стало в разы надежней и при этом намного дешевле. Более того, лидары получили объем! Так как изображение, получаемое с SSL теперь прямоугольное, как у обычной камеры и более удобное для анализа. Вот так выглядит изображение глубины снятое современным лидаром.
Стоит отметить важную особенность в работе лидаров - сканирование матрицы работает с бегущим затвором, что вносит ощутимые искажения при съемке быстродвижущихся объектов. Поэтому все лидары, помимо вычислительной процедуры по созданию карты глубины, используют и мощный функционал по коррекции получаемого изображения. Технологии SSL постоянно совершенствуются, и одно понятно точно - именно появление твердотельных лидаров придало мощный импульс в развитии беспилотной техники, как наземной, так и воздушной. Область внедрения поистине безгранична, и нас еще ждет впереди настоящий бум беспилотников, роботов и терминалов, «видящих» мир с помощью миниатюрных лидаров. И сейчас совсем не фантастично увидеть, например, сельскохозяйственный уборочный комбайн, перемещающийся по полю без участия водителя или оператора и при этом, выполняющий свои основные функции. А беспилотные пассажирские автобусы и поезда уже сейчас курсируют в крупных мегаполисах мира.
Structured Light камеры
Это один из самых простых, распространенных и недорогих способов измерения глубины.
Метод структурированного света работает по принципу проецирования точек или линий на объект. Проецируемая сетка синхронизирована по эталонному образцу и с известным чередованием. При попадании на трехмерный объект этот эталонный образец искажается, а 2D-камера фиксирует подобное искажение. Потом искажение сравнивается с эталонным шаблоном и на основе уровня искажения в каждой точке, вычисляется карта глубины.
Конечно же, и у этого метода есть свои недостатки, основными из которых является появление слепых зон при разнесенных камеры и проектора и засветы от посторонних источников. Вследствие этого появляются «смазанные» участки, возникающие из-за теневого эффекта или ложные артефакты. Поэтому этот метод построения карты глубины максимально хорош на небольших расстояниях до объекта и при стабильном фоновом свете.
Именно в этих устройствах метод структурированного света раскрыл весь свой потенциал, ведь технология Face ID — это типичная камера глубины с типичным инфракрасным генератором точек и инфракрасной камерой. При этом совершенно понятно почему использована технология 3D в идентификации лиц. Во-первых, теперь нельзя обмануть детектор, показав фото лица (или видео с планшета). Во-вторых, лицо сильно меняется при изменении освещения, а его форма — нет, что позволяет вместе с данными с RGB камеры точнее идентифицировать человека.
Еще одно массовое применение камер глубины — распознавание жестов. Уже сейчас появились модели телевизоров, приставок и роботов-пылесосов, которые в состоянии воспринимать не только голосовые команды, как умные колонки, но и жестовые указания.
И наконец, самый сложный и не широко известный метод построения глубины - камеры светового поля или пленоптические камеры. Ключевое понятие для пленоптической съемки — это световое поле. При этом в каждой точке фиксируется не цвет пикселя, а двумерная матрица пикселей, превращая двумерный кадр в четырехмерный.
На практике, съемку четырехмерного кадра светового поля обеспечивает массив микролинз, расположенный перед сенсором камеры.
В итоге, получаем кадр в котором можно менять дистанцию фокусировки уже после того, как сделан сам кадр! Причем вся информация о массиве данных, характеризующих этот кадр с разной фокусировкой и даже изменяемой диафрагме, содержится в самом кадре. Первой в мире пленоптической кинокамерой стала Lytro Cinema, снимавшая видео в 755 Мегапикселей (в RAW).
Такие фантастические возможности востребованы не только в киноиндустрии и студийном телевидении, но также актуальны в и смартфонах, микроскопии (можно делать вычисляемые стерео-микроснимки с большой глубиной резкости).
Со стремительным развитием аппаратной производительности становится возможным использование нейросетей для вычисления больших объемов графических данных. Реализация не заставила себя долго ждать - компания Google уже несколько лет назад выпустила серию смартфонов с пленоптическими сенсорами.
Вот снимок, сделанный таким смартфоном. Хорошо видна изменяемая глубина резкости на правом снимке – заслуга пленоптической камеры.
Пленоптика актуальна и для промышленных камер, особенно если нужно делать фото полупрозрачных многоуровневых объектов. Область применения пленоптических систем может быть очень широкой, так как при этом любой кадр может быть повернут, сдвинут по вертикали или увеличен один относительно другого и отличаться по резкости.
Таким образом, подводя итоги, можно привести сравнительные результаты по особенностям различных методов и, как следствие - сфер их применения.
По разрешению - лидирует глубина из стерео, но очень сильно зависит от сцены (максимальный результат достижим при достаточной «рельефности» объекта).
По точности - лидары вне конкуренции. У пленоптики точность наихудшая.
По сложности обработки - «непосредственно» получают глубину только ToF и лидары, получение глубины у стерео и пленоптики требует большого аппаратного ресурса для вычислений.
По FPS - лидируют ToF камеры и стереокамеры, способные выдавать до 300 fps. Лидары сильно отстают.
По результатам в условиях низкой освещенности - проигрывают стерео и пленоптика.
При работе на улице - лидары лучшие. Плохо работают ToF и камеры структурированного света.
В заключение можно сказать, что стремительное развитие камер глубины и технологий, связанных с ними, обусловлено высокой потребностью тех возможностей, которые они предоставляют. И, как указывалось выше сферы их применения достаточно широки.