Вы здесь

Знаете ли вы о программе «Безопасный Город»? Многие что – либо слышали об этом проекте, но вот о реальных результатах программы знают не все. Какова эффективность проекта, оправдал ли он вложенные в него средства? Отнюдь. Многочисленные провалы внедрения видеоаналитики в рамках проекта говорят о большом числе скрытых проблем и неготовности проекта в текущем виде к применению современных технологий видеоанализа. В этом случае, только эволюционное развитие проекта «Безопасный Город» от простого к сложному может привести к желаемого результату (смотри эффективности выполнения поставленных перед проектом задач).

Многим уже стало понятно, что без использования современных технологий видеоаналитики при создании и эксплуатации систем такого масштаба не обойтись. А что же должно обязательно входить в понятие видеоаналитики для нужд «Безопасного Города»?

Давайте рассмотрим 3 группы наиболее востребованных в данном случае алгоритмов видеоанализа:

  • Мониторинг работоспобности камер (сервисные детекторы).
  • Идексирующие детекторы для быстрого поиска по видеоархиву.
  • Видеоаналитика для оперативных тревог.

Сервисные детекторы

Сервисные детекторы автоматически регистрируют случаи выхода из строя камер или осветительного оборудования для постоянного поддержания системы видеонаблюдения в рабочем состоянии. Детекторы определяют такие неисправности как пропадание видеосигнала, поломку системы автоподстройки диафрагмы, естественное загрязнение объектива. Сервисные детекторы автоматически распознают ситуации саботажа со стороны человека, например, заграждение камеры или закрытие объектива, расфокусировка, изменение ориентации камеры и ослепление сенсора. Эти функции иногда ещё называют контролем сцены. Некоторые формы саботажа, например установка зеркала перед объективом телекамеры, оператору заметить практически невозможно, особенно если его внимание рассредоточено по нескольким экранам ситуационного центра.

Конечные пользователи, которые услышали о потенциальных возможностях компьютерных программ в области автоматического распознавания поведения человека, часто недооценивают важность работы сервисных детекторов. На практике, сервисные детекторы являются самой полезной видеоаналитикой, так как не требуют специальной настройки и экономят значительные ресурсы на обслуживании системы.

Реализовать качественные сервисные детекторы далеко не просто из-за существенного разнообразия оборудования и условий внешней среды. Детекторы необходимо длительно тестировать, как и любую другую видеоаналитику, на обширном наборе положительных и отрицательных примеров в различных условиях.

Аутентификация источника

На множестве распределенных объектов охраны (таких как нефте- и газопроводы, торговые сети, АЗС, сети банкоматов, подъезды жилых домов и т.п.), на которых используется и обслуживается тысяча и более камер наблюдения, очень актуальна надежная защита видеоматериалов от возможного подлога. Реализация эффективного механизма защиты предполагает использование схемы поточной цифровой подписи во всей цепи передачи данных от источника (камеры) до потребителя (рабочее место оператора). В видеосигнал внедряются цифровые метаданные или скрытые «водяные знаки», содержащие уникальный идентификатор видеокамеры, текущее время, или например ГЛОНАСС/GPS координата. Несоответствие временной метки и контрольной суммы позволяет мгновенно выявить факт мошенничества.

В аналоговых же системах камера «не умеет» наносить криптографическую метку на видео. Здесь возможно применение других механизмов защиты на стороне энкодера или сервера. В частности, интеллектуальный энкодер может реагировать в момент подмены видео с помощью сервисных детекторов или обнаруживать факты зацикливания видео по статистическим признакам. При этом сложно избежать ложных срабатываний в момент переключения камеры из ночного режима в дневной, или в случае резкой автоподстройки к условиям внешней среды. В отличие от «умных» IP-камер, аутентификация аналоговых камер на сегодняшней день остается «больной» проблемой.

Индексация событий

Индекс событий существенно повышает эффективность работы правоохранительных органов при расследовании происшествий. Используя индекс, оператор может найти нужные кадры в видеоархиве в 10, а то и в 100 раз быстрее, чем при ручном поиске. Возможность поиска «по событиям» существенно упростит работу, как органам правопорядка при постанализе совершённого правонарушения, так и операторам системы при идентификации и классификации происшествия.

В настоящее время в рамках программы «Безопасный город» для охраны жилищно-коммунального хозяйства наиболее востребованы детекторы следующих типов событий: появление человека, вход или выход из подъезда, быстрое перемещение, ожидание.

Точность распознавания событий входа и выхода может быть значительно повышена за счет синхронной работы видеоаналитикеского ПО, обслуживающего внутреннюю и внешнюю камеры одного подъезда.

Точность детектора характеризуется вероятностью обнаружения нужного события (чувствительность) и вероятностью ложного срабатывания. Различные сценарии использования индекса предполагает различное соотношение допустимых значений этих двух составляющих точности.

Индексирующий детектор выделяет момент времени события и формирует изображение для иллюстрации события. Качество выбора кадра в существенной степени определяет удобство и эффективность детектора. Если детектор берет первый попавшийся кадр, то, скорей всего, такой кадр не будет репрезентативным, и оператору потребуется дополнительное время для дальнейшего просмотра видео. А выбор оптимального ракурса съёмки особенно важен при детектировании лиц.

Оперативное распознавание поведения людей

В последнее время, именно видеоаналитика оперативного распознавания подозрительных или нештатных ситуаций, таких оставленный предмет, драка, пожар, дым, падающий или лежащий человек, обсуждалась участниками рынка в большей степени, чем сервисные и индексирующие детекторы. В сознании конечного пользователя, задача распознавания поведения человека в режиме «реального времени» заняла первое место. Действительно, предотвращение преступления в момент его свершения и/или оперативное задержание преступника по «горячим следам» является важной задачей, решение которой должны искать специалисты по машинному зрению и искусственному интеллекту.

Оперативное распознавание конечно возможно на нынешнем уровне развития технологий машинного зрения, но только в частных случаях, при определенном положении камеры, стабильном освещении и характерном поведении людей. Но, к сожалению, пока не существует достаточно универсальных алгоритмов, внедрение которых, по моему мнению, в рамках программы «Безопасный Город» было бы экономически оправданным.

Другая сложность оперативного распознавания состоит в том, что криминальные действия в большинстве случаев редко происходят в поле зрения установленных камер. Злоумышленники хорошо осведомлены об их расположении и об эффективности мониторинга. Камеры контролируют лишь малую часть пространства ЖКХ, где ярко выраженные действия против закона крайне маловероятны. При этом сотрудники службы безопасности часто используют камеры ретроспективно, для восстановления хода событий по косвенным признакам. Именно в этом состоит главное преимущество публичной системы видеонаблюдения, и поэтому важны индексирующие детекторы.

Таким образом, перед программой Безопасный город сейчас стоят более простые задачи, чем оперативное распознавание, а именно обеспечение качества видео, комплексный мониторинг работоспособности системы, быстрый поиск по видеоархиву, удаленный доступ для диагностики. На рынке сейчас уже существуют готовые продукты, отвечающим этим требованиями, дело лишь за правильным выбором и грамотной системной интеграцией.

Как я уже говорил вначале статьи, только эволюционное развитие проекта «Безопасный город» от простого к сложному может привести к желаемого результату – высокой эффективности. Очевидно, что для эволюционного развития инженерам проекта нужно напрямую работать с отечественными поставщиками современных технологий видеоанализа, ведущими непрерывное совершенствование алгоритмов и гарантирующими поэтапное внедрение видеоаналитики в уже развёрнутые проекты. Кроме всего прочего, при выборе платформы важно четко отдавать себе отчет о стоимости обновления «математики» в будущем. И обязательно нужно заранее предусмотреть некоторый запас аппаратных ресурсов для работы видеоаналитики и технологию централизованного обновления ПО на всех узлах сложной системы безопасности.

Чтобы «заинтересованные» лица меня не обвинили в предвзятости и необъективности, я попросил прокомментировать описанную мной ситуацию профильных специалистов. Ниже вы можете ознакомиться с их ответами на вопросы, которые я уверен волнуют не только меня.

НП - Николай Птицын к.т.н МГТУ им. Н.Э. Баумана

АК - Антон Сергеевич Конушин. К.ф.-м.н. МГУ им. М.Ю. Ломоносова

  1. Компании могут декларировать все что угодно — это их бизнес. Как Вы считаете, насколько российские технологии в целом и область машинного зрения в частности готова к работе в не лабораторных условиях? Применимы ли технологии в их текущем виде к задачам стоящим перед обеспечением безопасности на уровне города (рассматривая описанные ниже детекторы):

    • детектор бега
    • детектор движения в запрещенном направлении
    • оставленные предметы
    • детектор остановки объекта
    • трекинг перекрывающихся людей на оживленной сцене

    АК: На ведущих научных конференция по компьютерному зрению и анализу изображений российские ученые представлены крайне слабо, публикации можно пересчитать буквально по пальцам. Это заставляет задуматься об уровне алгоритмов, предлагаемых отечественным компаниями, ибо большинство современных эффективных алгоритмов анализа изображений и видео были предложено все-таки в академической среде.

    Такие задачи, как поиск оставленных предметов, детектор остановки объекта, движение в запрещенном направлении, можно решить на основе широко известных и предложенных 10 лет назад алгоритмов вычитания фона, например, на основе моделирования цвета в каждом пикселе с помощью смеси нормальных распределений. Поэтому российские технологии, скорее всего, вполне пригодны для решения этих задач.

    Трекинг перекрывающихся людей на оживленной сцене, детекторы событий, распознавание людей по одежде - это задачи, активно исследуемые сейчас в зарубежных университетах, и пока еще далекие от решения. Опубликованные алгоритмы пока еще недостаточно надежны и зачастую требуют сложной настройки для того, чтобы применяться в реальных городских условиях.

    На практике предлагаемые сегодня алгоритмы работоспособны при сравнительно сильных ограничениях на технические параметры входного видео (уровень шума, разрешение камеры и т.д.) и характеристики движения. Это позволяет демонстрировать впечатляющие результаты на отдельных примерах, но приводит к проблемам при попытках использования алгоритмов в реальных условиях.

    АП: Оценить готовность коммерческой видеоаналитики для работы в боевых условиях удобней всего при помощи таблицы. Сопоставим три категории сцен (с низкой, средней и высокой плотностью подвижных целей) c тремя актуальными сценариями использованиям («ролями») видеоаналитки (во-первых, запись событий, во-вторых, оперативная тревога при подозрительной траектории/скорости и, в третьих, оперативная тревога при оставленном предмете).

    Детекторы, бега, остановки, проникновение в запрещенную зону, могут быть задействованы в первом и втором сценарии, но требованиями по точности к ним разные. Сценарий «оперативная тревога» предъявляет более критичен к количество ложных срабатываний детектора. Общей основой детекторы этих двух сценариев является трекер неразделяемых целей, то есть алгоритм сопровождения (трассирования) цельных объектов в поле зрения камеры.

    Отличие третьего сценария состоит в том, что распознавание оставленных предметов предполагает существенно более сложный трекер, который работает с разделяемыми целями (split target tracking).

    Алгоритмическая сложность распознавания целей возрастает слева направо от ненасыщенной до оживленной сцены и снизу вверх от роли записи событий до роли оперативного распознавания. Как показано в таблице, адекватные детекторы для работы в стерильной зоне доступны практически для всех перечисленных ролей уже сегодня. С другой стороны, наиболее сложным алгоритмов машинного зрения является детектор оставленных предметов на оживленных сценах. По нашем оценкам, коммерческие технологии для решения этой задачи появиться не раньше, чем через 3 года.

    Плотность подвижных объектов Низкая Средняя Высокая
    Примеры контролируемых сцен стерильная зона стратегического объекта, государственная граница, нефтепровод, садовый участок подъезд жилого дома, автозаправочная станция, офисная парковка, коттеджный поселок метро, аэровокзал, железнодорожный вокзал, торговый центр, футбольный стадион
    Запись событий для последующего поиска (индексирование видеоархива) сегодня сегодня сегодня
    Формирование оперативной тревоги при подозрительной траектории или скорости) сегодня сегодня 1 год
    Формирование  оперативной тревоги при оставленном предмете сегодня 2 года 3 года
  2. Что Вы можете сказать о методиках детектирования движения (трекинга) и оставленных предметов. Существуют ли какие то стандарты либо общепринятые определения?

    АК: Одной из причин бурного развития алгоритмов компьютерного зрения в последнее время стало как раз повышенное внимание, уделяемое оценке и сравнению качества существующих алгоритмов. Общим правилом в области компьютерного зрения стало проведение специальных семинаров, посвященных сравнению последних разработок в той или иной области. Для этого организаторами заранее готовится и выкладывается в интернете часть тестовой базы, на которой авторы могут опробовать свои алгоритмы и системы. Затем реализации алгоритмов высылаются организаторам, которые проводят тестирование на закрытой части базы. Результаты данного сравнения становятся де-факто стандартной оценкой качества. В области видеонаблюдения регулярно проводится семинар PETS - Performance Evaluation of Tracking and Surveillance. В 2007 году темой семинара было сравнение методов поиска оставленных предметов, обнаружение случаев кражи багажа и т.д. Семинар 2009 года посвящен анализу групп людей – подсчету количества людей в группе, обнаружение событий типа «бег», «формирование толпы» и т.д. Российские ученые, участвовавшие в этих семинарах, нам не известны.

    Судя по результатам сравнений, существующие алгоритмы могут успешно решать эти задачи, но не во всех случаях.

    НП: Основные алгоритмические приемы для решения задач сопровождения (трекинга) в поточном видео известны достаточно давно: статистическое моделирование цели и фона, многомасштабный анализ, пространственно-временная корреляция, оптический поток, скрытая марковская модель, динамическое программирование и др. Считаю, что все задачи, рассматриваемые в нашей дискуссии, рано или поздно будет решены при помощи известных алгоритмов. Другими словами, основные проблемы не концептуальные, а инженерные, как, оптимизация быстродействия, распределение вычислений и выбор правильной архитекторы.

    С точки зрения классификации (распознавания) поведения, например, бега, остановки, запретного движения, достаточно использовать простые правила и условия, и нет необходимости в более сложные методах искусственного интеллекта, таких как нейронные сети, машина опорных векторов, нечеткая логика. Например, для распознавания бега достаточно установить пороговое значение на среднюю скорость и пройденный путь.

    Что касается измерения точности и общепринятых стандартов, наиболее полные  материалы, включая видео, экспертную разметку и методологию тестирования готовятся организаторами ежегодной конференции PETS (Performance Evaluation of Tracking and Surveillance) и группой i-LIDS (Imagery library for intelligent detection systems) в составе научного подразделения британского МВД.

  3. Что лучше по Вашему мнению - работать на PC - видеосервере (x86) (при этом видеосервер занимается всем спектром задач — от компрессии до отображения) или осуществлять видеоанализ на отдельном устройстве?

    АК: Стандартного разрешения недостаточно для анализа и распознавания людей в видео, поэтому все шире используются камеры высокого разрешения. Поток данных с такой камеры с высокой частотой кадров может легко заполнить даже гигабитный сетевой без сжатия, а сжатый сигнал анализировать существенно сложнее. Кроме того, хороший канал связи затрудняет монтаж камеры. Беспроводная связь (WiFi, WiMax) слишком ненадежна, обладает низкой устойчивой пропускной способностью, что тоже затрудняет передачу видео высокого разрешения. Поэтому тенденция заключается в повышении уровня интеллектуальности камеры – повышению мощности встроенных процессоров и т.д. Сейчас их мощности хватает лишь на компрессирование и простейшие алгоритмы обработки, но в перспективе даже сложные современные алгоритмы видеообработки могут быть реализованы на встроенном компьютере.

    Т.е. ответ на ваш вопрос – да, осуществлять анализ на отдельном устройстве однозначно перспективнее (в дальнейшем подобные системы однозначно покажут лучший результат, чем те, кто будет пытаться анализировать сжатый поток), хотя сейчас подобные реализации и сложнее, из-за сравнительной слабости современной аппаратной базы.

    НП: Массовая видеоаналитика для безопасного города обязательно будет встраиваться в переферийные устройства, такие как камеры и энкодеры, потому что эта архитектура обеспечивает более высокую точность распознавания  и лучшую масштабируемость системы, чем серверная архитектура.  Качественный трекинг объектов на сервере при использовании мегапиксельных камер с оптикой дальнего действия или большого охвата практически не возможен на сервере. С другой стороны, аналитика многокамерного сопровождения будет использовать ресурсы камеры и сервера одновременно, то есть будет реализована архитектура распределенных вычислений.

  4. Насколько далека теория от текущей реализации, о чем можно будет говорить завтра в плане детектирования и классификации объектов?

    АК: Компьютерное зрение зависит от алгоритмов распознавания образов (pattern recognition) на основе машинного обучения. Настоящий прорыв в компьютерном зрении в конце 90х годов был вызван как раз появлением новых мощных алгоритмов, таких как усиление слабых классификаторов (boosting), машина опорных векторов (support vector machine) и рандомизированный решающий лес (random forest). На основе усиление слабого классификатора был разработан метод поиска лиц Violo-Jones, называемый по именам авторов, являющийся де-факто стандартом, решающий задачу настолько хорошо, что все последующие методы превосходят его лишь незначительно. Простота и эффективность этого метода позволили встраивать его даже в бытовые фотокамеры и сотовые телефоны. Причем от опубликования метода до появления его в реальных коммерческих продуктах прошло всего несколько лет.

    Задачи распознавания поведения людей, особенно в большой группе, детектирование переносимых предметов и т.д. оказались сложнее, в виду большей внутриклассовой изменчивости, по сравнению с лицами. Но новые алгоритмы тоже появляются очень быстро, благодаря прогрессу в развитии графических моделей анализа образов, таких как марковские случайные поля (markov random field), и быстрым алгоритмам решения задач на них, например, на основе разрезов графов.