Оценка качества восприятия видео на основе распознавания эмоций

Автор: М.А. Маколкина, доцент кафедры сетей связи и передачи данных СПбГУТ им. проф. М.А. Бонч-Бруевича, к.т.н.; makolkina@list.ru

В наши дни нельзя не осознавать, что мы живем в эпоху визуализации. Следуя принципу доступности услуг в любом месте и в любое время, последние технологические достижения в области сбора, хранения, обработки, передачи и отображения видеоинформации предоставляют новые возможности для ее потребления [3, 4]. Видеосервисы, особенно те, что включают телекоммуникации, строятся на базе технологий, имеющих ряд ограничений по пропускной способности, памяти, вычислительным ресурсам. Пользователи также накладывают связывающие ограничения в виде человеческих особенностей и предпочтений.

Рост гетерогенности сетей, терминалов и числа пользователей, увеличение доступности и использование мультимедиа-контента поднимают важность оценки степени удовлетворенности пользователя услугой для различных типов предлагаемых решений по передаче и адаптации контента [5]. Как показано на рис. 1, разнообразный мультимедийный контент может передаваться через многочисленные сегменты сети, работающие по различным правилам, и приниматься множеством разнотипных терминалов.

В гетерогенном мире путь доставки мультимедиа-контента до мультимедиа-терминала не является прямым. С точки зрения универсального мультимедийного доступа (Universal Multimedia Access, UMA) [6] одна и та же информация должна предоставляться в различных форматах, с большей или меньшей сложностью, подходящей для использования в различных средах, где будет предоставляться контент.

Рисунок 1. Передача контента через различные сети на терминалы доступа разных типов

Доставка мультимедийных данных развивается. Теперь это не просто доступ к контенту, а получение «лучшего ощущения», максимальной эмоции при его просмотре. В то время как UMA-технологии предлагают адаптацию контента к оконечному терминалу, завтрашние технологии будут адаптировать мультимедиа-контент в зависимости от психологических особенностей человека. В широком понимании это означает необходимость рассматривать пользователя не только как систему органов чувств и осознания увиденного. Мы начинаем говорить об универсальном мультимедийном опыте (Universal Multimedia Experience, UME), который обеспечивает пользователей адаптированным, информативным (в плане получения нового знания) и захватывающим (в смысле ощущений, эмоций) контентом.

Очевидно, что сегодня технологии доставки вовлекают в себя человеческий фактор, связанный с потреблением мультимедиа, и он приобретает все большую важность при выборе услуг пользователем. Настало время учитывать особенности человека более детально [7]. Следуя этой логике, концепция качества обслуживания QoS (Quality of Service) развивается во всеобъемлющее QoE (Quality of Experience) [8], где удовлетворение пользователей состоит не только в улучшении качества изображения, воспринимаемого органами чувств и осознания увиденного, но и, что более важно, в переживании увиденного, повышении эмоциональной реакции [9].

Чувства, восприятие, эмоции играют основную роль в большинстве пользовательских приложений, таких как потоковое видео, персональные коммуникации, библиотеки музыки и картинок Они определяют окончательное пользовательское удовлетворение. Забыть что-либо из этих составляющих означает отрезать пользователя от огромного опыта восприятия при потреблении мультимедиа-контента.

Четырехуровневая пользовательская модель для оценки видео

Оценка качества передачи видео напрямую связана с воспроизведением видеоинформации с целью максимизации удовлетворенности пользователя с учетом существующих ограничений ресурсов. Необходимо также учитывать, что требования пользователя к качеству контента непрерывно растут, а значит, и существующих методов оценки качества услуг [11, 12] недостаточно и нужно находить индивидуальный подход к каждому пользователю. Таким образом, идея QoE продвигается от обеспечения оптимальных технических характеристик (задержек, джиттера, потерь, пропускной способности) в направлении более высокого качества восприятия для конкретного пользователя услуг. Иначе говоря, пришло время расширить список оцениваемых параметров качества такими пунктами, как внимание, соответствие ожиданиям пользователя, эмоции и т. п.

В то время как существующие видения процессов адаптации видео в большей степени опираются на доступность ресурсов, особенно сетей и устройств, этого уже недостаточно. Может потребоваться некий процесс адаптации (даже если нет ограничений по ресурсам), целенаправленно ориентированный на пользовательские предпочтения и вкусы. Здесь основной движущей силой будет не часть уравнения «ограниченный ресурс», а часть «максимизация удовлетворения». Это достаточно важный концептуальный скачок в области предоставления услуг, присутствующий в большой части соответствующих исследований [13, 14].

Более того, сегодня адаптация может осуществляться на различных этапах доставки видео до пользователя (рис. 2).

Рисунок 2. Адаптация видео

Решения по адаптации видео различаются не только на эмоциональном уровне, но также на чувственном и на уровне восприятия. Этот факт свидетельствует о том, что оценку качества следует рассматривать на основе четырехуровневой пользовательской модели:

Первый уровень — чувственная оценка. Этот уровень оценки качества восприятия рассматривает удовлетворение пользователя в области органов чувств; для видео это означает резкость изображения, размытость, яркость, естественность, наличие артефактов и т. д. независимо от содержания контента. Несмотря на это, восприятие пользователя всегда подразумевает осмысление и, соответственно, не бывает чувственного восприятия без осмысленного (т.е. формально нет чувственной оценки, всегда оценка восприятия). Мы определим чувственную оценку как такую, которая просто рассматривает способность «видеть лучше» независимо от содержания контента.
Оценка восприятия — второй уровень оценки, который рассматривает удовлетворение пользователя в области осмысления или познавательного опыта. Это означает, что пользователь овладевает суммой знаний, содержащихся в контенте. Например, чувственное качество (качество видеоизображения) может быть очень высоким, а качество восприятия низким, если значимость информации уменьшилась и это неинтересно пользователю. В целом, так называемая человеческая зрительная система (Human Vision System, HVS) [10] включает и чувственный и познавательный процесс.
Эмоциональная оценка — третий уровень оценки качества восприятия пользователя, на котором рассматривается удовлетворение пользователя в области эмоционального опыта, оценивается интенсивность чувств, испытываемых пользователем. Адаптация может иметь целью достижение «хороших» или «плохих» эмоций, например, страх является целью в фильмах ужасов. Поэтому оценка должна проверять эффективность и адекватность в достижении нужной эмоции. Так, если результатом в фильме ужасов будет счастье, эмоция сформирована неправильно.
Оценка действия — четвертый и самый верхний уровень оценки качества контента, получаемого пользователем. Он рассматривает степень удовлетворенности пользователя после воздействия на его эмоцию, оценивает, насколько правильно была применена адаптация видео, в нужном ли направлении усилена эмоция или воздействие на контент имело обратный эффект. У человека есть селективные механизмы для выбора того, что слушать, смотреть, чувствовать, нюхать, пробовать на вкус из всего окружающего многообразия. Эти селективные механизмы обычно называют вниманием. Говоря о визуализации информации, мы знаем, что быстрое движение, многообразие цветов, несколько объектов (например, лица) и некоторые события более интересны для внимания человека, это значимый момент визуального процесса. Таким образом, контролируя концентрацию внимания, можно оказывать воздействие на эмоцию человека.

Рисунок 3. Модель оценки качества восприятия

Описанная выше модель и показатели для оценки представлены на рис. 3. Эти типы оценки следует подкрепить соответствующими методиками оценки, как субъективными, так и объективными. Поскольку люди являются оконечным приемником для большинства приложений, очевидно, что надежный путь оценки чувственного, воспринимаемого и эмоционального уровней качества видео основан на субъективной оценке.

Тем не менее и субъективная, и объективная оценка, методы и метрики могут быть отнесены к четырем уровням модели: чувственному, восприятия, эмоциональному и действия. Поскольку четырехуровневая модель иерархическая, чувственная оценка влияет на оценку восприятия, которая, в свою очередь, воздействует на эмоциональную, а та — на оценку действия. Например, сложно иметь хорошие оценки на уровне восприятия, если не всегда определяешь тип и позицию объектов в сцене, или на уровне чувств при очень низком разрешении контента.

Чувственный уровень

К нему можно отнести большинство методов по оценке качества восприятия видео. Кроме того, уже существует ряд определенных и широко используемых методик, например DSCQS, SSCQS… [15]. Однако они не всегда удобны, медленные и дорогие. Необходимо исследование объективных методов оценки качества, преследующих цель создания метрики, надежно и автоматически оценивающей качество видео [16]. Конечно, MSE и SNR являются наиболее популярными метриками объективной оценки его качества, но они имеют ряд ограничений [17, 18].

Уровень восприятия

Адаптация на уровне восприятия преследует цель максимизировать опыт осмысления и познания, рассматривая мир, представленный в контенте. Адаптация видео включает временную избирательность (воспроизведение фрагмента видео с лучшим качеством в специфический временной период, т. е. особое событие, с целью улучшения качества в определенном временном периоде с наиболее значимой информацией), пространственную и текстовую избирательность, выбор композиции сцены (объектно-ориентированная сцена воспроизводится с уменьшенным числом объектов, т. е. более информативно иметь меньше объектов с нормальным качеством, чем больше объектов с неприемлемым).

Субъективная оценка качества восприятия может быть выполнена в глобальном смысле, т. е. пользователю задается вопрос: «Как вы думаете, две версии (адаптированная и неадаптированная) имеют одинаковое информативное значение?». Или (в зависимости от поставленной задачи оценки) специфический вопрос по содержанию контента: «Как много машин вы видите на улице?».

Объективная оценка качества на уровне восприятия сложнее, чем чувственная, и обычно соответствует временной или пространственной величине. Так, очевидно, что информативное значение видеопоследовательности может быть уменьшено, если некоторые фрагменты или кадры удалены, но это ухудшение сильно зависит от удаленных частей.

Эмоциональный уровень

Адаптация на этом уровне единственная, в которой дополнительные характеристики могут быть представлены пользователю с большей информативностью, чем изначально предполагалось. К примеру, можно осуществлять адаптацию цветовой гаммы изображения с целью производить более холодный или теплый эффект либо воспроизводить с лучшей точностью/качеством в эмоциональном плане более значимый временной период контента, т. е. специфического события, для увеличения интенсивности эмоционального опыта.

Очевидно, что при адаптации, основанной на эмоциях, креативность может играть огромную роль, да и пользователь при этом проявляется во всей своей человеческой сути. Также это вид адаптации, где культура, как и тип социального и психологического развития, может существенно влиять на точность выполняемой адаптации.

Уровень действия

На данном уровне речь идет о целостном восприятии человека, когда оценивается не просто степень информативности контента и эмоция, а глубина этой эмоции, настроение, которое она вызвала, как вписалась в окружающую пользователя среду. Возможна и обратная адаптация, когда зрителю не нравится усиление эмоции, если его отвлекает дополнительная информация. Здесь же осуществляется контроль концентрации внимания, в зависимости от степени интереса человека осуществляется адаптация контента с целью усилить восприятие от просмотра или, наоборот, отказаться от внесения изменений.

Практическая реализация

До недавнего времени лучшим способом измерения качества эмоции был субъективный, но сегодня существует инструментарий в виде камеры «дополненной реальности», позволяющей определить степень концентрации внимания и эмоции при просмотре видео. Оценка концентрации внимания имеет два направления развития:

Если мы установили, что человек не смотрел видео (телепрограмму, фильм) внимательно, например отвлекался на другие дела, и высказывает негативное отношение к услуге, контенту или приложению, такая оценка может быть взята с определенным весовым коэффициентом, чтобы в меньшей степени влиять на общую оценку работы системы, или может быть отброшена как неадекватная.
Если наблюдается нехватка ресурса (например, пропускной способности), то в момент, когда человек отвлекается, можно снижать качество передаваемого видеопотока (передавать видео с низким разрешением или битовой скоростью), тем самым эффективнее используя ресурс сети.

Распознавание эмоций выводит оператора на новый уровень предоставления услуг, на котором есть возможность усиливать эмоцию и тем самым повышать качество восприятия пользователя. Скажем, при просмотре футбольного матча в случае забитого гола добавлять победную музыку или текст со статистикой игрока поверх видеотрансляции, тем самым усиливая его впечатление от просмотра. Так же и при обращении пользователя к таким услугам, как программа телепередач, сводки погоды, курсы валют и т. д., можно дополнять их музыкальным, цветовым сопровождением. Например, при дождливой погоде будет проигрываться спокойная, умиротворяющая музыка, при просмотре анонса о финале хоккейной лиги — играть воинственный марш.

Метрики для оценки качества восприятия

Очевидно, что низкое качество восприятия одной величины может привести к общему снижению качества восприятия. В зависимости от типа сервиса одной или более величин, оно может иметь больший вес среди других. Эмоциональная величина, конечно, более значима для развлекательных сервисов, чем для просмотра видео. Так же метрика взвешенного качества восприятия может совмещать субъективные и объективные метрики для всех уровней оценки в зависимости от значимости ограничений оценки.

Интересной альтернативой взвешенной метрики может быть та, что определена как сумма эмоционально основанных компонент с неэмоционально основанными. В то время как эмоционально основанные компоненты могут соответствовать взвешенной метрике, неэмоциональные компоненты могут просто соответствовать взвешенному продукту только чувственных и осмысляемых величин или общепринятым объективным оценкам качества передачи. Эта метрика более адекватна для сервисов, в которых эмоциональная величина менее значима.

Другой подход для оценки качества восприятия может быть проведен на основе выявленной взаимосвязи параметра Херста, характеризующего степень самоподобия потока и субъективных оценок [16] по аналогии с R-фактором и оценками MOS. На рис. 4 представлена выявленная взаимосвязь между субъективными оценками качества передачи видео и параметром Херста, которая аппроксимирована логистической кривой. Установленная взаимосвязь представляется интересной для исследования подходов к оценке QoE видео.

Рисунок 4. Взаимосвязь параметра Херста с субъективными оценками SSCQE

Для исследования взаимосвязи объективных и субъективных показателей QoE, их взаимосвязи с параметром Херста, а также оценки эмоций проведен эксперимент. Был собран лабораторный стенд, состоящий из источника видео, сегмента сети, на котором вносились задержки и потери, и установленной на приемнике камеры для распознавания эмоций получателя. В ходе эксперимента передаваемое видео оценивалось субъективным методом SSCQE (Single Stimulus Continuous Quality Evaluation — метод с одним источником воздействия и непрерывной шкалой качества), предложенным в Рекомендации МСЭ-Т ВТ-500−13 [15], по пятибалльной шкале. Параллельно проводился расчет параметра Херста, характеризующего степень самоподобия трафика, и определялась эмоция, которую испытывает человек в процессе просмотра.

Для того чтобы иметь возможность однозначно соотнести объективные характеристики трафика с эмоциями пользователя, проводилась настройка таких характеристик видеопотока, как разрешение изображения, скорость потока и т. д. Пользователю показывался один и тот же видеоряд с разными показателями задержек, джиттера и кодеками.

Интерфейс программы показан на рис. 5. В верхней части окна расположен мультимедийный плеер, в котором воспроизводится транслируемая с сервера видеопоследовательность с заданными параметрами качества восприятия. В левой нижней части находится таблица соответствий субъективной оценки эксперта, его эмоций и объективного показателя — параметра Херста. Известно, что видеотрафик для большинства видов услуг является самоподобным. При этом показатели сети, в частности задержки и потери, изменяются с увеличением степени самоподобия.

В правом нижнем углу окна во время просмотра тестовой последовательности отображается видео с указанием эмоций, которые в данный момент выявлены у пользователя.

Рисунок 5. Интерфейс программы

В ходе тестирования продемонстрировано пять видеопоследовательностей одинакового содержания, но с различным уровнем внесенных помех. Результаты показали, что, чем выше был показатель Херста, тем выше процент положительных эмоций и итоговая пользовательская оценка видео. Безусловно, некоторые искажения в результаты тестирования вносит то, что зрителям предлагается к просмотру одно и то же видео несколько раз, и на третьем-четвертом просмотре оно уже не вызывает ярко выраженных эмоций. К тому же необходимо провести тестирование контента с различным содержанием: образование, драма, триллер, юмор, дикая природа, реклама и т. п. Но уже на данном этапе видно, что существует взаимосвязь между субъективными оценками, объективными характеристиками сети, параметром Херста и эмоциями, испытываемыми в процессе просмотра.

ЛИТЕРАТУРА

Wang Z., Sheik H., Bovik A. Objective video quality assessment / In The handbook of video databases: design and applications; ed. by B. Furht and O.Marqure. CRC Press. — September 2003. — Р.1041−1078.
Hannikainen M., Hamalainen T.D., Niemi M., Saarinen J. Trends in personal wireless data communications // Computer Communications. — January 2002. — Vol. 25, Isuue 1,1. — P.84−89.
Киричек Р.В., Кучерявый А.Е., Парамонов А.И., Прокопьев А.В. Эволюция исследований в области беспроводных сенсорных сетей // Информационные технологии и телекоммуникации. — 2014. — № 4. — С.29−41.
Кучерявый А.Е. Интернет Вещей // Электросвязь. — 2013. — № 1.
Chang S., Vetro A. Video adaptation: concepts, technologies, and open issues / to appear in Proceedings of the IEEE. — January 2005.
Pereira F., Burnett I. Universal multimedia experiences for tomorrow // IEEE Signal Proc. Mag., Special Issue on Universal Multimedia Access. — March 2003. — Vol.20, № 2. — Р.63−73.
Azuma R., Baillot Y., Behringer et al. Recent advances in augmented reality // IEEE Comput. Graph. Appl. — Nov.-Dec. 2001. — Vol. 21, P.34−47.
ITU-T Recommendation G.1080. Quality of experience requirements for IPTV services. — 12. 2008.
Siller M., Woods J. Improving quality of experience for multimedia services by QoS arbitration on a QoE framework / in Proc. of the 13th Packed Video Workshop 2003. polytech. univ-nantes.fr.
Fang Fang, Laiyun Qing, Chongxiu Wang et al. Attention Driven Face Recognition, Learning from Human Vision System // IJCSI International Journal of Computer Science Issues. — September 2011. — Vol. 8, Issue 5, № 2.
Маколкина М.А. Анализ субъективных методов оценки качества IPTV // Информационные технологии моделирования и управления. — - № 5(83). — С.492−500.
ITU-T Recommendation Р.913.Methods for the subjective assessment of video quality, audio quality and audiovisual quality of Internet video and distribution quality television in any environment. — 01.2014.
Yamagishi K., Hayashi T. Opinion model for estimating video quality of videophone services / IEEE Globecom 2006 proceedings.
Winkler S., Faller C. Perceived audiovisual quality of low-bitrate multimedia content // IEEE Trans. Multimedia. — Oct. 2006. — Vol. 8, Issue 5.
Методика субъективной оценки качества телевизионных изображений: Рекомендация ITU-R BT.500−13. — 01/2012.
Маколкина М.А. Взаимосвязь субъективных оценок качества восприятия видео и значений параметра Херста // Системы управления и информационные технологии. — 2014. — № 1.1(55). — С.169−172.
ITU-T Rec. J.148. Requirements for an objective perceptual multimedia quality model. — May 2003.
VQEG, Final Report on the Validation of Objective Models of Video Quality Assessment. Aug. 2003[Online]. Available: http://www.vqeg.org.

Рубрики и ключевые слова

Сети и системы связи