МЕТОД

Улучшение работы интерфейса глаз–мозг–компьютер при использовании частотных компонентов ЭЭГ

С. Л. Шишкин1, Б. Л. Козырский1,3, А. Г. Трофимов1,3, Ю. О. Нуждин1, А. А. Федорова1, Е. П. Свирин1, Б. М. Величковский2
Информация об авторах

1 Отдел нейрокогнитивных технологий, Курчатовский комплекс НБИКС-технологий,
Национальный исследовательский центр «Курчатовский институт», Москва

2 Курчатовский комплекс НБИКС-технологий,
Национальный исследовательский центр «Курчатовский институт», Москва

3 Факультет кибернетики и информационной безопасности,
Национальный исследовательский ядерный университет «МИФИ», Москва

Для корреспонденции: Шишкин Сергей Львович
пл. Академика Курчатова, д. 1, г. Москва; 123182; ur.liam@nikghsihsgres

Информация о статье

Финансирование: работа выполнена при частичной поддержке Российского научного фонда, грант № 14-28-00234 (получение экспериментальных данных и их предварительная обработка), и Российского фонда фундаментальных исследований, грант № 15-29-01344 (оценка вклада вейвлетных признаков в классификацию).

Статья получена: 08.04.2016 Статья принята к печати: 15.04.2016 Опубликовано online: 05.01.2017
|

Интерфейсы мозг–компьютер (ИМК) — это аппаратно-программные комплексы, обеспечивающие возможность управления компьютером и подключенными к нему устройствами на основе распознавания паттернов активности мозга, ассоциированных с управляющими командами. Они разрабатываются, в первую очередь, в качестве средства помощи парализованным больным [1, 2, 3]. В  то же время точность и скорость работы подавляющего большинства разновидностей ИМК остаются низкими, и неясно, удастся ли им найти практическое применение вне ряда задач, для решения которых достаточно отдавать простейшие команды, но «напрямую из мозга», что важно, например, в постинсультной реабилитации [4]. Удовлетворительной скорости печатания текста с помощью ИМК — около 50 букв в минуту (у здоровых испытуемых) — удалось достичь лишь в недавней работе [5], где использовалась ритмическая зрительная стимуляция, безопасность которой пока остается под вопросом.

Примечательно, что все неинвазивные ИМК с высокими точностно-скоростными характеристиками используют ЭЭГ-реакции на зрительные стимулы, на которые пользователь должен направлять взгляд. Это означает, что они могут применяться лишь при отсутствии серьезных нарушений зрения и глазодвигательной функции, т. е. когда пациент не теряет способность произвольно направлять взгляд в заданные области экрана, ассоциированные с управляющими командами (фиксировать взгляд на виртуальных «кнопках»). Но в этом случае можно обеспечить управление компьютерами и подключенными к ним устройствами на основе определения направления взгляда с помощью айтрекинга (видеоокулографии).

Существующие методики управления с помощью взгляда характеризуются сравнительно неплохими точностно-скоростными и эргономическими показателями при печатании текста [6]. Однако при попытках их применения к более широкому кругу задач исследователи сталкиваются с так называемой «проблемой прикосновения Мидаса» [7]. Подобно способности героя греческого мифа царя Мидаса прикосновением превращать предметы в золото, способность превращать фиксации взгляда или глазные жесты в команды техническим устройствам слишком неизбирательна и приводит к отдаче команд даже при отсутствии намерения их отдавать: перемещения взгляда являются важнейшим элементом зрительной функции, обычно происходят спонтанно и даже при концентрации внимания на них легко выходят из-под сознательного контроля. Существующие способы решения этой проблемы либо делают процесс управления медленным и утомительным, либо применимы лишь для ограниченного круга задач.

Еще в 1996 году было предложено решить проблему прикосновения Мидаса и создать высокоэффективный универсальный интерфейс путем комбинирования управления с помощью взгляда ("eye-mouse") и ИМК [8]. В течение ряда лет совмещение этих технологий [9] носило довольно механистический характер и не вело к созданию систем с быстрым откликом и хорошими эргономическими характеристиками. Перспективное решение задачи было предложено группой Торстена Цандера, вернувшейся к идее естественного соединения айтрекинга и ИМК [8] в рамках нового направления — разработки так называемых «пассивных ИМК». Так стали называть ИМК, откликающиеся на паттерны мозговой активности, не связанной с намеренными попытками подать команду через ИМК [10]. Цандер и коллеги показали, что фиксации взгляда, используемые для управления («управляющие» фиксации), можно отличить от спонтанных (зрительных) фиксаций по электроэнцефалограмме (ЭЭГ), регистрируемой непосредственно во время фиксации, даже в случае, когда появление в ЭЭГ маркеров управления не вызывалось специально (испытуемым не давали дополнительных задач и не предъявляли стимулы в «управляющей» позиции) [11]. Однако в их исследованиях управление можно было осуществлять лишь с помощью длительной (1 000 мс) фиксации взгляда в единственной позиции экрана.

Нашей группой была разработана методика для интерфейса глаз–мозг–компьютер (ИГМК), позволившая классифицировать на основе ЭЭГ значительно более короткие фиксации — длительностью лишь 500 мс. В эксперименте испытуемые играли в компьютерную игру «Линии» и делали каждый ход с помощью фиксации на одном из 50 элементов игрового поля. Классификатор обучали отличать зарегистрированные во время этих фиксаций сигналы ЭЭГ от сигналов ЭЭГ, записанной во время фиксаций на тех же элементах, но при выключенном управлении, т. е. предположительно спонтанных фиксаций [12; Shishkin et al., in prep.]. Благодаря снижению длительности фиксаций управление для испытуемых было вполне естественным и комфортным, причем число и расположение чувствительных к управлению визуальных элементов в нашей методике ограничивается только возможностями айтрекера. Однако одни лишь амплитудные характеристики компонентов ЭЭГ, привязанные во времени к фиксациям (мы использовали их в первых исследованиях), не обеспечивают достаточной для практического применения технологии точности детекции управления.

В настоящем исследовании мы проанализировали возможность повышения точности классификатора ИГМК, автоматически отличающего управляющие фиксации взгляда от спонтанных, при дополнении амплитудных характеристик ЭЭГ характеристиками осцилляторных компонентов. В связи с необходимостью использовать короткие интервалы ЭЭГ, в пределах которых возможна зависимость от времени как амплитудных, так и частотных характеристик, а также в связи с высокой размерностью частотно-временных данных и другими существенными отличиями их от амплитудных данных, решение потребовало разработки специальной схемы выделения количественных признаков, характеризующих ЭЭГ во время фиксаций взгляда.

МАТЕРИАЛЫ И МЕТОДЫ

Эксперимент

Мы использовали записи ЭЭГ, полученные нами в ранее выполненном экспериментальном исследовании. Его основные результаты будут представлены в отдельной статье [Shishkin et al., in prep.], включая подробное описание методики эксперимента.

В исследовании, проводившимся с соблюдением норм Хельсинской декларации, приняли участие 8 условно здоровых испытуемых-добровольцев (7 мужчин, 1 женщина) в возрасте от 21 до 48 лет (средний возраст — 29  лет), давших информированное согласие. Взгляд испытуемых отслеживали с помощью айтрекера EyeLink 1000 Plus (SR Research, Канада). Фиксации взгляда детектировали в онлайн-режиме с помощью дисперсионного алгоритма. Параллельно регистрировали ЭЭГ в 19 отведениях (Fz, F3, F4, Cz, C3, C4, Pz, P1, P2, P3, P4, POz, PO3, PO4, PO7, PO8, Oz, O1, O2), а также электроокулограмму (ЭОГ) с помощью электроэнцефалографа actiCHamp (BrainProducts, Германия). ЭОГ использовали для контроля артефактов в ЭЭГ. Регистрацию направления взгляда, ЭЭГ и ЭОГ вели с частотой 500 Гц.

В части алгоритмов управления с помощью взгляда и задачи, выполняемой испытуемыми, была полностью воспроизведена методика предварительного исследования, описанная нами в [12], поэтому здесь мы отметим лишь важные детали. Испытуемые играли в компьютерную игру «Линии» в специальной модификации, обеспечивающей выполнение всех действий в игре с помощью последовательностей из трех фиксаций взгляда, продолжительность каждой из которых превышала порог в 500 мс. Каждая из последовательностей начиналась с фиксации в отдельно расположенной области экрана, где после достижения порога появлялся специальный индикатор «включения управления». ЭЭГ, зарегистрированная во время этих фиксаций, составила первый класс данных (управляющие фиксации). Другой класс данных (контрольные фиксации) составила ЭЭГ, зарегистрированная также во время фиксаций с длительностью выше пороговой, но по правилам игры не приводивших к совершению хода. Управление компьютерной игрой на основе данных о фиксациях взгляда, а также синхронизация ЭЭГ/ЭОГ и запись времени фиксаций выполнялись с помощью оригинального программного обеспечения.

У каждого испытуемого было зарегистрировано в среднем 155 (от 120 до 184) управляющих и 159 (от 114 до 208) контрольных фиксаций.

Подготовка признаков для классификатора

При выделении вейвлетных признаков из ЭЭГ использовали интервал 50…500 мс относительно начала фиксации, поскольку более ранний период содержал артефакты, связанные с перемещением взгляда, а более поздний не мог использоваться в онлайн-режиме для детекции намерения отдать команду. В анализируемом интервале практически полностью отсутствовали артефакты, поэтому мы не применяли никаких процедур для их коррекции или удаления. Ранее мы показали [12; Shishkin et al., in prep.], что существенное различие амплитуды ЭЭГ между управляющими и контрольными фиксациями в нашей методике характерно лишь для второй половины интервала фиксации, поэтому для получения амплитудных признаков в настоящей работе мы использовали интервал 200…500 мс.

Амплитудные признаки были получены путем усреднения значений амплитуды раздельно в каждом канале ЭЭГ в перекрывающихся окнах длиной 50 мс. Из этих значений для нивелирования влияния медленных колебаний и постоянной составляющей электрических потенциалов вычитали среднее в интервале 200…300 мс. Полученные «сырые» амплитудные признаки составляли единый вектор значений, описывающий пробу (trial), соответствующую одной фиксации.

Вейвлетные признаки были получены с помощью вейвлет-преобразования на основе вейвлета Морле. Диапазон масштабов соответствовал частотному диапазону 5…30  Гц. Чем большей частоте соответствовал масштаб, тем больше вейвлет-коэффициентов брали для описания каждой пробы. В процессе обучения на тренировочной выборке после получения частотно-временного описания каждой пробы с целью снижения «зашумления» данных иррелевантными признаками отбирали по 30 % признаков (описываемых временем и масштабом), наиболее различавшихся между спонтанными и управляющими фиксациями взгляда (имевших наиболее высокие значения коэффициента детерминации R2).

Отобранные признаки обрабатывали методом главных компонент (Principal Component Analysis, PCA). К амплитудным и вейвлетным признакам его применяли по отдельности. Отбирали по 80 компонент с наибольшей дисперсией (в случае использования и амплитудных, и вейвлетных признаков — по 80 компонент для каждого из них). Они составляли новые наборы признаков. Непосредственно перед использованием PCA и после него применяли один из двух способов нормализации (получения z-оценок) значений признаков: либо по всем значениям каждого признака (по всем пробам), либо в пределах отдельно взятых проб, но по всем признакам (отдельно для амплитудных и вейвлетных). Нормализация в пределах пробы рассматривалась как способ адаптации к локальному уровню значений признаков, который мог медленно варьировать во времени.

Классификация управляющих и контрольных фиксаций по ЭЭГ

Для классификации использовался линейный дискриминантный анализ со «шринкажной» (shrinkage) регуляризацией, который обеспечивал эффективное обучение на небольших выборках (в том числе того размера, который был доступен в нашем исследовании) даже при сравнительно высокой размерности признаков и хорошо зарекомендовал себя в ИМК на основе потенциалов, связанных с событиями [13, 14]. 

Показатели качества классификации оценивали с помощью пятикратной кроссвалидации. При этом обучение классификатора, отбор признаков, расчет средних значений и стандартных отклонений признаков для нормализации (если она выполнялась по выборке), а также сжатие размерности проводили на части данных, служивших тренировочной выборкой. Полученные на этой выборке правило отбора признаков, среднее и стандартное отклонение для соответствующих наборов значений, а также матрица весов отобранных компонентов и веса обученного классификатора применялись к оставшейся части данных, которые рассматривались как тестовая выборка. Такая организация кроссвалидации обеспечила воспроизведение реальной ситуации применения классификатора в ИМК.

Для оценки качества классификации мы использовали широко применяемый в аналогичных исследованиях интегральный показатель AUC (Area Under Curve — площадь под кривой, при этом имеется в виду кривая ROC — Receiver Operating Characteristic, рабочая характеристика приемника). Он показывает, насколько отличается от случайного результат классификации при различных значениях порога классификатора, которые могут выбираться для разделения классов с различным соотношением ошибок разного типа в зависимости от конкретных целей использования классификатора. Если результат классификации не отличается от случайного угадывания, значение этого показателя стремится к 0,5, а если классификатор никогда не ошибается, оно равно 1. Для сравнения значений AUC при использовании разных наборов признаков использовали многомерный дисперсионный анализ (MANOVA) и постхок-анализ по методу Бонферрони, реализованные в статистическом пакете Statistica 7.0 (StatSoft, США).

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

При использовании всех вариантов получения признаков индивидуальные значения показателя точности классификации (AUC) были выше 0,5, среднее по группе — не ниже 0,66, однако средние AUC довольно значительно различались (рис. 1).

Трехфакторный многомерный дисперсионный анализ (таблица; все три фактора были с повторными измерениями), примененный к индивидуальным значениям AUC, показал, что точность классификации значимо зависела от фактора набора признаков (λ = 0,06, F(2,6) = 49, p = 0,0002), тогда как эффекты остальных факторов и взаимодействие факторов во всех комбинациях не были статистически значимыми. Постхок-анализ по методу Бонферрони показал, что значимым является различие между амплитудным и амплитудно-вейвлетным наборами признаков (p = 0,006), но не между амплитудным и вейвлетным (p = 0,34) и между вейвлетным и амплитудно-вейвлетным (p = 0,16). Набор, состоявший только из амплитудных признаков, дал самую низкую точность классификации, а наилучшие результаты показал комбинированный набор (амплитудные и вейвлетные признаки, взятые вместе). При использовании комбинированного набора ЭЭГ-признаков среднее по группе значение AUC увеличилось на 0,05–0,08 (в зависимости от использовавшихся способов нормализации) по сравнению с амплитудным набором и составило 0,75 ± 0,04 (M ± SD) при использовании нормализации признаков и перед, и после PCA и 0,75 ± 0,06 при нормализации признаков перед PCA и в пределах проб после PCA.

На рис. 2 показаны индивидуальные результаты для способа подготовки признаков, давшего наиболее высокое значение AUC в среднем по группе. Индивидуальные кривые на графике позволяют оценить значения ошибок разного типа, которые наблюдались бы при разной величине порога классификатора. В частности, интерес представляет чувствительность классификатора ИГМК — частота правильно определенных управляющих фиксаций взгляда при низкой частоте ложных срабатываний. Как следует из рисунка, при фиксации частоты ложных срабатываний на уровне 0,1 (это можно сделать соответствующим подбором порога классификатора на отдельной выборке) лишь у одного испытуемого чувствительность оказалась ниже 0,2, еще у одного — выше 0,5, а у остальных находится в промежутке между этими значениями.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Для разработки ИГМК, распознающего сравнительно короткие управляющие фиксации взгляда по отрезкам ЭЭГ, регистрируемой непосредственно во время таких фиксаций, повышение эффективности работы классификатора имеет решающее значение, ведь для анализа доступны лишь единичные реализации сигнала длительностью всего сотни миллисекунд.

Отдельно стоит остановиться на качестве классификации при низком уровне ложных тревог. Дело в том, что в ИГМК несложно предусмотреть подстраховку на случай отсутствия распознавания управляющей фиксации: если интерфейс не срабатывает по достижении фиксацией порогового значения длительности (500 мс), пользователь может продолжить фиксировать управляющую позицию, и система сработает уже при достижении дополнительного порога (например, 1 000 мс) без использования классификатора ЭЭГ. Можно предположить, что при использовании ИГМК с такой подстраховкой в течение определенного времени мозг пользователя, заинтересованного в ускорении срабатывания интерфейса, сможет научиться вырабатывать паттерн ЭЭГ, сопровождающий управляющие фиксации и обеспечивающий значительно более частое срабатывание классификатора. Однако для этого необходим хотя бы минимальный начальный уровень управления. Как видно из рис. 2, разработанная нами схема предобработки и выделения признаков уже позволила бы отдельным испытуемым приблизительно при половине управляющих фиксаций получать быстрое срабатывание интерфейса при сравнительно низкой частоте ложных тревог (0,1).

Если о  природе амплитудных характеристик, полезных для классификации в нашем ИГМК, уже можно сделать предположение, что, по-видимому, они определяются прежде всего развитием негативного потенциала, связанным с ожиданием обратной связи при срабатывании интерфейса [Shishkin et al., in prep.], то природа вейвлетных характеристик еще нуждается в объяснении. Следует отметить, что паттерны частотных компонентов ЭЭГ, характерные для различных состояний мозга, высокоиндивидуальны и их особенности лишь частично проявляются на групповом уровне. Тем не менее они могут успешно классифицироваться при индивидуальном обучении классификатора, в том числе и в парадигме интерфейса мозг–компьютер [15, 16, 17, 18]. Однако высокая размерность таких данных требует тщательного подхода к различным этапам анализа и отладки методики, по возможности с привлечением большого числа испытуемых. Нами в этом направлении сделаны лишь первые шаги, однако сходство результатов, полученных при использовании разных способов нормализации данных, может свидетельствовать о достаточно высокой об устойчивости и перспективности предложенной схемы предобработки данных и выделения информативных признаков.

ВЫВОДЫ

В данной работе была впервые предпринята попытка применить для распознавания фиксаций взгляда, используемых для управления компьютером, времячастотное представление ЭЭГ, т. е. оценки выраженности частотных компонентов ЭЭГ в  их зависимости от времени относительно начала фиксации. Использование этих признаков позволило получить точность классификации не хуже, чем на основе ранее уже использовавшихся нами амплитудных признаков. Более того, совместное использование тех и других признаков позволило повысить точность классификации. Мы полагаем, что дальнейшее совершенствование вычислительной методики позволит подойти непосредственно к практическому использованию интерфейса глаз–мозг–компьютер, сочетающего в себе основные достоинства обычных ИМК и систем управления на основе отслеживания взгляда.

КОММЕНТАРИИ (0)