Искусственный интеллект дает голос людям, которые не могут говорить

18 лет назад Энн Джонсон перенесла инсульт, и ее разбил паралич. Молодая женщина была лишена способности говорить, и это продолжалось много лет, пока Энн не получила в свое распоряжение специальный девайс, экран которого улавливал направление взгляда Энн и воспроизводил ту букву клавиатуры, на которую она смотрела. Таким образом 47-летняя Энн могла коммуницировать со скоростью 14 слов в минуту. Это гораздо лучше, чем полная невозможность что-то сказать окружающим, но весьма далеко от нормального разговора, текущего со скоростью 160 слов в минуту.

Сегодня Энн счастлива: она получила возможность общаться, произнося 78 слов в минуту, но это еще не все!

Голос, мимика, эмоции

Как сообщает статья в журнале Nature, исследователи Калифорнийского университета имплантировали чип, толщиной с лист бумаги, с 253 электродами на поверхность мозга пациентки таким образом, чтобы улавливать активность всех зон коры, связанных с мозгом.

Сигналы мозга женщины отправляются через провод, закрепленный на ее голове, в компьютер, где алгоритмы искусственного интеллекта обрабатывают их и преобразуют не в письменную, как это было раньше, а в устную речь. Кроме того, на экране компьютера – аватар, который не просто открывает рот, но и воспроизводит мимику, соответствующую эмоциям, с которыми Энн произносит то или иное сообщение.

«Не могу описать ту степень удовлетворения, которую мы с коллегами испытываем, видя своими глазами, что наша система работает в реальной жизни», – говорит Эдвард Чанг, нейрохирург из Калифорнийского университета (Сан-Франциско) и один из авторов исследования.

Коллеги по международному сообществу нейробиологов тоже высоко оценили результаты эксперимента. «Это огромный скачок по сравнению с предыдущими результатами», – говорит Ник Рэмси, нейробиолог Утрехтского университета (Нидерланды).

Действительно, если раньше калифорнийским ученым удавалось транслировать внутреннюю речь в письменный текст, то новый проект гораздо более амбициозен. Созданный ими интерфейс позволяет приблизить воспроизводимую речь к речи естественной, а кроме того, воспроизводя голос и мимику, он выходит за рамки чисто вербальной коммуникации и превращает «общение» в общение.

Электроды расположились на тех областях мозга, которые когда-то посылали сигналы гортани, челюстям, губам и языку. Теперь эти сигналы поступают в компьютер искусственному интеллекту, ИИ интегрирует их в звуки и из звуков составляет слова, а цифровой аватар воспроизводит их, сопровождая соответствующей мимикой. Весь этот комплексный процесс происходит хоть и с задержкой, но достаточно быстро, а точность воспроизведения достигает 75%, что очень неплохо для первого эксперимента.

Дизайнеры цифрового аватара сделали его похожим на Энн, а голос был сгенерирован с использованием реального голоса женщины, который сохранился на видеозаписи ее свадьбы задолго до инсульта.

«Такая простая вещь, как возможность услышать свой собственный голос, вызывает огромные эмоции», – говорит Энн.

Ей пришлось долго и упорно работать для того, чтобы натренировать интерфейс на понимание своей речи. Неделями Энн молча повторяла одни и те же слова и фразы для того, чтобы искусственный интеллект смог связать конкретные сигналы с определенными фонемами. В результате этих «тренировок» алгоритм накопил словарный запас в 1024 слова обиходной разговорной речи.

«Она очень целеустремленна и трудолюбива», – говорит о своей пациентке Кайло Литтлджон, один из авторов исследования, отвечавший за его инженерную часть. Энн прекрасно понимает, что ее усилия нужны не только для того, чтобы вернуть себе возможность общения с людьми, но и для других пациентов, оказавшихся в таком же положении из-за болезни или травмы.

Голос для пациентки с БАС

Коллаж. Эдвард Чанг, нейрохирург из Калифорнийского университета (Сан-Франциско), один из авторов исследования — Эдвард Чанг, нейрохирург из Калифорнийского университета (Сан-Франциско), один из авторов исследования

Интересно, что в том же номере журнала Nature, где было опубликовано исследование калифорнийских ученых, появилась еще одна статья на ту же тему. Впрочем, это не совсем совпадение, потому что работа над алгоритмами искусственного интеллекта, которые помогли бы людям преодолеть самые разные формы инвалидности, ведется учеными во многих научных центрах мира довольно активно.

Исследователи Стэнфордского университета помогли обрести голос пациентке с боковым амиотрофическим склерозом (БАС).

Боковой амиотрофический склероз (БАС)

Хроническое дегенеративное заболевание центральной нервной системы. Пациенты страдают прогрессирующим параличом мышц. На определенном этапе у больного возникают трудности с глотанием, разговором или дыханием. Во многих случаях БАС в течение нескольких лет приводит к смерти.

Пэт Беннет 68 лет, и каждое произнесенное слово для нее – это результат напряженной борьбы. Дело в том, что БАС приводит к дегенерации нервных клеток, контролирующих мышцы голосовых связок и лица. В результате Пэт хотя и способна произносить звуки, ее речь звучит нечленораздельно.

Исследователи создали интерфейс, который способен, как и в предыдущем эксперименте, транслировать внутреннюю речь пациентки в осмысленные предложения, например, «я хочу пить», «принесите мне очки».

Девайс, разработанный в Стэнфорде, не такой крутой, как тот, что получила Энн Джонсон, так как он дает лишь текстовую расшифровку мысленной речи Пэт. Тем не менее для нее это огромный прогресс.

Как и в первом случае, имплантированный чип посылает сигналы речевых зон мозга пациентки на компьютер, который обучен декодировать паттерны ее мозговой активности в фонемы, а затем соединяет их в слова и предложения.

Как говорит доктор Джейми Хендерсон, профессор нейрохирургии и руководитель лаборатории Стэнфордского университета, в которой был создан девайс, лингвистическая модель, лежащая в его основе, – это своеобразный автоматический спелл-чекер, который знаком каждому из нас по написанию сообщений в смартфоне. Но, разумеется, созданный учеными спелл-чекер гораздо более изощренный, чем обычный смартфоновский.

Коллаж. Искусственный интеллект дает голос людям, которые не могут говорить

«Он сравнивает варианты слова, произведенные из расшифрованных сигналов, и выбирает тот, который наиболее точно соответствует контексту», – говорит Хендерсон.

Лингвистическая модель имеет вокабуляр в 125 000 слов – в этом она превосходит девайс, используемый Энн. А скорость речи у Пэт с ее девайсом несколько ниже – 60 или чуть более слов в минуту.

При всей продвинутости систем, созданных двумя командами ученых, у них есть определенные недостатки.

Первый – это ошибки в расшифровке. У стэнфордского девайса они возникают в 23% случаев, примерно такая же погрешность у интерфейса, созданного в Калифорнийском университете. На коротких участках речи это не мешает пониманию, но на длинных периодах они накапливаются и начинают затруднять понимание смысла.

Второй недостаток или, скорее, ограничение, связано с тем, что оба эксперимента проводились в лабораториях, а не в реальной жизни. В обоих случаях сигналы мозга передаются на большой и мощный компьютер, однако для того, чтобы девайс стал обыденным, необходимо сделать его портативным.

Это непростая задача, но, если учесть, как стремительно развивается электроника, она не кажется неразрешимой. С физической точки зрения основную тенденцию этого развития можно обозначить так: все большие объемы памяти и все более миниатюрный размер носителя. Разумеется, в этом случае такой портативный прибор должен будет обладать не только памятью, но и весьма сложным функционалом, однако и эта проблема представляется преодолимой.

Возникает и вопрос, сколько будет стоить такая система и по карману ли она среднестатистическому инвалиду. Каждый такой девайс будет, помимо всего прочего, нуждаться в индивидуальной настройке для конкретного пациента, да и хирургическое вмешательство не является с экономической точки зрения самой дешевой процедурой.

Кто будет платить: государство, страховая компания или семья пациента?

Несмотря на все ограничения и вопросы, ученые полны оптимизма.

«Я уверен, что в течение 5–10 лет мы увидим такие системы у пациентов дома», – говорит Хендерсон.

Источники:

Artificial Intelligence Gives Paralyzed Woman Her Voice Back

These experimental brain implants can restore speech to paralyzed patients

Woman With Paralysis Can Speak By Thinking With a Brain Implant and A.I.

Коллажи Дмитрия Петрова

Мы просим подписаться на небольшой, но регулярный платеж в пользу нашего сайта. Милосердие.ru работает благодаря добровольным пожертвованиям наших читателей. На командировки, съемки, зарплаты редакторов, журналистов и техническую поддержку сайта нужны средства.

Наши статьи и новости в Телеграм. Подпишитесь