Метод интерпретации результатов измерений параметров речевого сигнала в задачах диагностики психоэмоционального состояния человека по его речи
Аннотация
Предложены структура устройства диагностики и метод интерпретации данных измерений параметров речи, основанный на информационном подходе. Описан алгоритм обучения интерпретирующего устройства на основе принципа максимума информации и приведены результаты экспериментов по обучению. Обсуждены перспективы дальнейших исследований.
Ключевые слова: диагностика, речь, информационный подход, принцип максимума информации.05.11.17 - Приборы, системы и изделия медицинского назначения
05.12.04 - Радиотехника, в том числе системы и устройства радионавигации, радиолокации и телевидения
Диагностика состояния человека находит сегодня все более широкое практическое применение в различных областях медицины, техники, науки и других. Важным частным случаем данного класса задач является диагностика психоэмоционального состояния человека по его речи. В ряде случаев, когда доступен лишь речевой канал связи (диагностика пилотов, диспетчеров), эта задача приобретает первостепенное значение, в других случаях, например, при диагностике психоэмоционального состояния больных в стационаре, аппаратный анализ речи может использоваться как вспомогательный метод диагностики.
Аппаратной диагностике психоэмоционального состояния человека по его речи было посвящено немало работ, краткий обзор некоторых из них приведен в [1]. Можно выделить три ключевых вопроса, которые так или иначе возникают в исследованиях такого рода:
1) какие параметры речевого сигнала следует измерять;
2) каким образом измерить выбранные параметры;
3) как интерпретировать результаты измерений в терминах психоэмоционального состояния человека.
Как правило, в исследованиях основное внимание уделяется первым двум вопросам. Измеряются спектральные [2], временные [3], кепстральные и иные [4] параметры речевого сигнала. В плане техники и методологии измерений параметров достигнуты значительные успехи: так при измерении параметров, воспринимаемых слухом человека (громкость, спектральные и временные характеристики), точность аппаратных измерений может многократно превосходить возможности слуха. В то же время точность диагностики психоэмоционального состояния с помощью аппаратных средств в общем случае не превосходит способности человека к оценке состояния другого человека по его речи. Возможно, это противоречие объясняется несовершенством подходов к решению третьей из указанных выше задач - интерпретации результатов измерений.
Как правило, в исследованиях связь между измеряемыми параметрами речи и параметрами состояния человека априорно считается линейной или приближенно линейной. Такое предположение вызывает определенные сомнения, хотя бы потому, что человеческий организм представляет собой сложную систему, компоненты которой связаны нелинейным образом.
Математический аппарат теории информации предлагает ряд характеристик, отражающих связь (не обязательно линейную) между двумя случайными величинами. К таким характеристикам могут быть отнесены: условная вероятность, совместная вероятность, взаимная информация.
Для интерпретации результатов измерений речевого сигнала в терминах психоэмоционального состояния человека возможно использование совместных вероятностей, отражающих связи между параметрами речи и параметрами состояния человека. Система интерпретации, работающая по такому принципу, не будет ограничена априорным представлением о линейном характере этих взаимосвязей. Для получения совместных вероятностей потребуется предварительное обучение системы.
Структурная схема устройства для диагностики психоэмоционального состояния человека по его речи показана на рис. 1.
Речевой сигнал от источника поступает в измерительный блок. Результаты измерения параметров речи представляются в виде дискретных распределений вероятностей p(Xn) значений этих параметров.
|
Рис.1 Структурная схема системы диагностики психофизиологического состояния человека по его речи |
На рис. 2 представлено распределение на нормированном интервале значений параметра от –1 (минимальное значение параметра) до 1 (максимальное значение параметра).
Рис. 2 Вектор вероятностей значений параметра речи X
Рассмотрим простейший случай, когда измеряется один параметр речи и состояние испытуемого оценивается по одному параметру. Если векторы вероятностей значений параметров речи p(X) и состояния p(Y) содержат, например, по 5 вероятностей, то совместные вероятности значений параметров речи и состояния будут описываться матрицей p(X,Y), содержащей 5х5 элементов.
Для определения вектора p(Y) по вектору p(X) и матрице p(X,Y) следует произвести расчет по формуле:
p(yj)=.
Например, расчет для матрицы
и вектора
p(X)=(0,1 0,2 0,3 0,3 0,1)
даст вектор
p(Y)=(0,1 0,3 0,3 0,2 0,1),
что интуитивно понятно.
Решающее устройство при постановке диагноза может использовать характеристики распределения p(Y): математическое ожидание, моду, дисперсию и другие.
Обязательным условием нормальной работы устройства диагностики является, как было указано выше, предварительное обучение блока интерпретации. В режиме обучения блок интерпретации должен работать с двумя входами: на один подается вектор p(X) от блока измерений, на другой – вектор p(Y), полученный каким-либо достаточно точным методом диагностики психоэмоционального состояния.
На основе выборки, содержащей достаточное количество пар векторов p(X) и p(Y), интерпретирующее устройство должно получить матрицу совместных вероятностей p(X,Y), достаточно точно отражающих связи между параметром речи X и параметром состояния Y. Для организации эффективного обучения (компромисс между качеством обучения и объемом выборки) удачной представляется возможность имитации процесса обучения биологического организма.
Г.А. Голицын в ряде работ, в частности, [5] предложил и обосновал наиболее общий принцип восприятия и обработки информации живыми существами – принцип максимума информации: в процессах эволюции, адаптации, развития, научения, поведения, восприятия, распознавания образов, решения задач система выбирает такие реакции, которые обеспечивают максимум средней взаимной информации с заданными условиями среды.
Таким образом, имитируя процесс обучения биологического организма, устройство интерпретации должно при восприятии пар векторов p(X), p(Y) изменять вероятности p(X,Y) таким образом, чтобы максимизировать количество средней взаимной информации:
I(X,Y)=log2.
Для обеспечения указанных условий был предложен следующий алгоритм:
1) определение мод распределений p(X), p(Y);
2) обнуление во входных векторах всех вероятностей, меньших, чем вероятности мод p(xм,j), p(yм,k);
3) изменение вероятностей p(xм,j, yм,k) по закону
=aj,k(p(xм,j)p(yм,k) – p(xм,j, yм,k)),
где aj,k – коэффициент «внимания» системы к паре вероятностей p(xм,j), p(yм,k). Для обеспечения принципа максимума информации внимание должно изменяться по закону:
aj,k=
Пока с изменением данной вероятности p(xм,j, yм,k) количество средней взаимной информации не убывает, коэффициент aj,k максимален. Как только количество средней взаимной информации с изменением данной вероятности p(xм,j, yм,k) начинает убывать, коэффициент aj,k приравнивается к нулю.
Моделирование процесса обучения показало, что в ряде случаев для качественного обучения устройства интерпретации (формирования матрицы вероятностей p(X,Y), достаточно хорошо описывающей взаимосвязи параметров X и Y) достаточно было выборки из 50 и менее пар векторов p(X), p(Y). Пример результатов эксперимента по обучению устройства интерпретации приведен на рис. 3.
Рис. 3 Пример результатов эксперимента по обучению устройства интерпретации.
На рис. 3 матрица вероятностей описывает заданную по условиям эксперимента статистическую связь между параметром речи X и параметром состояния испытуемого Y. Целевая функция – средняя взаимная информация I(X,Y). Матрица памяти устройства интерпретации представлена на момент окончания эксперимента. Количество предъявленных пар векторов p(X), p(Y) равнялось 50, каждый из векторов был получен на основе 10 случайных значений параметров, распределение параметров – усеченное нормальное, СКО в диапазоне 0,2…0,6 (нормированные единицы).
По двум графикам вверху видно, что матрица памяти достаточно хорошо отражает взаимосвязь параметров. Графики внизу рисунка демонстрируют действие принципа максимума информации при обучении: пары векторов p(X), p(Y), способные уточнить «представления» системы о взаимосвязи параметра речи и параметра состояния испытуемого, воспринимались относительно долго и приводили к существенному росту целевой функции, в то время, как пары векторов p(X), p(Y), не уточнявшие или противоречащие уже сформированным на данный момент «представлениям» системы, воспринимались непродолжительное время. Также по графикам внизу рис. 3 видно, что восприятие прекращалось как только целевая функция (средняя взаимная информация) переставала возрастать: после нуля производной целевой функции следует всплеск, соответствующий началу восприятия следующей пары векторов p(X), p(Y).
При переходе от двумерного случая (один параметр речи и один параметр состояния) к многомерному задача обучения усложняется. Известно несколько подходов.
В работе [6] предложено выражение для расчета средней взаимной информации для N случайных величин:
I(X1,X2,…,XN)= ,
где через X1…Xj – параметры речи, Xj…XN – параметры состояния;
произведения вычисляются по всем возможным комбинациям различных подстрочных индексов.
Очевидным недостатком данного выражения являются высокие вычислительные затраты при расчетах с большим количеством параметров. Достоинством является наиболее полное отображение взаимосвязей между всеми (входными, выходными, входными и выходными) параметрами.
В работе [5] предложено производить попарную аппроксимацию многомерной таблицы совместных вероятностей p(xi1,…,xin,yj1,…,yjm). Попарная аппроксимация заключается в рассмотрении двумерных таблиц совместных вероятностей p(xi1, ,yj1),p(xi1, ,yj2),…,p(xin, ,yjm) вместо многомерной таблицы p(xi1,…,xin,yj1,…,yjm). Для расчета средней взаимной информации при этом используется приближенная формула:
I(X,Y)
В принципе возможно использование и совместных вероятностей p(xi,,xj), p(yi,,yj) – это может повысить качество интерпретации при работе с противоречивыми результатами измерений.
Достоинством второго подхода является простота расчета средней взаимной информации, однако получение «попарных» совместных вероятностей из исходной многомерной таблицы также требует некоторых вычислительных затрат.
Результаты экспериментов показали, что подход к интерпретации данных измерений параметров речи, основанный на теории информации и принципе максимума информации перспективен, т.к. позволяет произвести качественное обучение устройства интерпретации на малой выборке данных. Кроме того, описанное устройство интерпретации допускает работу в режиме самообучения, что позволит повышать качество диагностики в ходе эксплуатации.
Литература:
- 1.Есин, И.Б. К вопросу о возможности идентификации эмоций человека через голос [Текст] / Есин, И.Б. // Юрид.психология. – 2008. – №1.– С.20–24.
2.Галунов, В.И. О возможности определения эмоционального состояния говорящего по речи [Текст] / Галунов, В.И. // Речевые технологии. – 2008. – №1. – С.60–67.
3.Фролов, М.В. Диагностика функциональных и депрессивных состояний по характеристикам интонации и временного потока речи [Текст] / М.В. Фролов и др. // Биомедицинские технологии и радиоэлектроника №12, 2004. С.8-16.
4.Старченко И.Б., Тимошенко В.И. Стохастические и динамические модели в акустике и биомедицине. [Текст]/ Старченко И.Б., Тимошенко В.И. – Ростов н/Д: РостИздат, 2007. – 320 c. – ISBN 5-7509-1234-5.
5.Голицын Г.А. Информация и творчество: на пути к интегральной культуре [Текст] / Голицын Г.А.– М.: «Русский мир», 1997. – 304 с. Фано Р. Передача информации. Статистическая теория связи [Текст]/ Фано Р. – М.: «Мир», 1965. – 720 с.