ПРОДУКТЫ
|
Текстонезависимая идентификация голоса
Обзор
GritTec's Speaker-ID: Automatic Text Independent Speaker Identification (версия 3.00) - технология
текстонезависимой идентификации/верификации дикторов по голосу. Технология предназначена для автоматической
голосовой идентификации или голосовой верификации неизвестной аудиозаписи в отложенном режиме путем парного сравнения с образцами
аудиозаписей известных дикторов.
Разработанный алгоритм идентификации основан на попарном сравнении спектральных характеристик голоса неизвестного
диктора со спектральными характеристиками записи целевого голоса диктора. |

Рис. GritTec Speaker-ID: The mobile client.
|
Вычисление спектральных характеристик выполняется с учетом
динамического определения уровня канальных искажений, внешних помех
и шумов. Это позволяет компенсировать канальные искажения и
воздействия внешних помех при сравнении спектральных характеристик,
вносимых в исходный речевой сигнал. Чувствительность идентификации
определяется уровнем установки порогов вероятности ошибок 1-го (FRR) и 2-го (FAR) рода.
В настоящий момент движек GritTec's Speaker-ID реализован в программном решении с GUI интерфейсом -
GritTec Speaker-ID: The mobile client.
Применение
- Для автоматической идентификации неизвестного голоса по фонограммам телефонных переговоров;
- В системах с повышенным уровнем безопасности, например, компьютерный доступ к информации, доступ к которой ограничен заданным кругом лиц.
Достоинства
- Операции с низким уровнем SNR;
- Быстрая адаптация к канальным искажениям и внешним шумам;
- Минимальная длительность речевого сигнала для получения индивидуальных особенностей голоса – не менее 15 секунд;
- Минимальная длительность речевого сигнала для проведения идентификации или верификации – не менее 7 секунд;
- Надежность идентификации дикторов не менее 90% при сравнении пары речевых сигналов передаваемых по одному и тому же каналу связи;
- Надежность идентификации дикторов не менее 85% при сравнении пары речевых сигналов передаваемых по разным каналам связи;
- Поддержка мульти-потоковой идентификации или мульти-потоковой верификации;
- Простота встраивания в целевое приложение.
Требования к сигналу
- Формат сигнала: 16-bits linear;
- Частота оцифровки: 8 kГц;
- Отношение сигнал-шум (SNR), не менее 10 db;
- Полоса частот сигнала: 300-3400 Гц или лучше.
Доступность
- PC демо движка голосовой идентификации в консольном окне для MS Window;
- Программный комплекс голосовой идентификации на базе:
GritTec Speaker-ID: The mobile client;
- Набор библиотек SDK для Intel x86, x64 платформ (объектный код,
ANSI C++ float point code) по требованию.
|
 |
Достижения
Для оценки точности GritTec's Speaker-ID движка в режиме голосовой верификации использовалось голоса 25 целевых
дикторов (12 - мужчин, 13 - женщин) для английского языка. Каждый целевой диктор
обучался раздельно как для CELL канала, так и для VOIP канала. Общее
количество файлов используемых для обучения было 50, из них 25
файлов - для CELL канала и 25 файлов для VOIP канала. Каждый
обучаемый файл содержал 12 фраз случайного набора цифр (от 0 до 5)
общей длительностью ~ (40-50) секунд.
Общее количество файлов используемых для верификации в CELL и VOIP
каналах было 31950, где 30195 файлов с голосами дикторов обманщиков, и 1755 файлов с голосами целевых дикторов. Каждый
верифицируемый файл содержал 1 фразу случайного набора цифр (от 0 до 6) с общей длительностью ~ (4-6) секунд.
Ниже показаны графики DET кривых и EER (Equal Error Rate) ошибок
результов верификации для CELL и VOIP каналов.
 
EER: 5,96% (обучение на CELL, верификация на CELL);
EER: 7.01% (обучение на CELL, верификация на CELL и VOIP);
EER: 3.91% (обучение на VOIP, верификация на VOIP).
EER: 8.11% (обучение на VOIP, верификация на CELL и VOIP);
 
Все результаты были получены для GritTec's Speaker-ID (Версия 2,90) в сравнение с версией 2,80.
Для дополнительной информации Отправьте запрос.
|
|
|
|