|  
Главная | Карта сайта | Контакты

| Продукты | Решения | Новости | Технологии | Компания | Демонстрации | Купить

  ПРОДУКТЫ

 

 


Текстонезависимая идентификация голоса


  Загрузить Online
  Загрузить SDK
Datasheet (34 Kb)
Демоверсия в консольном окне (21 Mb)
Демоверсия с GUI интерфейсом - GritTec Speaker-ID: The mobile client
Описание Поставки
Описание API (100 Kb)
Full SDK для Intel x86/x64 (74 Mb)
High Level SDK для Intel x86/x64 (60 Mb)

Обзор

GritTec's Speaker-ID: Automatic Text Independent Speaker Identification (версия 3.00) - технология текстонезависимой идентификации/верификации дикторов по голосу. Технология предназначена для автоматической голосовой идентификации или голосовой верификации неизвестной аудиозаписи в отложенном режиме путем парного сравнения с образцами аудиозаписей известных дикторов.

Разработанный алгоритм идентификации основан на попарном сравнении спектральных характеристик голоса неизвестного диктора со спектральными характеристиками записи целевого голоса диктора.


Рис. GritTec Speaker-ID: The mobile client.

Вычисление спектральных характеристик выполняется с учетом динамического определения уровня канальных искажений, внешних помех и шумов. Это позволяет компенсировать канальные искажения и воздействия внешних помех при сравнении спектральных характеристик, вносимых в исходный речевой сигнал. Чувствительность идентификации определяется уровнем установки порогов вероятности ошибок 1-го (FRR) и 2-го (FAR) рода.
  В настоящий момент движек GritTec's Speaker-ID реализован в программном решении с GUI интерфейсом - GritTec Speaker-ID: The mobile client.

Применение
  • Для автоматической идентификации неизвестного голоса по фонограммам телефонных переговоров;
  • В системах с повышенным уровнем безопасности, например, компьютерный доступ к информации, доступ к которой ограничен заданным кругом лиц.

Достоинства
  • Операции с низким уровнем SNR;
  • Быстрая адаптация к канальным искажениям и внешним шумам;
  • Минимальная длительность речевого сигнала для получения индивидуальных особенностей голоса – не менее 15 секунд;
  • Минимальная длительность речевого сигнала для проведения идентификации или верификации – не менее 7 секунд;
  • Надежность идентификации дикторов не менее 90% при сравнении пары речевых сигналов передаваемых по одному и тому же каналу связи;
  • Надежность идентификации дикторов не менее 85% при сравнении пары речевых сигналов передаваемых по разным каналам связи;
  • Поддержка мульти-потоковой идентификации или мульти-потоковой верификации;
  • Простота встраивания в целевое приложение.
 
Требования к сигналу
  • Формат сигнала: 16-bits linear;
  • Частота оцифровки: 8 kГц;
  • Отношение сигнал-шум (SNR), не менее 10 db;
  • Полоса частот сигнала: 300-3400 Гц или лучше.

Доступность
  • PC демо движка голосовой идентификации в консольном окне для MS Window;
  • Программный комплекс голосовой идентификации на базе: GritTec Speaker-ID: The mobile client;
  • Набор библиотек SDK для Intel x86, x64 платформ (объектный код, ANSI C++ float point code) по требованию.

Достижения

Для оценки точности GritTec's Speaker-ID движка в режиме голосовой верификации использовалось голоса 25 целевых дикторов (12 - мужчин, 13 - женщин) для английского языка. Каждый целевой диктор обучался раздельно как для CELL канала, так и для VOIP канала. Общее количество файлов используемых для обучения было 50, из них 25 файлов - для CELL канала и 25 файлов для VOIP канала. Каждый обучаемый файл содержал 12 фраз случайного набора цифр (от 0 до 5) общей длительностью ~ (40-50) секунд.

Общее количество файлов используемых для верификации в CELL и VOIP каналах было 31950, где 30195 файлов с голосами дикторов обманщиков, и 1755 файлов с голосами целевых дикторов. Каждый верифицируемый файл содержал 1 фразу случайного набора цифр (от 0 до 6) с общей длительностью ~ (4-6) секунд.

Ниже показаны графики DET кривых и EER (Equal Error Rate) ошибок результов верификации для CELL и VOIP каналов.

     EER: 5,96% (обучение на CELL, верификация на CELL);
     EER: 7.01% (обучение на CELL, верификация на CELL и VOIP);
     EER: 3.91% (обучение на VOIP, верификация на VOIP).
     EER: 8.11% (обучение на VOIP, верификация на CELL и VOIP);


Все результаты были получены для GritTec's Speaker-ID (Версия 2,90) в сравнение с версией 2,80.

Для дополнительной информации Отправьте запрос.