МЕТОДИ ПІДВИЩЕННЯ ЯКОСТІ ПЕРЕТВОРЕННЯ МОВИ НА ТЕКСТ В СИСТЕМАХ БІОМЕТРИЧНОЇ АУТЕНТИФІКАЦІЇ
No Thumbnail Available
Date
2023
Journal Title
Journal ISSN
Volume Title
Publisher
Відкритий міжнародний університет розвитку людини «Україна»
Abstract
У статті розглянуто методи та алгоритми перетворення мови на текст, сучасні відкриті та комерційні системи для створення систем, а також використання цих технологій у сфері кібербезпеки. Пропонується створити систему перетворення мови на текст високої якості. Проведено аналіз математичних алгоритмів, які використовуються для скорочення коефіцієнта помилок, що дає змогу створювати унікальні голосові відбитки та підвищити захист від підроблення. Описана структура сучасних систем перетворення мови на текст. Внаслідок зміни дата сетів, параметрів прихованих Марківських моделей, якісного словника фонем, використання мовних моделей існує можливість зменшити процент помилок при розпізнаванні мови, також використання системи для багатомовності типу “Суржик”. Розглянуто математичні методи оцінки якості системи перетворення мови на текст(WER), а також різні методи розрахунку, що важливо для їхнього подальшого вдосконалення і оптимізації. Розглянуто структуру сучасних систем, а саме попередня обробка сигналу, витягування ознак, акустичне моделювання, моделювання мови, декодування, пост-обробка. Для кожного з этапів запропоновані вектори дослідження, які можуть зменшити коефіцієнт помилок системи в цілому. Зменшення помилок розпізнавання мови та можливості підробити голос досягається за допомогою різних методів: глибокі нейронні мережі, приховані Марківські моделі, алгоритм Баума-Велша, N-gram моделі, Моделі з увагою, створення якісного словника фонем, датасету, філерів. Технологія перетворення мови в текст може бути використана в системах біометричної аутентифікації для виявлення та аналізу унікальних особливостей голосу користувача. Однак сучасні системи перетворення мови на текст для української, російської та “суржику” потребує вдосконалення, як акустичного, так і мовного блоку. Наукові роботи, які присвячені дослідженню та оптимізації цих систем для біометричної аутентифікації, не повною мірою висвітлюють ці питання. Це стало приводом для подальшого дослідження в цьому напрямку, тому метою цієї роботи є розробка системи розпізнавання мови з мінімальним коефіцієнтом помилок.
The article discusses the methods and algorithms of speech-to-text conversion, modern open and commercial systems for creating systems, as well as the use of these technologies in the field of cyber security. It is proposed to create a high-quality speech-to-text conversion system. An analysis of the mathematical algorithms used to reduce the error rate, which makes it possible to create unique voice prints and increase protection against forgery, has been carried out. The structure of modern speech-to-text conversion systems is described. By changing datasets, parameters of hidden Markov models, a high-quality dictionary of phonemes, and the use of language models, there is an opportunity to reduce the percentage of errors in language recognition, as well as the use of a system for multilingualism such as "surzhyk". The mathematical methods of assessing the quality of the system of speech to text (WER), as well as various methods of calculation, which is important for their further improvement and optimization, are considered. The structure of modern systems is considered, namely, signal pre-processing, feature extraction, acoustic modeling, speech modeling, decoding, post-processing. For each of the stages, study vectors have been proposed that can reduce the error rate of the system as a whole. Reducing speech recognition errors and the ability to fake a voice is achieved using various methods: deep neural networks, hidden Markov models, Baum-Welch algorithm, N-gram models, models with attention, creation of a high-quality phonemes dictionary, dataset, and fillers. Speech-to-text conversion technology can be used in biometric authentication systems to detect and analyze the unique features of the user's voice. However, modern speech-to-text conversion systems for Ukrainian, Russian, and "surzhyk" need improvement in acoustic and language units. Scientific works, which are devoted to research and optimization of these systems for biometric authentication, do not fully cover these issues. This became the reason for further research in this direction, so this work aims to create a speech recognition system with a minimum error rate.
Description
Методи підвищення якості перетворення мови на текст в системах біометричної аутентифікації / В. В. Корчинський, С. В. Стайкуца, І. В. Виноградов [та ін.] // Інфокомунікаційні та комп’ютерні технології. 2023. №1(05), С. 114-122.
Keywords
перетворення мови на текст, мовні моделі, моделі прихованого марківського процесу, захист інформації, біометрична аутентифікація, speech-to-text conversion, language models, hidden Markov process models, information protection, biometric authentication