Авезов, Сухроб (2026) СОПОСТАВИТЕЛЬНЫЙ АНАЛИЗ РЕЗУЛЬТАТОВ ДОБУЧЕНИЯ МОДЕЛЕЙ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ УЗБЕКСКОГО ЯЗЫКА. Scientific and innovative research in the social and humanitarian sphere, 3 (4). pp. 329-225. ISSN 3060-5059
fulltext.pdf
Download (947kB) | Preview
Abstract
В статье проведён сопоставительный анализ десяти моделей автоматического распознавания речи (ASR) применительно к узбекскому языку, относящемуся к категории малоресурсных. Рассмотрены архитектуры Whisper, Wav2Vec 2.0 XLSR-53, XLS-R, HuBERT, Conformer, MMS, DeepSpeech2, NeMo Conformer и w2v-BERT 2.0. Проведена серия экспериментов по добучению (fine-tuning) предобученных моделей на корпусе узбекской речи объёмом 120 часов. Оценка качества выполнена по метрике WER (Word Error Rate). Результаты показывают, что добученная модель w2v-BERT 2.0 демонстрирует наименьший показатель WER (13,8%), а Whisper large-v3 после добучения достигает 12,4%. Выявлены специфические трудности обработки узбекской речи, связанные с агглютинативной морфологией, вариативностью фонетической реализации и ограниченностью размеченных данных.
| Item Type: | Article |
|---|---|
| Date Deposited: | 10 May 2026 20:55 |
| Last Modified: | 10 May 2026 20:55 |
| URI: | https://arxiv.publishscience.uz/id/eprint/782 |
