СОПОСТАВИТЕЛЬНЫЙ АНАЛИЗ РЕЗУЛЬТАТОВ ДОБУЧЕНИЯ МОДЕЛЕЙ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ УЗБЕКСКОГО ЯЗЫКА

Авезов, Сухроб (2026) СОПОСТАВИТЕЛЬНЫЙ АНАЛИЗ РЕЗУЛЬТАТОВ ДОБУЧЕНИЯ МОДЕЛЕЙ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ УЗБЕКСКОГО ЯЗЫКА. Scientific and innovative research in the social and humanitarian sphere, 3 (4). pp. 329-225. ISSN 3060-5059

[thumbnail of fulltext.pdf]
Preview
PDF
fulltext.pdf

Download (947kB) | Preview

Abstract

В статье проведён сопоставительный анализ десяти моделей автоматического распознавания речи (ASR) применительно к узбекскому языку, относящемуся к категории малоресурсных. Рассмотрены архитектуры Whisper, Wav2Vec 2.0 XLSR-53, XLS-R, HuBERT, Conformer, MMS, DeepSpeech2, NeMo Conformer и w2v-BERT 2.0. Проведена серия экспериментов по добучению (fine-tuning) предобученных моделей на корпусе узбекской речи объёмом 120 часов. Оценка качества выполнена по метрике WER (Word Error Rate). Результаты показывают, что добученная модель w2v-BERT 2.0 демонстрирует наименьший показатель WER (13,8%), а Whisper large-v3 после добучения достигает 12,4%. Выявлены специфические трудности обработки узбекской речи, связанные с агглютинативной морфологией, вариативностью фонетической реализации и ограниченностью размеченных данных.

Item Type: Article
Date Deposited: 10 May 2026 20:55
Last Modified: 10 May 2026 20:55
URI: https://arxiv.publishscience.uz/id/eprint/782

Actions (login required)

View Item
View Item