
Команда Mozilla Ocho, яка займається розробкою експериментальних функцій для браузера Firefox, працює над новою технологією локального перекладу аудіо в текст. Ця технологія отримала назву Whisperfile і базується на моделі машинного навчання Whisper від OpenAI.
Whisperfile дозволяє не лише розшифровувати аудіо, але й перекладати його на англійську мову. Завдяки вбудованій нейромережі, система може працювати на різних операційних системах, включаючи Linux, MacOS, Windows, FreeBSD, NetBSD (AMD64 та ARM64) і OpenBSD.
Whisperfile підтримує аудіоформати WAV, MP3, OGG та FLAC, генеруючи на виході текст, який можна зберегти або використовувати далі. Для оптимізації роботи доступна опція використання GPU, що знижує навантаження на процесор. Крім того, система має функцію перевірки точності розпізнаних слів, які відображаються кольоровим маркуванням – від червоного (погано) до зеленого (відмінно).
Код проекту, документація та всі необхідні інструменти для запуску доступні на платформі Hugging Face.