3 способи розшифровки диктофонного запису: розпізнавання мови, диктування, ручний режим

1. Автоматичне розпізнавання мови
2. Напівавтоматичне розпізнавання мови
3. Розшифровка диктофонного запису в ручному режимі

У «Фейсбуці» нам задали питання: «Для роботи з текстом мені потрібно розшифрувати 3 години диктофонного запису

У «Фейсбуці» нам задали питання:
«Для роботи з текстом мені потрібно розшифрувати 3 години диктофонного запису. Пробував завантажити аудіофайл з картинкою в YouTube і скористатися їх розшифровують тексту, але виходить якась абракадабра. Підкажіть, як можна вирішити це технічно? Дякуємо!
Олександр Коновалов »

Олександр, просте технічне рішення є - але результат буде залежати виключно від якості вашої запису. Поясню, про яку якість мова.

За останні роки технології розпізнавання російської мови сильно просунулися вперед. Відсоток помилок розпізнавання знизився до такого рівня, що інший текст стало простіше «наговорити» в спеціальному мобільному додатку або інтернет-сервісі, відкоригувавши вручну окремі «очепятки» - чим цілком набирати весь текст на клавіатурі.

Але, щоб штучний інтелект системи розпізнавання зміг виконати свою роботу - користувач повинен виконати свою. А саме: говорити в мікрофон чітко і розмірено, уникати сильних фонових шумів, по можливості використовувати стереогарнитуру або виносний мікрофон, прикріплений до петлиці (для якості розпізнавання важливо, щоб мікрофон весь час перебував на одній відстані від губ, а ви самі говорили з однаковою гучністю ). Природно, чим вище клас аудіо - тим краще.

Нескладно дотримуватися цих умов, якщо ви, замість того, щоб звертатися до інтернет-сервісу розпізнавання мови безпосередньо, застосовуєте в якості проміжного пристрою-посередника диктофон. До слова, такий «персональний секретар» особливо незамінний, коли у вас немає доступу до онлайну. Природно, краще використовувати хоча б недорогий професійний диктофон, ніж записуючий пристрій, вбудоване в дешевий mp3-плеєр або смартфон. Це дасть набагато більше шансів «згодувати» отримані записи сервісу розпізнавання мови.

Складно, але можна вмовити дотримуватися цих правил співрозмовника, у якого ви берете інтерв'ю (ще одна порада: якщо у вас немає в комплекті виносного мікрофона на прищіпки - хоча б тримайте диктофон поруч зі співрозмовником, а не з собою).

А ось «законспектувати» на потрібному рівні в автоматичному режимі конференцію або семінар - справа, на мій погляд, практично нереальне (адже ви не зможете контролювати мова спікерів і реакцію слухачів). Хоча досить цікавий варіант: перетворення в текст професійно записаних аудіолекцій і аудіокниг (якщо на них не накладалася фонова музика і шуми).

Будемо сподіватися, що якість вашої диктофонного запису - досить висока, щоб її вдалося розшифрувати в автоматичному режимі.

Якщо ж ні - практично при будь-якій якості запису ви зможете провести розшифровку в напівавтоматичному режимі.

Крім того, в ряді ситуацій найбільшу економію часу і сил вам принесе, як не парадоксально, розшифровка в ручному режимі. Точніше, той її варіант, який сам я використовую вже з десяток років. 🙂

Отже, по порядку.

1. Автоматичне розпізнавання мови

Багато радять розшифровувати диктофонні записи на YouTube. Але цей метод змушує користувача витрачати час на етапі завантаження аудіофайлу і фонової картинки, а потім - в ході очищення підсумкового тексту від міток часу. Тим часом, цей час нескладно заощадити. 🙂

Ви можете розпізнавати аудіозаписи прямо зі свого комп'ютера, скориставшись можливостями одного з інтернет-сервісів, що працюють на движку розпізнавання Google (рекомендую Speechpad.ru або Speechlogger.com ). Все, що потрібно - зробити маленький трюк: замість вашого голосу, відтвореного з мікрофона, перенаправити на сервіс аудиопоток, відтворений вашим комп'ютерним програвачем.

Цей трюк називається програмним стерео мікшером (його зазвичай застосовують для запису музики на комп'ютері або її трансляції з комп'ютера в інтернет).

Стерео мікшер входив до складу Windows XP - але був видалений розробниками з пізніших версій цієї операційної системи (кажуть, в цілях захисту авторських прав: щоб геймери НЕ крали музику з ігор і т.п.). Однак стерео мікшер нерідко поставляється разом з драйверами аудіокарт (наприклад, карт Realtec, вбудованих в материнську плату). Якщо ви не знайдете стерео мікшер на своєму ПК за допомогою пропонованих нижче скріншотів - спробуйте перевстановити аудіодрайвер з CD-диска, який йшов в комплекті з материнською платою - або з сайту її виробника.

Якщо і це не допоможе - встановіть на комп'ютер альтернативну програму. Наприклад - безкоштовний VB-CABLE Virtual Audio Device : Використовувати його рекомендує власник вищезгаданого сервісу Speechpad.ru.

Першим кроком ви повинні відключити для використання в режимі запису мікрофон і включити замість нього стерео мікшер (або віртуальний VB-CABLE).

Для цього натисніть по іконці гучномовця в правому нижньому кутку (біля годинника) - або виберіть розділ «Звук» в «Панелі управління». У вкладці «Запис» вікна клацніть правою кнопкою миші і поставте пташки навпроти пунктів «Показати відключені пристрої» і «Показати від'єднані пристрої». Натисніть правою кнопкою по іконі мікрофона і виберіть пункт «Відключити» (взагалі, вимкніть всі пристрої, відмічені зеленим значком).

Натисніть правою кнопкою по іконі стерео мікшера і виберіть пункт «Включити». На іконі з'явиться зелений значок, що буде означати, що стерео мікшер став пристроєм за замовчуванням.

Якщо ви вирішили використовувати VB-CABLE - то тим же способом включите його у вкладці «Запис».

А також - у вкладці «Відтворення».

Другий крок. Увімкніть аудіозапис в будь-якому програвачі (якщо потрібно розшифрувати аудіодоріжку відеоролика - можна запустити і відеоплеєр). Паралельно завантажте в браузері Chrome сервіс Speechpad.ru і натисніть в ньому кнопку «Включити запис». Якщо запис досить високої якості, ви побачите, як сервіс на очах перетворює мова в осмислений і близький до оригіналу текст. Правда, без розділових знаків, які вам доведеться розставити самостійно.

Як аудіопрогравачем раджу використовувати AIMP, про який буде докладніше розказано в третій подглавке. Зараз лише зазначу, що цей плеєр дозволяє сповільнити запис без спотворень мови, а також виправити деякі інші похибки. Це може дещо поліпшити розпізнавання не дуже якісного запису. (Іноді навіть радять попередньо піддавати погані записи обробці в професійних програмах редагування звуку. Однак, на мій погляд, це дуже трудомістка задача для більшості користувачів, які набагато швидше наберуть текст вручну. 🙂)

2. Напівавтоматичне розпізнавання мови

Тут все просто. Якщо запис неякісна і розпізнавання «захлинається» або сервіс видає занадто багато помилок - допоможіть справі самі, «вбудувавшись» в ланцюжок: «аудіоплеєр - диктор - система розпізнавання».

Ваше завдання: прослуховувати в навушниках записану мова - і паралельно диктувати її через мікрофон інтернет-сервісу розпізнавання. (Природно, вам не потрібно, як в попередньому розділі, перемикатися в списку записуючих пристроїв з мікрофона на стерео мікшер або віртуальний кабель). А в якості альтернативи згадуваним вище інтернет-сервісів можете використовувати смартфони програми на кшталт безкоштовної «Яндекс.Діктовкі» або функцію диктування в iPhone з операційною системою iOS 8 і вище.

Зазначу, що в напівавтоматичному режимі ви маєте можливість відразу диктувати знаки пунктуації, розставляти які в автоматичному режимі сервіси поки не здатні.

Якщо у вас вийде диктувати синхронно з відтворенням запису на плеєрі - попередня розшифровка займе практично стільки ж часу, скільки і сам запис (не рахуючи наступних витрат часу на виправлення орфографічних і граматичних помилок). Але навіть робота по схемі: «прослухати фразу - надиктувати - прослухати фразу - надиктувати», - може вам дати непогану економію часу в порівнянні з традиційним набором тексту.

Як аудиоплеера рекомендую використовувати той же AIMP. По-перше, з його допомогою ви можете уповільнити відтворення до швидкості, на якій вам буде комфортно працювати в режимі синхронної диктування. По-друге, цей плеєр вміє повертати запис на задану кількість секунд: це буває необхідно, щоб краще розчути нерозбірливу фразу.

3. Розшифровка диктофонного запису в ручному режимі

Ви можете встановити на практиці, що занадто швидко втомлюєтеся від диктування в напівавтоматичному режимі. Або робите разом з сервісом занадто багато помилок. Або, завдяки навичкам швидкого набору, набагато легше створюєте готовий виправлений текст на клавіатурі, ніж за допомогою диктування. Або ваш диктофон, мікрофон на стереогарнітурі, аудіокарта не забезпечують прийнятне для сервісу якість звуку. А може, у вас просто немає можливості диктувати вголос в своєму робочому або домашньому офісі.

У всіх цих випадках вам допоможе мій фірмовий спосіб розшифровки вручну (прослухуєте запис в AIMP - набираєте текст в Word). З його допомогою ви перетворите запис в текст швидше, ніж це зроблять багато професійних журналістів, чия швидкість набору на клавіатурі аналогічна вашої! При цьому ви витратите набагато менше, ніж вони, сил і нервів. 🙂

Через що, в основному, губляться сили і час в ході розшифровки аудіозаписів традиційним способом? Через те, що користувач робить дуже багато зайвих рухів.

Користувач постійно простягає руку то до диктофона, то до клавіатури комп'ютера. Зупинив відтворення - набрав прослуханий уривок в текстовому редакторі - знову включив відтворення - відмотав нерозбірливу запис назад - і т.д., і т.п.

Використання звичайного програмного плеєра на комп'ютері мало полегшує процес: користувачеві доводиться постійно згортати / розгортати Word, зупиняти / запускати плеєр, та ще елозить туди-сюди слайдером плеєра, щоб знайти нерозбірливий фрагмент, а потім повернутися до останнього прослуханого місця в запису.

Щоб скоротити ці та інші втрати часу, спеціалізовані IT-компанії розробляють програмні і апаратні транскрайбери. Це досить дорогі рішення для професіоналів - тих же журналістів, судових стенографістів, слідчих і т.д. Але, власне, для наших цілей потрібні тільки дві функції:

можливість сповільнити відтворення диктофонного запису без її спотворення і пониження тону (уповільнити швидкість відтворення дозволяють багато плеєри - але, на жаль, при цьому людський голос перетворюється в монструозної голос робота, який складно сприймати на слух тривалий час);
можливість зупинити запис або відкотити її на задану кількість секунд і повернути назад, не зупиняючи набір тексту і не звертаючи вікно текстового редактора.

Свого часу я протестував десятки аудиопрограмм - і знайшов лише два доступних платних додатки, що відповідають цим вимогам. Придбав одне з них. Пошукав ще трохи для своїх дорогих читачів 🙂 - і знайшов чудове безкоштовне рішення - програвач AIMP , Яким сам користуюся до сих пір.

Далі просто процитую уривок зі свого віддаленого ЖЖ (що б я робив, якби його не збереглося інтернет 🙂).

«Увійшовши в налаштування AIMP, знайдіть розділ Глобальні клавіші і перенастройте Стоп / Пуск на клавішу Ескейп (Esc). Повірте, це найбільш зручно, оскільки не доведеться замислюватися і палець не потрапить випадково на інші клавіші. Пункти «Трохи перейти назад» і «Трохи перейти вперед» налаштуйте, відповідно, на клавіші Ctrl + клавіші курсора назад / вперед (у вас на клавіатурі є чотири клавіші зі стрілками - виберіть дві з них). Ця функція потрібна, щоб заново прослухати останній фрагмент або перейти трохи вперед.

Потім, викликавши еквалайзер, ви можете зменшити значення «Швидкість» та «Темп» - і збільшити значення «Пітч». При цьому Ви помітите, що швидкість відтворення сповільниться, але висота голосу (якщо добре підберете значення «Пітч») - не зміниться. Підберіть ці два параметри так, щоб ви практично синхронно встигали набирати текст, лише зрідка зупиняючи його.

Коли все буде налаштовано, набір буде займати у вас менше часу, і руки будуть втомлюватися менше. Ви зможете розшифровувати аудіозапис спокійно і комфортно, практично не відриваючи пальців від набору тексту на клавіатурі ».

Можу тільки додати до сказаного, що, якщо запис не надто якісна - ви можете спробувати поліпшити її відтворення, експериментуючи з іншими настройками в «Менеджері звукових ефектів» AIMP.

А кількість секунд, на яке вам буде найзручніше переміщатися по запису назад або вперед за допомогою гарячих клавіш - встановіть в розділі «Плеєр» вікна «Налаштування» (яке можна викликати натисканням гарячих клавіш «Ctrl + P»).

Бажаю заощадити більше часу на рутинних завданнях - і плідно використовувати його для головних справ! 🙂 І не забудьте включити мікрофон в списку записуючих пристроїв, коли зберетеся поговорити по скайпу! 😉

Підкажіть, як можна вирішити це технічно?

Статьи

3 способи розшифровки диктофонного запису: розпізнавання мови, диктування, ручний режим

1. Автоматичне розпізнавання мови

2. Напівавтоматичне розпізнавання мови

3. Розшифровка диктофонного запису в ручному режимі

Новости