Как управлять компьютером при помощи голосовых команд?
Papa-jobs.ru

Ремонт телефонов

Как управлять компьютером при помощи голосовых команд?

Как настроить голосовое управление компьютером

Существует несколько причин, по которым пользователи не могут управлять компьютером с помощью штатных средств — клавиатуры и мыши. Во-первых, это может быть связано с поломкой названных устройств. Во-вторых, такая необходимость возникает у людей с ограниченными возможностями. И наконец, в-третьих, пользователи просто хотят как-то облегчить себе задачу работы с компьютером, отдавая ему команды голосом.

Голосовое управление компьютером выполняется при помощи специального программного обеспечения.

ОС Windows располагает штатным приложением распознавания речи, но к сожалению, оно не поддерживает русский язык, а только — английский, французский, испанский, немецкий, японский и китайский.

Если интерфейс вашего дистрибутива Windows рассчитан для носителей одного из вышеперечисленных языков и, конечно, вы говорите на нём, тогда вы сможете использовать штатную программу распознавания речи. Для этого нужно проделать 3 шага: настроить микрофон, пройти несложный учебный курс по управлению компьютером при помощи голоса (он также включен в Windows) и настроить саму программу распознавания речи.

Чтобы сделать это, необходимо (описание разделов ОС будет вестись на русском языке):

  • В меню «Пуск» находим раздел «Панель управления» и открываем его. Далее ищем «Распознавание речи».
  • Чтобы начать настройку микрофона, зайдите в соответствующий раздел — «Настройка микрофона». Запуститься мастер, который поможет вам произвести необходимые настройки.
  • Теперь необходимо запустить учебник. Для этого также заходим в раздел «Распознавание речи», а затем запускаем команду «Использование речевых учебников». Снова следуйте инструкциям мастера.
  • Для настройки программы распознавания речи следует запустить команду «Научите компьютер лучше понимать вас» в том же разделе «Специальные возможности» панели управления. По окончанию процедур вы сможете использовать ваш микрофон в качестве средства для управления компьютером.

А что же делать русскоязычным пользователям Windows? К счастью, выход есть — использование сторонних программ. Подобных приложений существует множество — и платных, и бесплатных. Среди всех приложений для голосового управления компьютером с системой Windows особенно выделяется Typle. О ней и пойдёт речь далее.

Управление компьютером с помощью Typle

По мнению большинства пользователей, кто предпочитает управлять компьютером при помощи голоса, программа Typle является одной из самых лучших (если не самой лучшей).

Это небольшое по размеру приложение способно не только выполнять команды, имеющиеся в её базе данных, но и поддерживает создание пользовательских. Именно последнее особенно ценится в этом приложении.

Программа распространяется бесплатно, но в бесплатной версии имеются ограничения по созданию пользовательских команд. Однако этих возможностей вполне достаточно для штатного пользователя.

Итак, скачиваем и устанавливаем программу. При первом запуске приложение попросит ввести некоторые личные данные — в эти поля вы можете указать любые символы. Затем вам предстоит выбрать лицензию — выбирайте первый вариант из 3-х предложенных (пока все надписи будут на английском языке) и нажимайте Next .

После того, как приложение соберёт нужную ему для работы информацию, вы увидите стартовое окно с подсказками:

Typle попросит вас нажать на кнопку «Добавить». После нажатия потребуется ввести ваше имя (вводите любое) — это нужно для того, чтобы приложение смогло выполнять именно ваши команды в случае, если вы не являетесь единственным пользователем компьютера. Также заполняем поле «Введите ключевое слово» (можно оставить предложенный вариант «Открой»). Именно это слово будет использоваться для запуска ваших команд, а точнее — эта фраза даст программе сигнал к выполнению команды, которую вы будете произносить далее.

Осталось нажать на кнопку записи, а затем произнести какую-либо фразу (длина записи должна быть короче 1,5 секунд). Для проверки можете проговорить «Открой». После успешной записи Typle спросит вас о сохранении записанной команды.

Далее нажимаем на кнопку «Добавить» в верхнем меню. Откроется окно, в котором вам нужно выбрать программу для её запуска после произнесения ключевого слова в микрофон. Для примера выберем приложение «Opera 35» (вы можете выбрать любую свою программу — браузер, проигрыватель или какой-нибудь мессенджер типа Skype).

Обратите внимание на нижнюю часть окна. В данный момент галочка установлена на пункте «Программы и файлы». Вы также можете выделить и другие пункты. Например, установите галочку на «Windows файлы». Теперь в окне выбора команд для запуска отобразятся стандартные программы Windows (блокнот, Paint, командная строка и так далее), а также различные системные приложения, такие как «Центр обновления» или «Мастер дефрагментации диска» и другие. Это удобная возможность для пользователей, которым часто приходится сталкиваться с настройкой системы компьютера.

Ещё одна интересная способность Typle — возможность открывать избранные интернет-сайты. Для этого нужно установить галочку на пункте «Фавориты Интернета» и выбрать из списка нужный сайт.

Как только вы выбрали подходящее действие, для его выполнения потребуется записать команду. Для этого нажимаем на значок записи рядом с полем, в котором написано название выбранного действия (программы, сайта и тому подобное), а затем произносим любую фразу. В нашем случае — это «Опера».

После успешного сохранения записи вы можете проверить правильность выполнения команды с помощью программы Typle. Для этого вам нужно проговорить в микрофон слово «Открой», а затем сразу фразу, которая была записана вами на последнем шаге для запуска той или иной программы. В нашем случае команда звучит как «Открой Опера». После этих слов программа автоматически запустит браузер.

Как видите, управлять компьютером средствами программы Typle не так уж и сложно. Вы можете создать множество различных команд, при произнесении которых будут запускаться те или иные приложения, открываться документы либо начинаться воспроизведение видео или музыки.

Видео по теме — программа VoxCommando

Typle — голосовое управление компьютером

Пока за Вашим окном бегают какие-то люди с деревьями в руках, а мои коллеги (обзорщики софта) неистово описывают Вам исключительно снежок и ёлки для рабочего стола компьютера, я предлагаю познакомиться с абсолютно бесплатной и простой компьютерной программой, которая наверняка поразит до глубины души Ваших друзей, родственников и новогодних гостей.

Речь в этой статье пойдёт о маленькой чудной утилите под названием Typle, которая позволит Вам легко управлять компьютером просто голосом — это ещё круче чем делать это жестами мышки, я честно скажу.

Бесплатное голосовое управление компьютером

Конечно, эта софтина полностью не заменит Вам любимую клавиатуру и удобную компьютерную мышь, а возьмёт на себя лишь какую-то часть шаблонных задач (например, запуск программ), но как же шикарно она будет это делать — просто загляденье!

Итак, как Вы наверняка поняли из всего вышесказанного — программа Typle не умеет читать мысли, а для её плодотворной работы нужен микрофон (желательно хороший). Он может быть внешним (подключаемый к компьютеру с помощью провода, wi-fi или Bluetooth), а также встроенный (как почти во всех ноутбуках). Предполагается, что он у Вас есть, хотя бы в веб-камере, а также работает отлично.

Я лично взял качественный геймерский микрофон у младшего сына, пока он на работе (надеюсь, что Сашка не прочитает эту статью ), так как встроенный в мой старенький ноутбук очень плохо слышал голосовые команды почему-то и записывал их с шумом и скрежетом.

Кстати, в пункте меню «Опции» есть настройка микрофона — может она Вам улучшит запись голоса…

Читать еще:  Знакомство с табличным редактором Excel

Сразу хочу предупредить, что Typle далеко не единственная программа для голосового управления компьютером. Таких утилит уже достаточно много написали программисты и некоторые из них я наверняка опишу на сайте позже, а пока…

Читайте также на сайте:

Typle — запускаем программы голосом

Устанавливаем скачанную по ссылке, что в конце статьи, программу Typle и в последнем окошке её инсталлятора определяемся с галочками. Они отвечают за запуск «голосовой открывашки программ» сразу после установки и за старт её вместе с операционной системой…

Невзирая на англоязычный установщик, сам Typle встречает нас русскоязычным интерфейсом…

Собственно всё, что от нас с Вами требуется — написано в приветственном баннере программы. Выполняем эту краткую и простую инструкцию — нажимаем на панели управления Typle кнопочку «Добавить» …

Рекомендую

…вписываем своё имя и ключевое слово латиницей или кириллицей (это не важно)…

…жмём на среднюю маленькую кнопочку в строке «Запишите ключевое слово:» , произносим его в микрофон и добавляем себя в программу Typle.

Теперь осталось определиться со второй половиной голосовой команды — нужно выбрать программу (папку, файл, архив…), которую хотим открыть голосом. Для этого тыкаем на кнопочку «Добавить» (с ручкой и плюсиком зелёным)…

…и выбрав из списка установленных на Вашем компьютере программ нужную…

…озвучить её и записать в Typle. Если хотите установить голосовую команду на что-то не из этого списка — есть справа внизу кнопка «Дополнительно». Она раскрывает дополнительные поля для выбора действия под голосовое управление…

В итоге, получаем перечень записанных голосовых команд в главном окне программы Typle…

В бесплатной версии утилиты можно сохранять не более 15 команд — более, чем достаточно обычному пользователю, я считаю…

Закрываем программу (она при этом свернётся в трей)…

…и проверяем её работу — произносим любую свою записанную заранее голосовую команду (например, для запуска Проводника с вкладками или лучшего браузера в этом уходящем году).

Лично у меня все команды выполняются практически моментально и всегда. Сторонних наблюдателей очень впечатляет, я Вам скажу, а хомячков и других домашних питомцев просто разрывает на части (шутка, при обзоре программы ни одно животное не пострадало).

Один недостаток Typle

Есть в этой программе для голосового управления компьютером и один жирный минус, про который не могу промолчать.

Дело в том, что пока Вы активно командуете своим компьютером с помощью Typle, то она внимательно слушает всё происходящее вокруг компьютера и подхватывает команды практически на лету, но стоит Вам отойти на пару минут — она впадает в спячку и разбудить её можно только открытием главного окна программы и кликом по кнопке «Начать говорить» …

Даже «горячих клавиш» нет для активации Typle.

Скачать Typle

Эта программа для голосового управления компьютером очень «древняя» и её официальный сайт уже даже не работает, поэтому закинул инсталлятор в Яндекс.Диск…

…и на всякий случай, продублировал на облако от Google…

Размер установщика всего 620 кб. Вирусов нет в нём, как и дополнительного «полезного софта» . Как я понял, работает программа под любой версией Windows.

Тематическое видео от незнакомого мне юного обзорщика компьютерных программ (особенно понравилось, как он произносит голосовые команды ) …

ПОЛЕЗНОЕ ВИДЕО

Поздравляю, теперь Вы имеете бесплатное голосовое управление компьютером! До новых полезных компьютерных программ и интересных приложений для Андроид.

Дата публикации (обновления): 11.09.2019

Я только обозреваю программы!

Любые претензии – к их производителям!

Рекомендую ещё посмотреть обзоры.

Реальный “Ускоритель компьютера”

Программа заметно ускорит любой компьютер за счет мощной очистки от цифрового мусора, лишних “хвостов” удаленного софта, умной оптимизации реестра Windows и автозагрузки.

Встречайте ещё один бесплатный замечательный музыкальный плеер с очень качественным и чистым звуком – Winyl.

Star Music Tag Editor предназначена для редактирования тегов песен в Вашем смартфоне и является бесплатной и интуитивно понятной в использовании.

С приложением «VKMP» возможность скачивать музыку из ВКонтакте вернулась. При чём Вам даже не понадобиться доступ к аккаунту этой социальной сети.

Как управлять компьютером при помощи голосовых команд

Взаимодействовать с компьютером можно не только при помощи клавиатуры и мыши. Доступно также управление голосовыми командами. Существуют специальные утилиты, которые позволяют это сделать. В их функции входит не только запись текста под диктовку или расшифровка аудиозаписей. Через них можно запускать приложения, использовать их, да и вообще — делать что угодно. Управление компьютером голосом облегчает работу с ПК. Команды передаются оперативно и без лишних усилий. Конечно, если у вас есть микрофон.

Мы познакомим вас с приложениями с подобным функционалом

Такая функция встроена в англоязычную версию Windows. Для её использования у вас должна быть лицензия Enterprise или Ultimate. Но и в русифицированных операционных системах можно настроить управление голосом и диктовку текста. Воспользуйтесь одним из следующих приложений.

Typle

С приложением разобраться несложно

Популярная программа. Хотя и имеет свои недостатки. Суть её работы простая: задаёте команду и выбираете, какое действие она должна выполнять. Рассмотрим настройку этого приложения на конкретном примере.

  1. Загрузите и установите его. Есть бесплатная и Premiun версия. Вторую надо покупать, чтобы испробовать её на компьютере.
  2. Запустите утилиту. В ней появится информационное окно с подсказками.
  3. На её панели управления есть много различных функций. Некоторые — с одинаковыми названиями. Надо ориентироваться по картинке, а не по надписи. Нажмите кнопку «Добавить» — на ней изображено лицо.
  4. Задайте имя профиля и ключевое слово, которое будет обозначать команду. К примеру, напишите «открыть», если собираетесь настроить запуск какого-то приложения голосом. Или «перейти на», чтобы мгновенно перейти на какой-то сайт, не вводя его адрес.
  5. Теперь надо записать эту самую команду в виде звукового образа. Нажмите на кнопку с красным кружком. И чётко, внятно произнесите в микрофон нужную фразу.
  6. Подтвердите изменения. Заданная опция появится в списке в окне Typle. Программа запомнит то, что вы записали на её «диктофон».
  7. После этого укажите, что, собственно, ей запускать для выполнения команды. Нажмите кнопку «Добавить», которая похожа на руку с символом «+» (плюс).
  8. Выберите формат данных: файлы/утилиты, интернет-страницы, какие-то внутренние сервисы ОС. Поставьте «галочки» там, где вам нужно.
  9. Найдите то приложение, которое хотите запускать голосом. Пусть это будет, например, Microsoft Word. Так вы сможете очень быстро приступить к редактированию какого-то текста или написанию статьи.
  10. В том же окне запишите вторую часть команды. Чтобы в сумме получилось «открыть Ворд». Первое слово будет активировать Typle, второе — включать привязанную утилиту.
  11. Нажмите «Добавить».
  12. К одной функции «открыть» можно прицепить несколько приложений. Так вы будете управлять их запуском, не прикасаясь к мыши и другим периферийным устройствам, установленным на компьютере.
  13. Если надо, отредактируйте дополнительные параметры.
  14. Чтобы проверить, получилось или нет, нажмите на «Начать говорить» и скажите команду.

Программа работает с русским языком. Но не всегда правильно его распознаёт. Говорить надо громко, чётко, механическим голосом.

  • Не нужны знания английского.
  • Быстрое создание команд.
  • Нет распознавания текста.
  • Ограниченный функционал. Можно лишь открывать утилиты и страницы в интернете.
  • Программа иногда воспринимает посторонние шумы как команды. Из-за этого на ПК происходят странные вещи.
  • Нельзя работать с плеером.

Speechka

Еще одно приложение для управления компьютером

Теперь о том, как управлять компьютером голосом, используя приложение Speechka.

  1. При первом запуске откроется окно с выбором категории: ПК или интернет.
  2. Там же есть пояснение, каким сочетанием клавиш надо активировать утилиту. Это можно изменить в настройках.
  3. Нажмите, к примеру, на «Интернет». Откроется окно с несколькими полями для ввода: для текста команды и для URL сайта. Можно написать слово «Яндекс» и адрес этой страницы.
  4. Кликните «Добавить».
  5. Зажмите клавиши, указанные на главном окне.
  6. Произнесите команду, чтобы утилита её «запомнила».
  • Активация как клавишами, так и по громкости звука.
  • При запуске можно откалибровать микрофон.
Читать еще:  Экспорт и импорт закладок в браузере Opera

Speaker

Команды в приложении настраиваются при помощи печатных слов, а не диктовки. Есть внутренний механизм распознавания текста. Основные функции:

  • Создание скриншотов по команде.
  • Смена раскладки клавиатуры на компьютере.
  • Открытие приложений и файлов.
  • Завершение работы.
  • Можно не делать аудиозапись с командой. Утилита распознаёт надписи.
  • Для управления надо использовать клавиатуру. Если заданная кнопка используется и для других целей — будет неудобно.
  • Нужно стабильное интернет-соединение.

Горыныч

Герой русских народных сказок поможет вам

Программа для управления компьютером голосом «Горыныч» — отечественный продукт. Поэтому там «родной» модуль распознавания речи. Он «приспосабливается» к тембру и интонациям пользователя. С утилитой можно полноценно работать в системе, а не просто открывать файлы и веб-страницы.

  • Есть поддержка русского и английского языков.
  • Распознавание текста, голосовой ввод в любые редакторы.
  • Расширенный функционал.
  • Надо самостоятельно создавать команды для каждого процесса. В буквальном смысле придётся записывать словарь.

Windows Speech Recognition

Встроенная в английскую ОС программа. Для её использования у вас должен быть установлен соответствующий языковой пакет. Русские команды с ней работать не будут. Чтобы управлять ПК с её помощью, придётся говорить на её языке. Для получения доступа к ней в Панели настроек Windows откройте меню «Язык и региональные стандарты» (оно находится в категории «Часы, язык, регион») и во всех вкладках установите «Английский». Если всё правильно, и у вас установлен необходимый языковой пакет, Windows «превратится» в английскую, и утилита станет доступна. Лучше не пробовать данные метод, если вы плохо знаете чужой язык.

Данный способ подойдет в том случае, если вы владеете английским

Прочие утилиты

Есть ещё ряд приложений для управления такими командами:

  • Расширения для браузеров. Облегчают сёрфинг по сети. В Google Chrome уже встроена подобная функция — голосовой ввод в поисковые формы. Эта опция есть на некоторых онлайн-картах. Она позволяет быстрее найти адрес.
  • VoiceType.
  • RealSpeaker.
  • Web Speech.

Список программ для распознавания текста и записи под диктовку

Управлять голосом — это, конечно, хорошо. Но могут оказаться полезными утилиты для распознавания текста и печати под диктовку. При составлении объёмных докладов, дипломов легче записывать свои мысли, озвучивая их в микрофон на компьютере. Вот несколько таких утилит:

  • Диктограф.
  • Dragon Naturally Speaking.
  • Перпетуум-Мобиле.

Продукт, позволяющий диктовать текст компьютеру

В ОС можно настроить голосовые команды. Для этого на компьютере должна быть установлена соответствующая программа. С ней вы сможете работать на ПК, лёжа на диване или развалившись в кресле. У вас будут свободны руки. Если микрофон хороший и улавливает даже отдалённые или тихие звуки, вам не потребуется рядом с ним сидеть. Вы можете одновременно «разговаривать» с компьютером и записывать конспект в тетради, рисовать, держать что-то. Да хоть шить и вязать. С командами взаимодействовать с ПК намного легче. Для активации некоторых подобных утилит нужно нажимать кнопки на клавиатуре, что не очень удобно.

Но есть и отрицательные аспекты. Если вы случайно скажете слово-команду, откроется совершенно не нужное сейчас приложение или обозреватель не к месту перейдёт на какой-то сайт. Чем пользоваться и пользоваться ли вообще — решать вам.

Простейшее управление компьютером при помощи голоса

Если вас интересует, как помочь обездвиженному человеку управлять компьютером для общения с внешним миром – вам сюда. Если вам интересно, какое отношение к этому имеют мел-частотные кепстральные коэффициенты и нейронные сети – вам тоже сюда.

Часть I. Программа для управления компьютером при помощи голоса

Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.

Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

«У Совы» — школа дистанционного обучения для людей с ограниченными возможностями. sova.by
«Без ограничений» — советы для тех, кому нужно работать на компьютере без рук bezogranicheniy.ru

Для работы на компьютере Александр использовал программу «Vocal Joystick» — разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj

Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус».

Это одному мне режет глаз?

Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.

Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).

По образу и подобию была написана новая программа (месяца за три).

Собственно, посмотреть, как она работает, можно здесь:

Скачать программу и/или посмотреть исходные коды можно здесь.

Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”):

Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук.

Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения.

Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки).

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:

  1. Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
  2. Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
  3. Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
  4. Воплощение найденных звуков в движение/щелчки мыши

Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.

Последняя задача просто реализуется при помощи функции SendInput.

Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.

Читать еще:  Быстрое восстановление загрузчика Grub в Ubuntu

И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» — набора признаков, которые бы однозначно классифицировали звуковую волну.

Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).

История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).

Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).

Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.

Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.

Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.

Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).

Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.

В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

Шаг Функция sphinxbase Суть операции
1 fe_pre_emphasis Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты.
2 fe_hamming_window Окно Хемминга – вносит затухание в начале и конце кадра
3 fe_fft_real Быстрое преобразование Фурье
4 fe_spec2magnitude Из обычного спектра получаем спектр мощности, теряя фазу
5 fe_mel_spec Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты
6 fe_mel_cep Берём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага.
Оставляем первые 13 значений результата.
Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит.

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.

Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

Как управлять компьютером голосом

Голосовые помощники способные управлять смартфоном или планшетом давно вошли в нашу жизнь и упрощают взаимодействие с гаджетом. Google Now и Siri способны искать в интернете информацию, ставить напоминания, вызывать номер из списка контактов, делится фотографиями и даже изменять настройки телефона.

Cortana от Microsoft

Голосовой помощник для Windows 10 Cortana входит в стандартную версию системы. Он позволяет выполнять поисковые запросы в интернете на компьютере, открывать программы и папки, изменять и удалить файлы, ставить напоминания и выключать компьютер. Cortana – это полноценная замена стандартному управлению Windows, заменяющая мышь и клавиатуру на голосовые команды. Поскольку помощник разработан самой Microsoft, он получил глубокую интеграцию с операционной системой и является лучшим решением для голосового управления Windows. Cortana имеет серьезный недостаток — она не поддерживает русский язык! Если вы владеете одним из этих языков: английский, немецкий, французский, испанский, итальянский, китайский, японский, португальский, то можете смело протестировать разработку от Microsoft на своем компьютере, при условии установленной Windows 10. Для этого выполните следующие действия:

  1. Откройте меню «Пуск», перейдите в «Параметры»
  2. Выберите пункт «Время и Язык»
  3. Перейдите в «Регион и язык»
  4. Выберите один из регионов, где используют нужный вам язык. Вам предложат скачать новый языковой пакет, согласитесь с этим.
  5. Перезагрузите компьютер.
  6. В меню поиска Windows напишите Cortana, нажмите на появившейся результат и включите ассистента в меню.

Microsoft не анонсировали дату релиза русскоязычной версии Cortana, поэтому использовать комфортно ассистент практически невозможно. Также, из-за специфики акцента у русскоговорящих пользователей, помощник не всегда понимает голосовые команды. Перейдем к другому приложению, поддерживающего русский язык.

Программа Laitis

Программа Laitis позволяет гибко настроить действия в проводнике Windows, браузерах, выбрать управление на различных сайтах соцсетей и других программах. Также вы можете с помощью макросов настроить управление элементами умного дома. Чтобы установить приложение выполните следующие действия:

  1. Перейдите на официальный сайт Laitis, найти его можно выполнив поисковый запрос в окне браузера.
  2. На сайте проекта согласитесь с лицензионным соглашением и загрузите бесплатную демоверсию.
  3. Запустите скачанный файл.
  4. Нажмите подтверждение, следуйте всем инструкциям установщика.
  5. Откройте программу, перейдите в меню «Команды». Вы увидите полный список команд для голосового управления. В Меню «Настройки» можно добавить программу в автозагрузку системы и выбрать подходящие настройки.

Приложение Laitis удовлетворит требования любого пользователя, желающего использовать голосовые команды для управления своим компьютером. Программа предлагает гибкую настройку индивидуально под требования каждого пользователя. Если вы не хотите долго настраивать и вникать в настройки приложения, то предлагаем перейти к простому варианту.

Яндекс Алиса для Windows.

Яндекс Алиса, это не полноценное средство управления компьютером, однако она позволит быстро найти требуемую информацию в интернете или на компьютере и поддерживает элементарные функции управления питанием системы – выключить, перезагрузить или завершить сеанс. Главным плюсом отечественной разработки можно назвать простоту использования. К сожалению Яндекс удалили с главного сайта Алису для Windows, там вы найдете только Яндекс браузер со встроенным голосовым помощником, поэтому мы нашли полноценную рабочую версию ассистента. Перейдем к установке приложения.

  1. Качаем файл установки Скачать Алису для Windows.
  2. Запускаем установочный файл, нажимаем далее. После установки приложению потребуется около 30 секунд для автоматической настройки.
  3. На панели быстрого запуска появится строка Алисы. Теперь вы можете перейти к настройкам приложения, например, можно выбрать любой браузер по умолчанию, отключить голосовые подсказки помощника, включить миниатюрный режим иконок или выбрать желаемые функции.

Подробное описание всех возможностей ассистента от Яндекс вы найдете на специальных вкладках помощника «Навыки» и «Вот что я умею». Помимо этого, Алиса умеет открывать файлы и программы Windows. Такого функционала хватит большинству пользователей, решивших упростить работу с компьютером.

Ссылка на основную публикацию
Adblock
detector