Робот, голос!
Очевидно, чтобы завоевать популярность, роботы должны перестать восприниматься как сверхсложные машины, роскошь общения с которыми доступна только узким специалистам. Попытки сделать взаимодействие с роботом максимально удобным для непрофессионалов предпринимаются в глобальных исследовательских инициативах, относящихся как к персональной робототехнике, так и к производственным системам нового поколения. Продуманный, простой интерфейс, маскирующий внутреннюю сложность системы, оказался ключевым фактором коммерческого успеха, например в продуктах датской Universal Robots, американской Rethink Robotics или нашумевшем проекте JIBO.
Эксперты в робототехнике и человеко-машинных интерфейсах практически единодушно соглашаются с тем, что основные инновации данных областей сосредоточатся на двух направлениях. Первое — это когнитивные способности роботов: насколько хорошо они понимают мир, который находится перед ними и в котором они действуют. Второе — это умение робота не только рассказать человеку, что он увидел или узнал, но и возможности робота понять нужды своих хозяев: естественные интерфейсы общения робота и человека. Существует не так много модальностей, в которых человек и машина могут общаться: образы, звуки и речь, жесты, нейроинтерфейсы… Речь является наиболее доступным всем людям способом донести свои нужды или распоряжения до любой технической системы. Все, что может управляться голосом, рано или поздно будет управляться голосом! Поэтому рынки для систем голосового управления огромны. И это только начало… К счастью, в мире существует около шести тысяч языков, и это создает бездну возможностей для умелых и талантливых разработчиков. Поскольку 80% населения земли говорят на восьмидесяти языках, адаптация техники к их нуждам займет определенное время. Так что нам нужно спешить, дабы обеспечить достойное место для русского языка в этой гонке средств распознавания.
Speereo — один из лидирующих технологических стартапов Сколково, занимающихся проблемой распознавания языков. В сложной конкурентной среде, имеющей много ограничений по патентованию, они нашли способ создать уникальную технологию. Думаю, что у ребят есть все шансы конкурировать с зарубежными аналогами.
Как и для человека, для робота оптимальный канал «обучения» или восприятия заданий зависит как от индивидуальных способностей, так и от конкретной задачи. Где-то удобнее использовать наиболее информационно емкий визуальный канал, где-то просто «взять за руки» и провести по нужным точкам, т. е. использовать кинестетический канал, а где-то — сказать. В контексте выпуска мы заострим внимание именно на голосовом управлении и обработке естественного языка.
Развитая речь — это то, что свидетельствует о значительно более высоком интеллектуальном уровне человека по сравнению с приматами. Возможно, и роботы эволюционируют, когда освоят этот уникальный инструмент. И пусть пока даже самые продвинутые из существующих решений имеют весьма ограниченный лексикон, не говоря уже о том, чтобы уловить интонацию (а русский человек прекрасно понимает, как всего одно слово, сказанное с разным выражением, меняет смысл фразы) или справиться с дефектами речи, а голосовые помощники от Google и Apple часто становятся героями юмористических роликов, — прогресс в области существенный, и нам уже есть о чем поговорить.
Конкурентные разработки по распознаванию речи есть не только за океаном, но и в России. Рассказать об этом в робототехническую рубрику мы пригласили руководителей компании ЗАО «Титан — информационный сервис», знающих о предмете не понаслышке. Совсем недавно была представлена их разработка — первый в мире универсальный пульт дистанционного управления с использованием речевых команд. Разработчикам стали доступны для использования речевые интерфейсы в «облачном» и onboard вариантах.