전통문화대전망 - 전통 미덕 - CCB 음성학의 장점과 단점

CCB 음성학의 장점과 단점

음성 상호 작용의 네 가지 주요 이점

그렇다면 왜 인간-컴퓨터 음성 상호 작용에 대해 논의해야 할까요? 음성 상호 작용 자체의 독특한 장점 때문에 네 가지 장점으로 요약해 보겠습니다.

첫째, 음성의 입력 효율이 비교적 높다.

기존의 입력기 입력 및 텍스트 입력에 비해 음성 입력 속도와 효율성이 기존 키보드보다 최소 3 배 높습니다. 이것은 바이두 오픈 플랫폼에서 한 통계이다.

투자 효율은 다음과 같은 측면에 반영됩니다.

1, 음성으로 정보를 검색하는 것이 더 효율적입니다. 특히 복잡한 질의입니다.

이 같은 입력기 장면에서는 음성을 통한 상호 작용이 더 효율적입니다. 예를 들어, 집에서 영화를 보면 TV 에 직접 보고 싶은 TV 프로그램이나 영화 이름을 말할 수 있다. 이런 상호 작용에서는 음성을 통해 직접 지시를 내리는 것이 더 편리하다.

2. 음성 상호 작용은 공간을 넘나들며 공간을 넘나드는 상호 작용이 더 편리하다.

공간 간 의미는 장거리 음성 상호 작용, 일반적으로 원거리 음성 상호 작용 또는 원거리 음성 상호 작용으로 간단히 이해할 수 있습니다. 원거리 란 내 스피커가 내 장치의 마이크에서 멀리 떨어져 있다는 것을 의미합니다. 일반적으로 적어도 1 m, 대부분 3 ~ 5 미터 이상입니다.

이러한 공간 간 장면에서는 전통적인 의미의 문자 상호 작용을 조작할 수 없는 경우가 많습니다. 예를 들어, 스마트 스피커 (휴대폰) 에서 멀리 떨어진 상태에서 문자 상호 작용을 할 수 없다면, 이런 상황에서는 음성 상호 작용이 더욱 필요하고 효율적으로 보일 수 있습니다.

3, 음성 지원 조합 명령 출력

즉, 음성 명령을 실행할 때 한 번에 여러 개의 명령을 실행할 수 있고, 그런 다음 기계에 의해 인식된 후 개별적으로 명령을 실행하려는 의도입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 음성명언)

예를 들어, 집 장면을 예로 들자면, 나는 영화 한 편을 보고 싶다. 사실, 난 내 TV 에 말할 수 있는, "주성치 영화, 영화는 4 별 이상 이어야 하며, 그들은 무료로 볼 수 있습니다." " 이런 말 한마디에는 여러 단계의 의미가 있다.

이렇게 음성을 통해 나의 다단계 지시문은 한 마디로 함께 보낼 수 있다. 스마트머신은 내 지시의 의미를 분석하고 적절한 기술을 차례로 호출하여 내 지시의 발신 방식을 만족시킨다.

이것이 음성 입력 방식이 기존 입력 방식보다 더 효율적인 이유입니다.

둘째, 손과 눈을 해방시키는 것이 더 안전하다.

사실, 양손 해방에 관해서, 우리는 곧 자동차 장면을 생각할 것입니다. 사실 자동차 장면의 경우, 우리가 차 안에서 운전할 때, 손과 한자로 상호 작용하는 것은 절대 불가능하다. 이것은 절대 허용되지 않는다. 자동차 장면에서 탐색, 음악 듣기, 라디오 듣기 등을 설정하려면 언어로도 상호 작용해야 합니다. 현재 많은 차에는 사실 자동차 음성 상호 작용 기능이 내장되어 있다.

차내 장면 외에도 의료 장면과 같은 다른 장면이 있다. 의사는 환자 또는 환자 가족과 소통할 때 여러 가지 복잡한 의료 장비를 동시에 손으로 조작해야 할 수도 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 건강명언) 이때 의사가 병력서를 기록해야 한다면 음성으로 하는 것이 더 필요하다.

셋째, 사용 문턱이 낮다.

사실, 우리 각자는 경험이 있습니다. 우리 사이의 상호 작용은 원래 언어에 있습니다. 글을 쓸 줄 모르는 아이는 자라면서 음성을 통해 부모와 다른 친구들과 상호 작용합니다. 이것은 우리 인류가 타고난 상호 작용 능력입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 가족명언)

특히 어린이, 노인, 시력 장애를 가진 사람들에게는 글로 상호 작용할 방법이 없기 때문에 음성 상호 작용 방식이 이들에게 큰 편리함을 가져다 줄 것이다. 또한 음성 상호 작용의 학습 비용은 상대적으로 낮고 상호 작용 방식도 자연스러워 시작 비용도 상대적으로 낮습니다.

넷째, 더 많은 음향 정보를 전달할 수 있다.

한 구절에는 이 말이 전달하는 내용 정보뿐만 아니라 성문정보, 신분 정보, 성별 정보 (말하는 사람이 남자인지 여자인지), 나이 정보, 감정 정보 (사람들이 이 말을 할 때 느끼는 감정, 분노, 행복, 슬픔 등) 와 같은 기타 정보도 포함된다는 것을 알고 있습니다.

이 모든 정보는 다양한 기술로 음성 신호를 통해 분석할 수 있다. 그렇다면 전통문자의 이런 무미건조한 상호 작용 방식에 비해 음성은 더 많은 정보를 전달할 수 있다.

음성 상호 작용의 세 가지 단점

이것들은 모두 음성 상호 작용의 장점이다. 그러나 상호 작용 방식, 특히 인간-컴퓨터 음성 상호 작용이라는 새로운 상호 작용 방식에는 몇 가지 단점이 있습니다.

첫째, 수신 효율이 상대적으로 낮다.

아까 분석에서, 우리는 줄곧 음성 입력 방식에 집중해 왔다. 정보 수신에 관해서는, 우리는 수출의 관점에서 볼 수 있다. 음성의 출력은 실제로 선형 출력이다.

무슨 뜻이에요? 즉, 한 사람이 한 말을 듣고 있을 때, 상대방이 이 말을 전부 다 할 때까지, 혹은 대부분 다 말할 때까지 기다려야 상대방이 무슨 말을 하고 싶은지 이해할 수 있을 것이다. (존 F. 케네디, 언어명언)

문자 상호 작용은 다르다. 우리가 한 단락의 글을 볼 때, 의미 없는 단어들을 생략하고 그 글의 전체적인 뜻을 직접 잡을 가능성이 높다. (윌리엄 셰익스피어, 햄릿, 독서명언) 아마도 모든 사람이 이런 경험을 할 수 있을 것이다. 위챗 사용 시, 그들은 받은 음성 소식보다 문자 메시지를 더 즐겨 본다.

문장 한 편을 다 읽은 후, 우리는 문장 중심 내용을 직접 빠르게 파악할 수 있고, 내가 강연을 들으려면, 처음부터 끝까지 이 강연을 완전히 들어야 상대방이 무엇을 썼는지 알 수 있기 때문이다. 따라서 이 점에서 음성 출력은 선형 출력이며 정보 수신자에게는 효율성이 상대적으로 낮다고 합니다.

둘째, 환경이 복잡하다

우리는 여러 가지 복잡한 생활 환경에 직면해 있으며, 이는 음성 신호 처리 과정에서 집중해야 할 문제이기도 하다.

우리는 매일 여러 가지 복잡한 환경에 둘러싸여 있다. 이러한 환경에는 우리가 원하지 않거나 듣고 싶지 않은 다양한 소리가 포함될 수 있습니다.

이러한 사운드가 우리가 듣고 싶은 사운드와 겹치면 상호 작용 경험에 큰 영향을 미치기 때문에 복잡한 음향 환경은 인간-컴퓨터 음성 상호 작용 시스템을 설계할 때 고려해야 할 문제입니다.

셋째, 사용자의 심리적 부담

이것은 또한 음성 상호 작용 디자이너가 가장 파악하기 어려운 점이다. 사용자가 실제로 이 인간-컴퓨터 상호 작용 시스템을 사용할 때, 그의 많은 행동은 종종 예측할 수 없기 때문이다.

같은 상호 작용 장면의 경우 사람마다 서로 다른 방식으로 상호 작용할 가능성이 높다. 사용자의 심리적 경험으로 볼 때, 어떤 사람들은 인간-컴퓨터 음성 상호 작용 습관을 개발하지 못했거나, 어떤 사람들은 음성으로 기계에 말하기를 원하지 않을 수도 있다. 특히 비교적 개방적인 상황에서 개인의 사생활을 고려해야 하는 장면에서는 더욱 그렇다.

요약

위에서 알 수 있듯이 음성 상호 작용 자체에는 장점이 있지만 단점도 있습니다. 단점은 우리가 집중해야 할 몇 가지 문제일 뿐입니다.