전통문화대전망 - 전통 미덕 - 인공지능 코프 | 음성각성 기술의 원리는 무엇입니까?

인공지능 코프 | 음성각성 기술의 원리는 무엇입니까?

이름: 장루

학번: 192121845

내장소 안내? 티몰 요정, 소애 동창, 소도 등 많은 학우들의 집에는 AI 스마트 스피커 제품이 있다. 이 스마트 스피커들은 우리의 일상생활을 편리하게 해 줄 뿐만 아니라, 재치 있는 대답이나 재치있는 대답으로 인해 사용자들에게 많은 즐거움을 안겨 주었습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 지혜명언) < P > 내장 소코 AI 스마트 스피커, 음성웨이크 업 < P > 임베디드 소질문 음성 웨이크업 기술의 원리는 무엇입니까?

내장 소 본문

티몰 마법사. " "아이고, 그래, 너" < P > "샤오애 동창, 내일 아침 8 시 자명종 설정." "네, 내일 아침 8 시 자명종을 설정해 드렸습니다." < P > 많은 동창들 집에는 AI 스마트 스피커 제품이 있습니다 (예: 티몰 요정, 애애 동창, 소도 등). 이 스마트 스피커들은 우리의 일상생활을 편리하게 해 줄 뿐만 아니라, 재치 있는 대답이나 재치있는 대답으로 인해 사용자들에게 많은 즐거움을 안겨 주었습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 지혜명언) < P > 이러한 지능형 제품 중 중요한 AI 기능을 음성 웨이크업이라고 합니다. < P > 먼저 디바이스가 켜져 있고 리소스가 자동으로 로드되어 휴면 상태에 있습니다. 그런 다음 사용자가 특정 웨이크업 단어를 말하면 장치가 깨어나 작업 상태로 전환되어 사용자의 다음 명령을 기다립니다. < P > 이 과정에서 사용자는 손으로 접촉할 필요 없이 음성으로 직접 조작할 수 있으며, 음성 웨이크업 메커니즘을 활용하므로 장치가 실시간으로 작동하지 않아 에너지 소비를 줄일 수 있습니다. < P > 음성 각성의 응용 분야는 로봇, 휴대폰, 웨어러블 장비, 스마트 홈, 차량 등 비교적 광범위하다. 음성 기능이 있는 거의 많은 장치들은 사람과 기계 상호 작용의 시작이나 입구로서 음성 웨이크업 기술이 필요합니다. 제품마다 웨이크업 단어가 다를 수 있으며, 사용자가 장치를 깨워야 할 때 특정 웨이크업 단어를 말해야 합니다. < P > 정의 < P > 음성 깨우기는 학술적으로 KWS (keyword spotting) 라고 불리며, 오 선생님은 연속어류에서 연사별 세그먼트를 실시간으로 검출한다는 정의를 내리셨다. < P > 여기서 유의해야 할 점은 감지된' 실시간' 이 관건이라는 점이다. 음성 깨우기의 목적은 휴면 상태에서 작동 상태로 장치를 활성화하는 것이기 때문에 깨우는 단어가 나온 후 바로 감지될 수 있어야 사용자의 체험이 더 좋아진다는 점이다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 언어명언)

그렇다면 음성 각성의 효과를 어떻게 평가해야 할까? 통행 지표는 네 가지 측면, 즉 각성률, 오각성, 응답 시간 및 전력 소비 수준이다. < P >? 웨이크업 속도, 사용자 상호 작용의 성공률, 전문 용어는 리콜률, 즉 recall 입니다.

? 오작동, 사용자가 상호 작용하지 않고 장치가 깨어날 확률은 일반적으로 하루에 한 번까지 매일 계산됩니다.

? 응답 시간, 사용자가 웨이크업 단어를 완성한 후 장치가 피드백을 주는 시간차를 말합니다.

? 전력 소비 수준, 즉 시스템을 깨우는 전력 소비. 많은 스마트 장치는 배터리로 전원을 공급하기 때문에 긴 수명을 만족시켜야 하므로 전력 소비 수준에 신경을 많이 쓴다. < P > 음성 웨이크업 기술 경로 < P > 오랜 발전 끝에 음성 웨이크업 기술 경로는 대략 3 세대로 요약될 수 있습니다. < P > 1 세대: 템플릿 매칭을 기반으로 하는 KWS

교육 및 테스트 절차가 간단합니다. 교육은 등록 음성 또는 템플릿 음성을 기반으로 피쳐 추출, 템플릿 구축입니다. 테스트 시 피쳐 추출을 통해 피쳐 시퀀스를 생성하고 테스트된 피쳐 시퀀스와 템플릿 시퀀스 사이의 거리를 계산하여 웨이크업 여부를 결정합니다.

2 세대: HMM-GMM 기반 KWS

는 웨이크업 작업을 keyword 와 non-keyword 로 인식하는 두 가지 유형의 인식 작업으로 변환합니다. < P > 3 세대: 신경망 기반 시나리오 < P > 신경망 시나리오는 여러 범주로 나눌 수 있습니다. 첫 번째 범주는 HMM 기반 KWS 이며, 2 세대 웨이크업 시나리오와 달리 음향 모델 모델링은 GMM 에서 신경망 모델로 변환됩니다. 두 번째 유형의 신경 네트워크에 통합 된 템플릿 매칭은 신경 네트워크를 피쳐 추출기로 사용합니다. 세 번째 범주는 엔드-투-엔드 시나리오, 입력 음성, 각 웨이크업 확률, 모델 해결을 기반으로 합니다. < P > 음성 깨우기의 어려움 < P > 음성 깨우기의 어려움은 주로 저전력 요구 사항과 높은 효과 요구 사항 사이의 모순입니다. < P > 한편, 현재 많은 지능형 장치는 로우 엔드 칩과 배터리 전원을 동시에 사용하고 있으므로 깨우는 데 필요한 에너지가 최소화되어야 합니다. < P > 한편, 체험 효과에 대한 사용자의 추구는 갈수록 높아지고 있다. 현재 음성 깨우기는 주로 C 측에 적용되며, 사용자 집단이 광범위하며, 대량의 원거리 상호 작용을 해야 하기 때문에 깨우기 능력에 대한 요구가 높다. < P > 이 (가) 둘 사이의 갈등을 해결하기 위해 저전력 수요에 대해 모델 깊이 압축 전략을 사용하여 모델 크기를 줄이고 효과 감소 폭을 조절할 수 있도록 합니다. 높은 효과 수요의 경우 일반적으로 모델의 폐쇄 루프 최적화를 통해 수행됩니다. 먼저 효과를 사용할 수 있는 시작 모델을 제공합니다. 사용자가 사용할 때 폐쇄 루프 반복 업데이트를 수행하면 수동 개입 없이 전체 프로세스가 자동화됩니다. < P > 음성 깨우기의 전형적인 응용 프로그램 < P > 음성 깨우기의 응용 분야는 매우 광범위합니다. 주로 로봇, 스피커, 자동차 등과 같은 C 측 제품입니다. 대표적인 애플리케이션 모델은 다음과 같습니다.

? 전통적인 음성 상호 작용: 먼저 장치를 깨우고, 장치 피드백 (경고음 또는 조명등) 을 기다린 후, 사용자는 장치가 깨어난 것으로 보고 음성 제어 명령을 내리면 상호 작용 시간이 길다는 단점이 있다.

? One-shot: "띵동 띵동, 주걸륜 노래 듣고 싶다" 와 같은 작업 명령과 함께 깨우는 단어를 직접 말하면 클라이언트는 깨어난 후 인식 및 의미 이해 등의 서비스를 직접 시작하여 상호 작용 시간을 단축한다.

? Zero-shot: 일반적으로 사용되는 사용자 지정을 웨이크업 단어로 설정하여 사용자가 인식할 수 없는 웨이크업 (wake-on) 에 도달할 수 있도록 합니다. 예를 들어, 자동차에 직접 "HKUST 로 이동" 이라고 말하면 일부 고주파 접두사를 웨이크업 단어로 설정할 수 있습니다.

? 멀티 웨이크 업: 주로 사용자 개인화의 요구를 충족시키고 장치에 여러 개의 이름을 부여합니다.

? 새로운 AIUI 상호 작용 방식 (예: 사용자가 자동차에 대해' 해저로 이동' 명령을 내리면' 심장성 해저낚시',' 은태성 해저낚시' 등의 옵션이 표시되므로 사용자는' 심성' 이나' 은태성' 만 말해도 지시를 내릴 수 있다.