전통문화대전망 - 전통 미덕 - 자연어 처리 요약

자연어 처리 요약

제목: 자연어 처리 개요

날짜: 2021-11811:03:/kloc.

자연어는 인류가 일상적으로 사용하는 언어 (예: 중국어, 영어, 일본어 등) 를 가리킨다. 자연어는 유연하고 변화무쌍하며 인간 사회의 중요한 부분이지만 컴퓨터에 의해 잘 이해되지 않는다. 자연어로 사람과 컴퓨터 간의 교류를 실현하기 위해 자연어 처리가 탄생했다. 자연어 처리 (NLP) 는 언어학, 컴퓨터 과학, 수학 등의 학과를 결합한 분야이다. 언어학을 연구할 뿐만 아니라 컴퓨터가 이러한 언어를 처리하도록 하는 방법도 연구한다. 주로 자연어 이해 (NLU) 와 자연어 생성 (NLG) 의 두 가지 방향으로 나뉩니다. 전자는 듣고 읽는 것이고, 후자는 말하고 쓰는 것이다.

이 글은 자연어 처리의 역사와 발전을 시작으로 자연어 처리 분야의 현재 심도 있는 학습의 연구 진척을 분석하고, 마지막으로 자연어 처리의 미래 발전 방향을 논의할 것이다.

1950 년, 컴퓨터 과학의 아버지인 튜링은' 튜링 테스트' 를 내놓아 인공지능 분야의 시작을 알렸다. 이 시점에서 미국과 소련 간의 냉전 기간 동안 미국 정부는 소련 관련 문서를보다 쉽게 ​​해독하기 위해 기계 번역 연구에 전념했으며 자연어 처리가 시작되었습니다. 그 이후로 자연어 처리는 주로 언어학에 의존하는 규칙 기반 방법을 채택하고 있다. 어휘 및 문법 정보를 분석하여 이러한 정보 사이의 법칙을 요약하여 번역 효과를 달성합니다. 전문가 시스템과 유사한 이 접근 방식은 공통성이 떨어지고 최적화가 쉽지 않으며, 최종 진행이 느리고 원하는 결과를 얻지 못합니다.

1980 년대와 1990 년대에 인터넷이 급속히 발전하여 컴퓨터 하드웨어도 눈에 띄게 향상되었다. 동시에, 통계 기계 학습 알고리즘을 자연어 처리에 도입하고, 규칙 기반 방법은 점차 통계적 방법으로 대체되었다. 이 단계에서 자연어 처리는 실질적인 돌파구를 얻어 실제 응용으로 접어들었다.

2008 년경부터 심도 있는 학습 신경망이 이미지 처리와 음성 인식 분야에서 눈에 띄는 성과로 자연어 처리 분야에도 적용되었다. 초기 단어 포함, word2vec, RNN, GRU, LSTM 등의 신경망 모델, 최근의 주의 메커니즘, 사전 훈련 언어 모델 등에 이르기까지 심도 있는 학습의 지지로 자연어 처리도 빠른 발전을 맞았다.

다음으로 자연어 처리와 심화 학습이 결합된 후의 진전을 소개하겠습니다.

자연어에서 단어는 가장 기본적인 단위이다. 컴퓨터가 자연어를 이해하고 처리할 수 있도록 우리는 먼저 단어를 인코딩해야 한다. 자연어의 단어 수가 제한되어 있기 때문에 각 단어에 고유한 일련 번호를 지정할 수 있습니다. 예를 들어 영어 단어의 일련 번호는 1 156 일 수 있습니다. 계산을 용이하게 하기 위해 일반적으로 일련 번호를 균일한 벡터로 변환합니다. 간단한 방법은 단어 일련 번호를 one-hot 인코딩하는 것입니다. 각 단어는 길이가 n (총 단어 수) 인 벡터 (1 차원 배열) 에 해당합니다. 벡터의 단어 일련 번호에 해당하는 위치의 요소 값만 1 이고 나머지는 모두 0 입니다.

원버튼 인코딩을 사용하여 단어 벡터를 구성하는 것은 쉽지만 좋은 방법은 아닙니다. 주된 이유는 단어의 의미가 잘 표현되지 않기 때문이다. 예를 들어 사과와 귤은 비슷한 단어 (모두 과일) 이지만, 일열 벡터는 이런 비슷한 관계를 반영하지 못한다.

이러한 문제를 해결하기 위해 구글의 미코러브 등은 20 13 [1][2] 에서 word2vec 과 관련된 두 편의 오리지널 논문을 발표했다. Word2vec 는 단어를 고정 길이 벡터로 표시하고, 컨텍스트를 통해 단어의 의미 정보를 학습하여 단어의 특징, 단어와 단어 사이의 관계 등의 의미 정보를 표현할 수 있도록 합니다. Word2vec 에는 skip-gram 모델 [1] 과 연속 단어 가방 모델 [2] 의 두 가지 모델이 포함되어 있습니다. 그들의 기능은 중심 단어를 통해 문맥을 예측하고, 문맥을 통해 중심 단어를 예측하는 것이다. 예를 들어, "나는 사과 주스를 마신다" 라는 말이 있습니다. Skip-gram 모델은 apple 을 사용하여 다른 단어를 예측하고 CBOW 모델은 다른 단어를 사용하여 Apple 을 예측합니다.

먼저 컨텍스트 예측 중심 단어를 통한 3 계층 신경 네트워크인 CBOW 모델을 소개합니다. 어떤 훈련자료' 사과 쥬스를 마셔요' 를 예로 들면 사과를 라벨값으로 먼저 제거하고' 내가 쥬스를 마셔요' 를 입력으로, 사과를 예측할 첫단어로 삼을 수 있습니다.

Skip-gram 모델은 CBOW 와 비슷하며 3 층 신경망 모델입니다. 차이점은' 사과' 를 통해' 나는 쥬스를 마신다' 는 중심 단어를 통해 문맥을 예측한다는 것이다. 다음으로 Skip-gram 모델의 레이어를 간략하게 소개합니다.

두 개의 모델 훈련이 완료되면 단어 벡터 행렬로 사용되고, I 행은 시소러스에서 I 번째 단어의 단어 벡터를 나타냅니다. 단어 벡터를 사용하여 단어 간의 유사성 (단어 벡터 점 곱셈) 을 계산할 수 있습니다. 예를 들어, I drink _ juice 의 문맥을 입력하면, 사과와 귤에 해당하는 단어의 벡터가 매우 비슷하기 때문에, 즉 유사성이 높기 때문에, 초반어가 사과와 귤이 될 확률이 높을 것으로 예측됩니다. 단어 벡터는 기계 번역, 명명된 엔티티 인식, 관계 추출 등에도 사용할 수 있습니다.

사실 이 두 모델의 원형은 2003 년 이미 [3] 에 나타났고, Mikolov 는 13 에 있는 논문은 주로 모델을 단순화하고 음수 샘플링과 시퀀스 softmax 방법을 제시하여 훈련을 더욱 효율적으로 했다.

단어 벡터를 제시하면서 심도 있는 학습 RNN 프레임워크도 NLP 에 적용되어 단어 벡터와 결합하여 큰 성과를 거두었다. 그러나 RNN 네트워크에는 병렬화 어려움, 장거리 및 계층 적 종속성 설정 어려움 등 몇 가지 문제가 있습니다. 이 문제들은 20 17 이 발표한 논문' 주의력은 네가 필요로 하는 전부다' 에서 효과적으로 해결되었다. 본 논문에서는 변압기 모델을 제안한다. 전통적인 복잡한 CNN 과 RNN 은' 트랜스포머' 에서 버려졌으며, 전체 네트워크 구조는 완전히 주의력 메커니즘으로 구성되어 있다.

트랜스포머' 의 핵심 내용은 자기주의 메커니즘으로 주의 메커니즘의 변종이다. 주의력의 역할은 대량의 정보 중에서 소량의 중요한 정보를 선택하여 주의를 기울이는 것이다. 예를 들어, 사람들은 이미지를 볼 때 더 매력적인 부분에 초점을 맞추고 다른 정보는 무시하는 것이 관심의 표현이다. 그러나 매커니즘은 글로벌 정보, 즉 입력 데이터와 출력 데이터 및 중간 제품 간의 종속성에 주의를 기울입니다. 자기관심메커니즘은 다른 외부 데이터에 대한 관심을 줄이고, 입력 데이터 자체에만 초점을 맞추고, 데이터의 내부 연관성을 더 잘 포착합니다.

자기 관심 메커니즘의 알고리즘 흐름은 다음과 같습니다.

자기주의 메커니즘은 입력 데이터에서 단어 간의 관계를 설정할 뿐만 아니라 각 단어의 출력을 병렬로 효율적으로 계산합니다.

변압기의 전체 구조는 다음과 같습니다.

인코더와 디코더의 두 부분으로 나뉩니다.

인코더의 입력은 단어 벡터에 위치 코드 (단어가 있는 위치를 나타냄) 를 더한 다음 여러 장의 관심과 사전 피드를 통해 출력됩니다. 여기서 여러 개의 자기주의는 각 입력 단어가 여러 세트의 Q, K, V 에 해당하며 각 그룹마다 서로 영향을 주지 않는 것을 의미합니다. 마지막으로 각 단어는 여러 개의 출력 B 값을 생성하여 벡터를 형성합니다. 인코더는 변압기의 핵심이며 일반적으로 여러 층이 있습니다. 이전 레이어의 출력은 다음 레이어의 입력으로 사용되고 마지막 레이어의 출력은 디코더 입력의 일부로 사용됩니다.

디코더는 두 가지 다른 여러 개의 자체 주의 작업 (여러 개의 주의를 가리는 것과 여러 개의 주의를 가리는 것) 과 사전 피드로 구성되어 있습니다. 디코더는 전체 대상 텍스트가 출력될 때까지 한 번에 한 단어씩 여러 번 실행됩니다. 출력 부분은 다음 디코더의 입력으로 결합됩니다. 여기서 여러 개의 주의를 가리는 것은 입력에서 얻지 못한 부분을 감추고 여러 개의 자기 주의 작업을 하는 것이다. 예를 들어 5 개의 입력이 있지만 한 번에 2 개의 입력만 있는 경우 q 1 및 Q2 는 k 1 및 k2 만 곱합니다.

심도 있는 학습의 응용이 NLP 를 첫 도약하게 한다면. 사전 훈련 모드의 출현으로 NLP 는 두 번째 도약을 했다. 사전 훈련은 자체 감독 학습 (마크업 없음) 을 통해 대규모 어료 데이터에서 강력한 언어 모델을 배우고 미세 조정을 통해 특정 작업으로 마이그레이션함으로써 상당한 효과를 거두었습니다.

사전 교육 모드의 장점은 다음과 같습니다.

사전 훈련 모델에는 세 가지 핵심 기술이 있습니다.

사전 훈련 모델의 구조에 대해서는 Bert 를 예로 들 수 있습니다. 즉, 단어로 입력된 열 인코딩 벡터에 단어 벡터 행렬을 곱한 다음 멀티레이어 변환기의 인코더 모듈을 거쳐 출력을 얻습니다.

NLP 분야에서 인기 있는 연구 진척을 소개했는데, 그 중 컨버터와 사전 훈련 모델의 출현은 획기적인 의미를 지녔다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 스포츠명언) 그러나 초기 훈련 모델이 점점 더 커지면서 하드웨어 병목 현상도 건드릴 수 있다. 또한 NLP 는 독해력과 텍스트 추리 등 일부 임무에서의 표상도 만족스럽지 못하다. 결론적으로, NLP 분야는 여전히 큰 전망과 도전을 가지고 있으며, 우리의 장기적인 노력이 필요하다.

미코로프, T., 수츠키퍼, I., 진, K., 콜로라도, G.S.,& 원장, J. (20 13). 단어와 구의 분산 표현과 그 조합. 신경 정보 처리 시스템 진행 (3111-3119 면).

[2] 미코로프, T., 진, K., 코라도도, g.,& 원장, J. (20 13). 벡터 공간에서 단어 표현의 효과적인 추정. ArXiv 사전 인쇄본 arxiv:1301.3781.

[3] 조슈아 벤지오, R.? 에간 두암, 파스칼 빈센트, 크리스티안 자빈입니다. 신경 확률 언어 모델입니다. 기계 학습 연구지, 3:1137–1155, 2003 년.

[4]Vaswani A, Shazeer N, Parmar N 등. 주의력은 당신이 필요로 하는 모든 것 [C]// 신경 정보 처리 시스템의 발전이다 .2017: 5998-6

[5]Peters M E, Neumann M, Iyyer M 등. 심층적 맥락화 어휘 표현 [J].arXiv 사전 인쇄본 arXiv: 1802.05365, 20

[6] 라드포드, 나라신칸, 살리만스 등. 생성성 사전훈련을 통해 언어이해능력을 높이다 [J].20 18.

[7]Devlin J, Chang M W, Lee K 등. Bert: 언어 이해를 위한 깊이 양방향 컨버터를 위한 사전 훈련 [J].arXiv 사전 인쇄본 arxiv:18/kloc

[8]Houlsby N, Giurgiu A, Jastrzebski S 등. NLP 용 매개 변수 효율적인 마이그레이션 학습 [C]// 기계 학습 국제 회의, PMLR, 2019