[NLP 스터디] 5주차 NLP에서의 사전 훈련

1. 사전 훈련된 워드 임베딩

💡 방대한 데이터로 Word2Vec 등과 같은 임베딩 알고리즘으로 사전에 학습된 임베딩 벡터들을 가져와 사용하는 방법

>> 태스크에 사용하기 위한 데이터가 적다면, 사전 훈련된 임베딩을 사용하면 성능 향상을 기대해볼 수 있었다.

⛔ 문제점

>> 하나의 단어가 하나의 벡터값으로 맵핑되므로, 문맥을 고려하지 못 하여 다의어나 동음이의어를 구분하지 못했다.

💡 해결방안

>> 사전 훈련된 언어 모델을 사용

💡 방대한 텍스트로 모델을 학습해두고, 언어 모델을 다른 태스크에서 높은 성능을 얻기 위해 사용하는 방법

💡 Masked Model의 등장

언어의 문맥은 양방향이다.

⛔ 문제점

💡 해결방안

이와 같이 기존 언어 모델로는 양방향 구조를 도입할 수 없으므로, 양방향 구조를 도입하기 위해서

새로운 구조의 언어모델인 Masked Language Model이 등장했다.

[방법론]

[NLP 스터디] 6주차 정리 - 19.토픽 모델링 (0)	2023.11.07
[NLP 스터디] 5주차 BERT (1)	2023.10.15
[NLP 스터디] 4주차 Paper Review, Attention is all you need (1)	2023.10.03
[NLP 스터디] 4주차 - 퀴즈 (0)	2023.10.03
[NLP 스터디] 4주차 정리 - 15. Attention Mechanism (0)	2023.10.03