본문 바로가기

전체 글

(69)
[NLP 스터디] 4주차 Paper Review, Attention is all you need 0. Background & Introduction 📌 Transformer 이전의 기존 주류 모델: CNN, RNN based Model RNN의 문제점 기울기 소실 거리가 먼 문장에 대한 의존성 학습이 까다로움 긴 문장을 학습할 때, 처음의 단어를 서서히 까먹어가는 모델들.. 순차적인 특성으로 인한 병렬화 문제 순차적인 특성?(Sequential) RNN의 구조를 생각해보자! t-1 시점의 hidden state를 input으로 하여 t 시점의 hidden state를 계산한다. 이전 시점을 처리해야 다음 시점을 처리할 수 있는 특성 즉, 병렬적 처리가 불가능하다라는 것을 의미한다. 본 논문에서는 위의 문제점을 극복하기 위해 RNN이나 CNN 대신에 Self - Attention을 사용하는 Trans..
[NLP 스터디] 4주차 - 퀴즈 positional encoding 과정에서 왜 cos,sin함수를 사용하는 지 범위가 커지는 것을 막기 위함 하나의 주기함수만 사용하면 비슷한 값이 많아질 수 있어서(https://www.blossominkyung.com/deeplearning/transfomer-positional-encoding) 인코더와 디코더의 모든 sub-layer 다음의 Add&Norm에 적용되는 Residual Connection과 Layer Normalization의 효과는? (https://velog.io/@stapers/논문-스터디-Week4-5-Attention-is-All-You-Need) Residual connection: 하위층에서 데이터가 처리되었을 때 손실되는 것을 방지하기 위함 Layer normaliz..
[NLP 스터디] 4주차 정리 - 15. Attention Mechanism 기존 RNN에 기반한 seq2seq 모델의 2가지 문제점 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생 RNN의 고질적인 문제인 기울기 소실(vanishing gradient) 문제 → 이를 보안한 기법 : Attention 어텐션 아이디어 디코더에서 출력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 다시 한 번 참고한다는 점 단, 전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야 할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중(attention)해서 보는 것. 어텐션 함수 어텐션을 함수로 표현하면 아래와 같다. Attention(Q, K, V) = Attention Value Q = Query ..