본문 바로가기

전체 글

(60)
[NLP 스터디] 6주차 퀴즈 LSA 의 단점은? (이 단점 때문에 Word2Vec 등 단어의 의미를 벡터화할 수 있는 인공 신경망 기반의 방법론이 각광 받고 있음) 이미 계산된 LSA에 새로운 데이터를 추가하여 계산하려고하면 처음부터 다시 계산해야 함 → 새로운 정보에 대해 업데이트가 어려움 추상적 요약은 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법입니다. 이의 대표적인 모델은? seq2seq 해당 장에서 사용된 한국어 토크나이저는? okt, mecab 키워드 추출할 때 다양하 키워드를 얻기 위해 사용하는 알고리즘이 있다. ____는 텍스트 요약 작업에서 중복을 최소화하고 결과의 다양성을 극대화하기 위해 노력한다. mmr 버토픽은 bert-embedding과 클래스 기반 tf-idf를 활용..
[NLP 스터디] 6주차 스터디 - 20. 텍스트 요약 어텐션을 이용한 텍스트 요약 텍스트 요약 : 상대적으로 큰 원문을 핵심 내용만 간추려서 상대적으로 작은 요약문으로 변환하는 것 추출적 요약 : 원문에서 중요한 핵심 문장 또는 단어구를 몇 개 뽑아서 이들로 구성된 요약문을 만드는 방법 대표적인 알고리즘으로 머신 러닝 알고리즘인 텍스트랭크(TextRank) 추상적 요약 : 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법 추상적 요약을 인공 신경망으로 훈련하기 위해서는 '원문' 뿐만 아니라 '실제 요약문'이라는 레이블 데이터가 있어야한다. 문장 임베딩 기반 텍스트 랭크 텍스트 랭크 : 페이지랭크를 기반으로 한 텍스트 요약 알고리즘 페이지 랭크 : 검색 엔진에서 웹 페이지의 순위를 정하기 위해 사용되던 알고리즘 텍스트랭크..
[NLP 스터디] 6주차 정리 - 19.토픽 모델링 잠재 의미 분석 직교 행렬 - n*n 행렬 A가 있을 때 A * A^T = I 와 A^T * A = I 가 만족하는 행렬 대각 행렬 - 주대각선을 제외한 곳의 원소가 모두 0인 행렬 특이 값 분해 (SVD) 절단된 SVD - 절단된 SVD는 대각 행렬 Σ의 대각 원소의 값 중에서 상위 값 t개만 남게 된다. 절단된 SVD를 수행하면 값의 손실이 일어나므로 기존의 행렬 A를 복구할 수 없음 장 : full SVD를 하였을 때보다 직관적으로 계산 비용이 낮아지는 효과를 얻을 수 있음절단된 SVD 잠재 의미 분석 - 기존의 문제점 : 기존의 DTM이나 DTM에 단어의 중요도에 따른 가중치를 주었던 TF-IDF 행렬은 단어의 의미를 전혀 고려하지 못한다는 단점 - LSA : 기본적으로 DTM이나 TF-IDF 행..