- LSA 의 단점은? (이 단점 때문에 Word2Vec 등 단어의 의미를 벡터화할 수 있는 인공 신경망 기반의 방법론이 각광 받고 있음)
- 이미 계산된 LSA에 새로운 데이터를 추가하여 계산하려고하면 처음부터 다시 계산해야 함 → 새로운 정보에 대해 업데이트가 어려움
- 추상적 요약은 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법입니다. 이의 대표적인 모델은?
- seq2seq
- 해당 장에서 사용된 한국어 토크나이저는?
- okt, mecab
- 키워드 추출할 때 다양하 키워드를 얻기 위해 사용하는 알고리즘이 있다. ____는 텍스트 요약 작업에서 중복을 최소화하고 결과의 다양성을 극대화하기 위해 노력한다.
- mmr
- 버토픽은 bert-embedding과 클래스 기반 tf-idf를 활용하여 주제 설명에서 중요한 단어를 유지하면서도 쉽게 해석할 수 있는 조밀한 클러스터를 만드는 토픽 모델링 기술이다.
- o
- LSA 는 절단된 SVD를 사용한다. SVD를 절단하면 대각 행렬의 대각 원소 값 중에서 상위값 t개만 남게 된다. t의 값이 크고, 작을 때 각각의 특징은 무엇인가?
- t : 찾고자 하는 토픽의 수를 반영한 하이퍼파라미터값
- t를 크게 잡으면 기존의 행렬 A로부터 다양한 의미를 가져갈 수 있음
- t를 작게 잡아야만 노이즈를 제거할 수 있음
- t : 찾고자 하는 토픽의 수를 반영한 하이퍼파라미터값
- 추상적 요약의 모델에서 디코더의 출력층을 설계할 때, activation함수로 무슨 함수를 사용하는가?
- softmax
-
import gensim K = 20 ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = K, id2word=dictionary, passes=15) topics = ldamodel.print_topics(num_words=4) for topic in topics: print(topic)
- K 는 토픽의 개수
- LDA는 모든 문서의 모든 단어에 대해서 k개 중 하나의 토픽을 랜덤으로 할당
- 키워드를 추출할 때 countVectorizer를 사용하여 단어를 추출한다. countVectorizer를 사용하는 이유는?
- ___n-gram__을 추출할 수 있기 때문
- 복합 토픽 모델을 한국어에 적용하기 위해서는 추가적인 코드 수정이 필요하다. 이에 따라서 형태소 분석기 ( )을 사용한다.
- mecab
- 토픽 모델링에서 문맥을 반영하기 위해 수행하는 것은? hint) ___모델___을 통해 _______을 얻다
- a) sbert, 문장 임베딩
- LDA가 입력으로 받는 행렬 2가지
- BoW의 행렬 DTM
- TF-IDF 행렬
'AI.ML' 카테고리의 다른 글
[AI/ML 스터디] 1주차 - 03. 파이토치기초(~최적화) (1) | 2024.10.07 |
---|---|
[AI/ML스터디] 2주차- 03. 파이토치기초(~퍼셉트론) (0) | 2024.10.05 |
[NLP 스터디] 6주차 스터디 - 20. 텍스트 요약 (0) | 2023.11.07 |
[NLP 스터디] 6주차 정리 - 19.토픽 모델링 (0) | 2023.11.07 |
[NLP 스터디] 5주차 BERT (1) | 2023.10.15 |