본문 바로가기

AI.ML

[NLP 스터디] 6주차 퀴즈

  1. LSA 의 단점은? (이 단점 때문에 Word2Vec 등 단어의 의미를 벡터화할 수 있는 인공 신경망 기반의 방법론이 각광 받고 있음)
    • 이미 계산된 LSA에 새로운 데이터를 추가하여 계산하려고하면 처음부터 다시 계산해야 함 → 새로운 정보에 대해 업데이트가 어려움
  2. 추상적 요약은 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법입니다. 이의 대표적인 모델은?
    • seq2seq
  3. 해당 장에서 사용된 한국어 토크나이저는?
    • okt, mecab
  4. 키워드 추출할 때 다양하 키워드를 얻기 위해 사용하는 알고리즘이 있다. ____는 텍스트 요약 작업에서 중복을 최소화하고 결과의 다양성을 극대화하기 위해 노력한다.
    • mmr
  5. 버토픽은 bert-embedding과 클래스 기반 tf-idf를 활용하여 주제 설명에서 중요한 단어를 유지하면서도 쉽게 해석할 수 있는 조밀한 클러스터를 만드는 토픽 모델링 기술이다.
    • o
  6. LSA 는 절단된 SVD를 사용한다. SVD를 절단하면 대각 행렬의 대각 원소 값 중에서 상위값 t개만 남게 된다. t의 값이 크고, 작을 때 각각의 특징은 무엇인가?
    • t : 찾고자 하는 토픽의 수를 반영한 하이퍼파라미터값
      • t를 크게 잡으면 기존의 행렬 A로부터 다양한 의미를 가져갈 수 있음
      • t를 작게 잡아야만 노이즈를 제거할 수 있음
  7. 추상적 요약의 모델에서 디코더의 출력층을 설계할 때, activation함수로 무슨 함수를 사용하는가?
    • softmax
  8. import gensim
    K = 20
    ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = K, id2word=dictionary, passes=15)
    topics = ldamodel.print_topics(num_words=4)
    for topic in topics:
        print(topic)
     
    1) K는 무엇인가  2) LDA는 K를 어떻게 활용하는가?
    • K 는 토픽의 개수
    • LDA는 모든 문서의 모든 단어에 대해서 k개 중 하나의 토픽을 랜덤으로 할당
  9. 키워드를 추출할 때 countVectorizer를 사용하여 단어를 추출한다. countVectorizer를 사용하는 이유는?
    • ___n-gram__을 추출할 수 있기 때문
  10. 복합 토픽 모델을 한국어에 적용하기 위해서는 추가적인 코드 수정이 필요하다. 이에 따라서 형태소 분석기 ( )을 사용한다.
    • mecab
  11. 토픽 모델링에서 문맥을 반영하기 위해 수행하는 것은? hint) ___모델___을 통해 _______을 얻다
    • a) sbert, 문장 임베딩
  12. LDA가 입력으로 받는 행렬 2가지
    • BoW의 행렬 DTM
    • TF-IDF 행렬