본문 바로가기

AI.ML

[5주차] 결정트리, 랜덤 포레스트, SVM, MLP

[과대, 과소적합]
Q) 모델을 복잡하게 할수록 과대적합으로 흘러갈 가능성이 높은 이유는?
A) 모델이 너무 복잡해지면 훈련세트의 각 데이터 포인트에 민감해져 새로운 데이터에 일반화되지 못하기 때문이다.

[결정트리]
Q) 결정트리가 다른 알고리즘보다 나은 점 2가지를 서술하시오.
A) 만들어진 모델을 쉽게 시각화할 수 있어서 비전문가도 이해하기 쉽다. 각 특성이 개별적으로 처리되어 데이터를 분할하는데 데이터 스케일의 영향을 받지 않는다.

 

[Decision function]

Q) Decision boundary와 Decision function의 차이는?

A) 그래프에서 decision boundary는 0,1로만 나뉘면서 정확하게 나뉜 그래프가 나타나고 decision function은 -부터 +까지 연속적인 값으로 나오기 때문에 그래프가 나뉘지 않고 색이 연속적으로 나타난다.

 

[나이브 베이즈]
Q) 모델의 복잡도를 조절하는 매개변수 alpha가 크면 모델의 복잡도는 "낮아진다."
A) alha 값이 성능 향상에 크게 (기여한다/"기여하지 않는다.")

[지도학습 요약]
Q) 데이터 스케일조정이 필요없지만 고차원 희소 데이터에는 잘 안맞는 모델 이름은?
A ) "랜덤 포레스트"

[지도학습 요약]
Q) 2장에서 배운 모델 중 매개변수에 민감한 모델 두 가지는?
A) "서포트 벡터 머신, 신경망"

[비지도 학습] 
Q) 비지도 학습의 종류로는 비지도 변환, 군집이 있습니다. 두 가지 특성 중 비지도 변환, 군집에 대한 예시로 알맞은 키워드는?
A) 긴 글 3줄 요약, 동일 인물 사진 묶기

"비지도 변환 - 긴 글 3줄 요약, 군집 - 동일 인물 사진 묶기"

 

[Linear models]
Q) ridge regression의 역할은?
A) 오버피팅이 발생하는 것을 막기 위한 패널티

[Predicting probabilities]
Q) predict를 진행할 때 데이터 형태(타입)과 관련 없이 모두 0에서부터 시작한다, o/x
A) x, 데이터 타입에 따라 0에서부터 시작을 안하는 경우도 있음

 

[Predicting probabilities]
Q) 모델이 오버피팅 될 수록 ___하는 경향을 보인다.
A) 예측이 틀릴지라도 맞을거라는 강한 확신을 하는 경향을 보인다

 

[Predicting probabilities]
Q) predict_prob와 decisionfunction은 항상 (__,_)의 형태를 가짐
A) n_classes, n_shapes

 

[Some Sample Datasets]
Q) input feature 뿐만 아니라 feature 들 간의 관계를 확인할 수 있는 새로운 feature 를 만들어 data set 을 expand 시키는 것은?
A) feature engineering (모델 정확도를 높이기 위해서 input data를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정)

[Deep Learning]
Q) Input data 에 가중치가 곱해진 sum 을 구한 output에 (linear / nonlinear) function 을 더해주면 모델의 결과가 높아진다.
A) nonlinear (ex. relu (rectified linear unit) or tangens hyperbolicus (tanh))

[Deep Learning]
Q) input 과 output 사이의 중간 단계를 나타내는 (     ) 은 그 단계가 많아질수록 모델이 (overfitting / underfitting) 된다. model의 complexity가 (낮 / 높)아지기 때문이다.
A) hidden layers, overfitting, 높