2.2 Taxonomy of Interpretability Methods

2 minute read

머신러닝 해석가능성에 대한 방법은 다양한 기준에 따라 분류할 수 있다.

본질적인가(Intrinsic) 사후조사인가(post hoc)? 이 기준은 머신러닝 모델의 복잡성을 제한하거나(intrinsic) 훈련 후 모델을 분석하는 방법(post hoc)을 적용함으로써 해석가능성이 달성되는지 여부를 구분합니다. 본질적 해석가능성은 얕은 의사결정나무나 희박한(sparse) 선형 모델과 같이 단순한 구조로 인해 해석 가능한 것으로 간주되는 머신러닝 모델을 말합니다. 사후 해석가능성은 모델 학습 후 해석 방법을 적용하는 것을 말합니다. 순열 특성 중요성(permutation feature importance)은 post hoc 해석 방법입니다. 사후조사 방법은 본질적으로 해석가능한 모델에도 적용될 수 있습니다. 예를 들어, 의사결정나무에 대해 순열 특성 중요도를 계산할 수 있습니다. 이 책의 챕터들의 구성은 본질적으로 해석할 수 있는 모델과 사후(및 모델 독립적(model-agnostic)) 해석 방법으로 구분됩니다.

다양한 해석 방법의 결과는 결과에 따라 구분할 수 있습니다.

특성 요약 통계량(feature summary statistic): 많은 해석 방법이 각 특성에 대한 요약 통계를 제공합니다. 일부 방법들은 특성별 단일 특성 중요도를 나타내기도 하고, 각 특성 쌍의 특성간 상호 작용 강도와 같은 보다 복잡한 결과를 나타내기도 합니다.
특성 요약 시각화(feature summary visualization): 대부분의 특성 요약 통계는 시각화도 할 수 있습니다. 일부 특성 요약은 테이블로 나타내는 것보다 시각화를 하는 것이 더 의미를 얻을 수 있습니다. 특성의 부분 의존도(partial dependence)가 그런 경우입니다. 부분 의존도 그림은 각 특성에 따른 예측 결과의 평균값을 보여 주는 곡선입니다. 부분 의존도를 나타내는 가장 좋은 방법은 좌표를 출력하는것 대신 곡선을 그리는 것입니다.
모델 내부(model internals) (예: 학습된 가중치): 본질적으로 해석 가능한 모델의 해석이 이 범주에 속합니다. 선형 모델의 가중치 또는 의사결정나무의 학습된 트리 구조(분할에 사용되는 특징 및 임계값)를 예로 들 수 있습니다. 가중치가 모형 내부 통계량과 특성에 대한 요약 통계량(예: 선형 모형) 둘 다 해당하기 때문에 모형 내부 통계량과 특성 요약 통계량 사이에 구분이 애매할 수 있습니다. 모델 내부를 출력하는 또 다른 방법은 합성신경망에서 학습된 특성 검출기를 시각화하는 것입니다. 모델 내부를 출력하는 해석 방법은 model-specific으로 정의합니다(다음 문단 참조).
데이터 지점(data point): 이 범주에는 모델을 해석할 수 있도록 데이터 지점(이미 존재하거나 새로 생성된)를 반환하는 모든 방법이 포함됩니다. 한 가지 방법은 반사실적(counterfactual) 설명이라고 합니다. 관측치(instance)의 예측을 설명하기 위해 이 방법은 예측 결과가 관련 방식으로 일부 특성을 바꿔가며 유사한 데이터 지점을 찾습니다(예: 예측한 클래스를 반전). 또 다른 예는 예측 클래스의 프로토타입을 식별하는 것입니다. 새 데이터 지점을 출력하는 해석 방법을 사용하려면 데이터 지점 그자체로 해석될 수 있어야합니다. 이는 영상과 텍스트에 적합하지만 수백 개의 특성이 있는 테이블 형식의 데이터에는 덜 유용합니다.
본질적으로 해석할 수 있는 모형(intrinsically interpretable model): 블랙 박스 모델을 해석하는 한 가지 해결책은 해석 가능한 모델로 대략적으로(전제척으로(globally) 또는 지역적으로(locally)) 접근하는 것입니다. 해석 가능한 모델 자체는 내부 모델 매개변수 또는 피쳐 요약 통계를 살펴봄으로써 해석됩니다.

모델별로(Model-specific) 또는 모델 그자체로(model-agnostic)?: Model-specific 해석 방법들은 특정 모델들로 제한되어 있습니다. 선형 회귀 모형의 가중치에 대한 해석이 바로 model-specific 해석입니다. 이는 내부적으로 해석가능한 모델들의 해석은 항상 model-specific하기 때문입니다. 신경망과 같은 모델에만 사용되는 해석 방법은 model-specific합니다. Model-agnostic 방법은 어떤 모델이든 사용가능하며 학습이 끝난 모델에도 적용할 수 있습니다(post-hoc). 이 방법은 보통 입력값과 출력값의 짝을 지어 분석할 때 사용됩니다. 정의상 이러한 방법은 가중치나 구조 정보와 같은 모델 내부적으로는 건들지 않습니다.

지역(Local) or 전체(global)? 해석 방법이 예측값별로 설명하는가? 아니면 모델 전체를 설명하는가? 또는 그 중간인가? 이에 대해서는 다음 장에서 설명합니다.