한 줄 요약: LLM에서 나타나는 emergent ability들은 모델 평가에 어느 메트릭을 선택하느냐에 따라 나타나지 않을 수 있다.
Emergent ability란?
Emergent ability에 대해 설명하기 전에 조금 더 포괄적인 개념인 emergent property에 대해 설명하겠습니다. Emergent property이라는 것은 작은 부분들이 모였을 때 예상하지 못하게 나타나는 새로운 특성을 말합니다. 예를 들어, a라는 특성을 가지는 A와 b라는 특성을 가지는 B가 결합을 해 AB가 되었을 때 전에 없던 c라는 특성이 생겨나 abc 특성을 가지게 될 때 c를 emergent property라고 합니다. 아래의 표를 참고해주세요:
집합 | A | B | -> | AB |
특성 | a | b | -> | abc |
수소 분자와 산소분자는 각각 무극성 분자이지만 둘이 모이면 극성 분자가 되는 것도 emergent property의 한 예라고 볼 수 있습니다:
분자 | $2H_{2}$ | $O_{2}$ | -> | $2H_{2}O$ |
특성 | 무극성 | 무극성 | -> | 극성 |
Emergent ability도 마찬가지로 전에 없던 기능이 생기는 것을 말하는데 이 논문에서는 언어 모델의 스케일을 키움에 따라 갑자기 특정 task에 대한 성능이 크게 좋아지는 현상에 대해 분석하고 있습니다.
언어 모델의 스케일을 계속 키웠더니 어느 순간 인간에 대한 공격성을 나타낸다면 무서울 것 같지 않나요? 그러나 안심하세요 이 논문에서는 그런 일은 없을거라고 말해주고 있습니다.
다양한 언어모델의 스케일을 키웠을 때(파라미터수를 증가시켰을 때) emergent ability가 나타난다는 근거를 보겠습니다.
위 시각화 결과를 보면 여러 task((A) ~ (H) 각각이 다른 task)에 대해서 모델의 크기가 커졌을 때 task 수행능력(y값)이 급격이 좋아지는 것을 발견할 수 있습니다. 이러한 급격하고 예측 불가능한 변화를 본 이후 연구자들은 "어떻게 하면 emergent ability가 나타나는 시기를 조절할 수 있을까?", "어떻게 하면 우리가 원하는 emergent ability를 이끌어낼 수 있을까?", "어떻게 하면 우리가 원치 않는 emergent ability가 나타나지 않게 할 수 있을까?"하는 주제들에 대해 연구하기 시작했다고 합니다.
그러나 논문의 저자 Rylan Schaeffer et al.은 저러한 성능 평가 결과는 잘못된 평가 방법에 의해 나타나는 환상이라고 이야기 합니다. 저자는 저런 결과가 나타난 이유가 1. 잘못된 metric 선정과 2. 작은 테스트 데이터셋을 사용한 것에 의한 결과라고 말합니다.
실제로 언어모델들에서 나타나는 emergent ability들의 92% 이상이 Multiple Choice Grade, Exact String Match 두 metric에서 나타난다고 합니다. 두 metric의 특징은 정답인 경우 1점 그렇지 않은 경우는 모두 0점으로 처리한다는 것입니다. 비유를 들자면 서술형 문제인데 부분점수를 주지 않는 것입니다. 이처럼 부분점수를 주지 않는 metric을 non-linear metric, 부분점수를 부여하는 metric을 linear metric이라고 합니다. 더 정확히 말하자면 non-linear metric은 예측과 정답이 일치하는 정도를 평가하고 linear metric은 품질을 평가합니다. 저자는 linear metric을 사용하는 경우 emergent ability가 나타나는 현상이 증발해버린다고 말하며 그것을 실험을 통해 증명합니다.
논문은 emergent ability들이 model 평가에 사용되는 metric 선정에 따라 나타나지 않을 수 있다는 것을 확인하기 위해 다음과 같은 세가지 실험을 진행합니다:
- InstructGPT / GPT-3 모델을 사용하여 창발적 기능이 생기는 현상이 나타난다고 보고된 task에서 메트릭 선택의 영향을 확인하기 위해 세가지 예측을 수행하고 테스트 합니다.
- (LLM에서 emergent ability가 나타난다는 결과를 보여주는) 벤치마크들에 대해 메타 분석을 통해 그러한 현상이 metric 선정에 의해 사라질 수도 있다는 것을 보여줍니다
- 평가에 사용되는 메트릭을 의도적으로 변경함으로써 다양한 비전 작업에 걸쳐 여러 아키텍처에서 이전에는 볼 수 없었던 새로운 기능을 유도합니다
즉, emergent ability가 나타나는 현상을 재현하고, 메트릭을 바꿈으로써 현상을 사라지게 만들거나 나타나게 만들 수 있음을 실험을 통해 보여줍니다.
1. Analyzing InstructGPT/GPT-3’s Emergent Arithmetic Abilities
저자는 InstructGPT/GPT-3 모델에서 가장 두드러지게 나타나는 emergent ability인 정수 계산 작업에 대해 실험했습니다. (2개의 두 자릿수 수를 곱하는 연산, 2개의 네 자릿수 숫자를 더하는 연산)
저자는 GPT family 모델에 대해 실행한 실험의 결과를 이렇게 예측했습니다:
예측1)비선형적이거나 불연속적인 메트릭을 선형적이거나 연속적인 메트릭으로 바꾸었을 때 부드럽고, 연속적이며, 예측 가능한 성능 상승을 보여줄 것이다.
예측2) 테스트 데이터 세트의 크기를 키우면 모델의 emergent ability가 나타나는 양상이 완화될 수 있다 (변화의 폭이 줄어들 수 있다)
예측3) metric에 관계 없이 정답 문자열의 길이를 늘리는 것이 모델 성능 평가 결과에 영향을 미칠것이다.
-->
결과1)
아래 여러 그래프에서 윗줄은 non-linear metric을 이용한 결과, 아랫줄은 linear metric을 이용한 결과입니다. 그래프 상에서 emergent ability의 출현(갑자기 튀는 값)이 linear metric을 이용했을 때 완화된 것을 볼 수 있습니다.
결과2)
테스트 데이터 세트의 크기를 키운 결과입니다. 아래 결과를 결과1)의 윗줄과 비교하면 테스트 데이터 세트의 크기를 키우는 것 만으로도 emergent ability의 출현이 완화된 것을 볼 수 있습니다. (테스트 데이터 세트의 크기를 얼만큼 키웠는지는 논문에 기술되어 있지 않습니다)
2. Meta-Analysis of Claimed Emergent Abilities
저자는 다시 다음과 같은 예측들을 던졌습니다:
예측1) Emergent ability는 Task-Model Family 쌍이 아니라 metric, 특히 비선형 or 불연속적 metric에 의해 나타난다.
예측2) Task-Metric-Model Family 조합에서 metric을 선형 혹은 연속적 metric으로 바꾸면 emergent ability가 제거될 것이다.
-->
결과1)
저자의 예측이 맞다면 일부 metric에서만 emergent ability가 나타나야 합니다. 왜냐하면 emergent ability 실제로 존재한다면 모든 metric에서 그것을 확인할 수 있어야 하기 때문입니다. 그러나 BIG-Bench(Beyond the Imitation Game Benchmark, 구글에서 발표한 200개 이상의 LLM task에 대한 metric들) 중 자주 사용되는 39개의 metric을 대상으로 Emergence score(metric)를 구한 결과 대부분의 metric에서는 emergent ability를 확인할 수 없었고 그 중 5개의 metric에서만 emergent ability가 나탄나는 현상을 관찰할 수 있었습니다. 이 5개 중 3개(Exact String Match, Multiple Choice Grade, ROUGE-L-Sum)는 비선형적이거나 불연속적인 metric이었습니다.
Emergence score 만으로는 확실히 판단할 수 없기 때문에 저자는 task-metric-model triplet을 직접 분석한 결과 39개 중 4개의 metric에서 emergent ability가 나타났고 이 네 개의 metric이 보이는 emergent ability 중 92% 이상이 Multiple Choice Grade (불연속 metric)과 Exact String Match (비선형 metric), 두 metric에서 나타났습니다.
결과2)
LaMDA 모델을 이용해 실험한 결과를 보여줍니다. 아래 이미지상 좌측은 불연속적 metric인 Multiple Choice Grade를 사용했을 때 emergent ability가 나타남을 보이는 그래프이고 우측은 연속적 metric인 Brier Score를 사용했을 때 그 현상이 사라진 것을 보여줍니다.
3. Inducing Emergent Abilities in Networks on Vision Tasks
이번에는 저자들이 LLM이 아닌 vision emergent ability를 metric의 선정만으로 만들어 낼 수 있음을 보여줍니다.
실험1)
실험 개요:
- Task: shallow autoencoder에서 이미지 재현 task에 대해 emergent ability를 유도
- Model: 1개의 hidden layer를 가지는 shallow autoencoder
- Dataset: CIFAR100 natural images
이 실험에서는 아래와 같은 새로운 metric을 만들었습니다.
이 $Reconstruction_{c}$ metric을 사용하면 아래 이미지의 가장 우측에서 보이는 것처럼 인위적으로 emergent ability가 나타나게 할 수 있음을 보여줍니다.
실험2)
실험 개요:
- Task: Transformer에서 이미지 분류 task에 대해 emergent ability를 유도
- Model: Decoder-only Transformers
- Dataset: Omniglot data set
Decoder-only transformer의 이미지 분류 task 성능을 subset accuracy (1-5개 이미지가 주어졌을 때 모든 이미지를 정확히 분류하면 1, 아니면 0)로 평가했을 때에는 emergent 현상이 나타나지 않았으나 모든 이미지를 정확히 분류했을 때 1점을 주는 방식으로 metric을 변경했을 때에는 emergent ability로 나타나게 됩니다.
정리 및 고찰
이 논문은 LLM의 스케일을 키웠을 때 나타난다고 알려진 emergent ability들이 metric을 교체함으로써 사라지게 될 수 있음을 보여줍니다. 또한, metric의 교체로 없던 emergent ability를 나타나게 만들 수도 있다는 것을 실험을 통해 증명했습니다. 다시 말해, emergent ability들은 연구자의 metric 선정에 따라 나타날 수도 있고 나타나지 않을 수도 있습니다. 그러나 저자는 이 실험들이 LLM에서 emergent ability가 나타나지 않는다는 것을 증명하지는 않는다고 합니다.
그렇다면 emergent ability를 객관적으로 찾을 수 있는 궁극적인 metric이 존재할 수 있을지 혹은 여러 metric의 결과를을 종합해 emergent ability인지 아닌지를 평가할 수 있는 객관적인 평가 지표를 만들수 있을지 의문이 들기도 합니다. 왜냐하면 여러 한 task에 대해 수십개의 metric을 적용해보면 어느 하나에서는 emergent ability가 나타났다는 결과를 얻을 확률이 높기 때문에 객관적인 평가 지표가 필요할 것 같습니다.