분류 전체보기43 트랜스포머 시리즈 4편 트랜스포머의 구조 - 인코더 HTML 삽입 미리보기할 수 없는 소스 이번 포스팅과 다음 포스팅에서는 트랜스포머의 구조에 대해 알아보겠습니다 트랜스포머는 2017년 구글에서 발표한 논문 Attention Is All You Need에서 등장한 개념입니다 현재 자연어 처리 분야에서 사용되는 많은 모델들이 이 아키텍쳐에 기반을 두고 있으며 비전 분야에서도 트랜스포머에 기반한 ViT를 사용하기도 합니다 그러나 재미있는(?) 점은 논문의 저자들도 이게 왜 잘 되는지에 대한 설명을 하지 못한다는 겁니다 '이렇게 해보니 잘 되더라'라는 식의 내용이 많고 아직 제대로된 깔끔한 해석이 나오지 않은 상황입니다 (앞으로도 그럴 것 같습니다) 따라서 트랜스포머의 구조를 보시면서 '왜 이 레이어를 넣었지?', '왜 이렇게 했지?', '왜 이 연산을 한거지.. 2024. 2. 5. 트랜스포머 시리즈 3편 Q, K, V HTML 삽입 미리보기할 수 없는 소스 이번 포스팅에서는 트랜스포머에서의 셀프 어텐션과 유명한 식 $$Attention(Q, K, V) = Softmax(QK^{T})V$$에 대해 알아보겠습니다. 알고 계셨다면 좋고 모르고 계셨더라도 괜찮습니다. 이 식이 어떤 의미를 가지고 있고 어떻게 계산되는지 설명하겠습니다 Query, Key, Value 식에 대해 설명하기에 앞서 트랜스포머에서 어텐션이 어떻게 사용되는지 알아야 합니다 앞서 두 편의 포스팅에서 seq2seq에서의 어텐션은 은닉 상태 벡터간의 내적 연산을 수행하고, 셀프 어텐션은 각 단어의 임베딩 벡터간의 내적 연산을 한다고 설명했습니다 트랜스포머는 임베딩 벡터나 은닉 상태 벡터를 사용하지 않고 쿼리(Query) 벡터, 키(Key) 벡터, 밸류(Val.. 2024. 2. 4. 트랜스포머 시리즈 2편 Self-Attention 셀프 어텐션 HTML 삽입 미리보기할 수 없는 소스 지난 포스팅에서는 seq2seq과 어텐션을 결합한 seq2seq with attention에 대해 알아보았습니다 오늘은 셀프 어텐션(self-attention)에 대해 알아보겠습니다 seq2seq with attention을 잘 이해했다면 어렵지 않습니다 seq2seq with attention에서는 어텐션 스코어를 계산할 때 인코더에서 넘어온 은닉 상태 벡터들과 디코더의 은닉 상태 벡터간의 내적을 한 뒤 소프트맥스를 취해주었습니다. 여기서 주목할 점은 인코더의 은닉 상태 벡터 $h_{(encoder, i)}$와 디코더의 은닉 상태 벡터 $h_{(decoder, j)}$간의 연산이었다는 것입니다. 즉, 현재 출력하려는 결과와 유사도가 가장 높은 input 정보를 많.. 2024. 2. 2. 트랜스포머 시리즈 1편 Attention 어텐션 HTML 삽입 미리보기할 수 없는 소스 본격적으로 트랜스포머에 대해 배우기 전에 어텐션과 어텐션의 탄생에 대해 알아보겠습니다 Seq2Seq의 한계 어텐션은 seq2seq 모델의 단점을 극복하기 위해 등장한 방법입니다. seq2seq이 가지는 단점은 다음과 같습니다: seq2seq의 인코더는 입력된 시퀀스 데이터에 대해 하나의 은닉 상태 벡터(hidden state vector) 만을 디코더로 전달합니다 그래서 시퀀스의 앞부분에 있는 데이터에 대한 정보 유실됩니다 시퀀스 데이터의 길이가 길어질수록 이 문제는 더 심각해집니다 어텐션 seq2seq의 한계가 인코더에서 하나의 은닉 상태 벡터만이 디코더로 전달되는 것이 문제라면 인코더의 모든 은닉 상태 벡터를 전달해준다면 어떨까요? 그래서 seq2seq with.. 2024. 2. 1. [논문 리뷰] PaperMage: A Unified Toolkit for Processing, Representing, and Manipulating Visually-Rich Scientific Documents HTML 삽입 미리보기할 수 없는 소스 [원문] [깃허브] 책과 논문은 과학적 지식을 나누고 담아두는 주요한 매체입니다. 때문에 우리는 어떤 분야의 최근 동향을 알고 싶을 때에 책과 논문을 찾아봅니다. 최근에는 이런 매체에서 지식 정보를 더 잘 추출하기 위한 툴을 개발하는 것에 관심이 커지고 있습니다. 물론 지금도 이런 일들을 해주는 툴들이 존재 하지만 한계점들이 있습니다: 파서(parser, 문서에서 정보를 추출하는 툴이나 알고리즘)는 텍스트나 이미지 혹은 도표를 있는 그대로 가져옵니다. 파서가 가져온 raw 데이터는 그것이 저자에 대한 정보인지, 논문의 제목인지, abstract인지에 대한 정보를 가지고 있지 못합니다. 즉, 책이나 논문의 구조에 대한 이해 없이 정보를 긁어온다는 것입니다. 또한 파서.. 2024. 1. 26. [논문 리뷰] Generative Agents: Interactive Simulacra of Human Behavior HTML 삽입 미리보기할 수 없는 소스 [원문] [데모] [코드] 이 논문에서는 인간처럼 행동하는 AI 캐릭터들을 시뮬레이션 한 내용에 관해 서술합니다. 이 시뮬레이션에 사용된 아키텍처는 대규모 언어 모델(ChatGPT)을 사용하여 각 캐릭터의 경험, 기억, 계획을 자연어의 형태로 저장하고 합성합니다. 이 시뮬레이션의 배경은 Smallville이라고 하는 마을이며 이용자는 캐릭터들과 자연어를 사용하여 상호작용할 수도 있습니다. 시뮬레이션 결과 캐릭터들이 믿을만 한 수준으로 인간과 비슷한 행동 양상을 보여주었고 저자는 그런 결과를 얻을 수 있었던 이유가 아키텍쳐의 각 요소들(observation, planning, reflection)이 중요한 역할을 했기 때문이라고 설명했습니다. 요약: 이 연구는 대규모.. 2024. 1. 21. 이전 1 2 3 4 5 6 7 8 다음