본문 바로가기

논문리뷰7

[논문리뷰] MODERNTCN:A MODERN PURE CONVOLUTION STRUCTURE FOR GENERAL TIME SERIES ANALYSIS " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스분야: Time Seires아키텍쳐: ModerTCN [원문링크]날짜: 2023-11-27타입: Multivariate출판 정보: ICLR 2024 Introduction시계열 예측은 다양한 적용 범위를 가지는 기술입니다. 결측치 예측, 행동 예측, 이상치 탐지 등 많은 활용이 가능합니다. 최근 시계열 분석 및 예측 분야에서 트랜스포머와 MLP 기반 모델들이 두각을 나타내면서 컨볼루션 기반 모델들이 소외되었습니다. 그러나 컨볼루션 기반 모델은 효율과 성능의 밸런스가 좋기 때문에 이 저자는 완전 컨볼루션 모델을 연구하고자 했습니다. 트랜스포너와 MLP 기반 모델의 성능이 좋았던 것은 ERFs(effective receptive fi.. 2024. 5. 26.
[논문 리뷰] A Decoder-Only Foundation Model For Time-Series Forecasting " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스논문 제출일자: 2023년 10월 14일[논문 원문 링크] 시계열 예측은 리테일, 금융, 제조업, 의료, 자연과학 분야에서 두루두루 필요한 분야입니다. 시계열 예측은 딥러닝 모델들이 완전히 정복하지 못한 분야로 아직까지 ARIMA, GARCH 같은 전통적인 통계학적 접근 방법을 이용한 도구가 좋은 성능을 보이고 있습니다. 이 논문에서는 현재까지의 SOTA 모델들과 견주어 볼 만한 트랜스포머 아키텍쳐 기반의 딥러닝 모델 TimesFM을 소개합니다.자연어 처리(NLP) 분야에서는 대규모 언어 모델(LLM)이 대규모 데이터셋으로 학습되어 다양한 다운스트림 태스크에서도 뛰어난 성능을 발휘하고, 때때로 준수한 제로샷 성능을 보입니다. 이는.. 2024. 5. 19.
[논문 리뷰] PaperMage: A Unified Toolkit for Processing, Representing, and Manipulating Visually-Rich Scientific Documents HTML 삽입 미리보기할 수 없는 소스 [원문] [깃허브] 책과 논문은 과학적 지식을 나누고 담아두는 주요한 매체입니다. 때문에 우리는 어떤 분야의 최근 동향을 알고 싶을 때에 책과 논문을 찾아봅니다. 최근에는 이런 매체에서 지식 정보를 더 잘 추출하기 위한 툴을 개발하는 것에 관심이 커지고 있습니다. 물론 지금도 이런 일들을 해주는 툴들이 존재 하지만 한계점들이 있습니다: 파서(parser, 문서에서 정보를 추출하는 툴이나 알고리즘)는 텍스트나 이미지 혹은 도표를 있는 그대로 가져옵니다. 파서가 가져온 raw 데이터는 그것이 저자에 대한 정보인지, 논문의 제목인지, abstract인지에 대한 정보를 가지고 있지 못합니다. 즉, 책이나 논문의 구조에 대한 이해 없이 정보를 긁어온다는 것입니다. 또한 파서.. 2024. 1. 26.
[논문 리뷰] Generative Agents: Interactive Simulacra of Human Behavior HTML 삽입 미리보기할 수 없는 소스 [원문] [데모] [코드] 이 논문에서는 인간처럼 행동하는 AI 캐릭터들을 시뮬레이션 한 내용에 관해 서술합니다. 이 시뮬레이션에 사용된 아키텍처는 대규모 언어 모델(ChatGPT)을 사용하여 각 캐릭터의 경험, 기억, 계획을 자연어의 형태로 저장하고 합성합니다. 이 시뮬레이션의 배경은 Smallville이라고 하는 마을이며 이용자는 캐릭터들과 자연어를 사용하여 상호작용할 수도 있습니다. 시뮬레이션 결과 캐릭터들이 믿을만 한 수준으로 인간과 비슷한 행동 양상을 보여주었고 저자는 그런 결과를 얻을 수 있었던 이유가 아키텍쳐의 각 요소들(observation, planning, reflection)이 중요한 역할을 했기 때문이라고 설명했습니다. 요약: 이 연구는 대규모.. 2024. 1. 21.
[논문 리뷰] Are Emergent Abilities of Large Language Models a Mirage? HTML 삽입 미리보기할 수 없는 소스 한 줄 요약: LLM에서 나타나는 emergent ability들은 모델 평가에 어느 메트릭을 선택하느냐에 따라 나타나지 않을 수 있다. Emergent ability란? Emergent ability에 대해 설명하기 전에 조금 더 포괄적인 개념인 emergent property에 대해 설명하겠습니다. Emergent property이라는 것은 작은 부분들이 모였을 때 예상하지 못하게 나타나는 새로운 특성을 말합니다. 예를 들어, a라는 특성을 가지는 A와 b라는 특성을 가지는 B가 결합을 해 AB가 되었을 때 전에 없던 c라는 특성이 생겨나 abc 특성을 가지게 될 때 c를 emergent property라고 합니다. 아래의 표를 참고해주세요: 집합 A B -> .. 2024. 1. 14.
[논문 리뷰] A Time Series is Worth 64 Words:Long-Term Forecasting With Transformers 요약: transformer 기반의 시계열 예측 모델 PatchTST를 개발했다. PatchTST는 두 가지 특징을 가진다: 1. Channel-independence; 2. Patching. Channel-independence라는 것은 다변량 시계열 데이터(multivariate time series)의 각 채널을 분리하여 여러개의 단변량 시계열 데이터(univariate time series)로 만들어 독립적으로 처리하는 것을 의미한다. Patching은 하나의 긴 시계열에서 연속된 time step들을 한 단위로 묶어 토큰화 하는 것을 말한다. 1. 서문 트랜스포머 기반의 모델들은 자연어처리분야와 컴퓨터비전 분야에서 두루 활용되는 방법입니다. 그러나 시계열 데이터 예측에서만큼은 MLP 기반 모델들.. 2024. 1. 1.