Pytorch2 Huggingface 토크나이저 학습 실험 Huggingface의 transformers 라이브러리에서는 사전학습된 토크나이저를 불러올 수 있습니다 from transformers import AutoTokenizer checkpoint = 'klue/bert-base' tokenizer = AutoTokenizer.from_pretrained(checkpoint) 또한 사전학습된 토크나이저를 다시 재학습 시키는 것 또한 가능합니다 new_tokenizer = tokenizer.train_new_from_iterator(training_corpus, 32000) tokenizer의 train_new_from_iterator 메서드를 사용해서 데이터 이터레이터와 vocab size를 전달하면 원하는 데이터에 맞게 토크나이저를 재학습할 수 있습니다 .. 2024. 2. 25. Tensor 연산에서 dimension을 지정하는 것에 관하여 HTML 삽입 미리보기할 수 없는 소스 numpy와 pytorch를 공부하면 자주 맞딱뜨리면서도 매번 헷갈리는 개념이 있습니다. 바로 행렬 연산에서 dimension을 지정하는 것인데요. 다음 예시 행렬을 보겠습니다: a = torch.arange(0, 18).view(3, 6) a >>> tensor([[ 0, 1, 2, 3, 4, 5], [ 6, 7, 8, 9, 10, 11], [12, 13, 14, 15, 16, 17]]) a는 3×6 행렬 또는 텐서입니다. 우리는 일반적으로 dim=0은 행을, dim=1을 열로 알고있고 실제로도 그렇습니다. 그렇다면, 위의 예시 행렬에서 행의 값들을 더해서 3개의 값을 반환 받고싶다면 어떻게 해야할까요? 행의 값들을 더하고 싶기 때문에 a.sum(.. 2023. 12. 29. 이전 1 다음