728x90
최근 몇년동안 뜨겁게 불타오르는 주제인 거대언어모델인 LLM에 대해서 알아보고자한다.
우선 LLM이란 무엇인지부터 알아보자!!
LLM이란?
: Large Language Model로, 다양한 NLP 처리 작업을 수행할 수 있는 대규모 언어 모델이다. 트랜스포머 모델을 사용하며 방대한 데이터 세트를 사용하여 훈련되었다. BERT계열, GPT계열 등 다양한 모델이 있다.
언어 모델의 유형
- SLM(Small Language Model) : 제한된 양의 텍스트 데이터를 학습하여 국소적인 문맥 이해하는데 초점. 작은 규모지만 가볍고 실행속도가 빠른 특징
- NLM(Neural Language Model) : 기존 통계 기반 언어 모델보다 더 정확한 성능. 주로 단어 임베딩, 문장 완성, 기계 번역 등 NLP작업에 사용
- PLM(Pretrained Language Model) : 대규모 데이터셋으로 미리 학습되었고, NLP작업에 전이학습(Transfer Learning)을 통해 적용. BERT와 GPT와 같은 주요 모델들이 속함. 대형 PLM을 두고 LLM이라는 용어를 쓰기 시작함
LLM에서 자주 사용하는 용어
- 단어 임베딩: 단어들을 고차원 벡터로 표현하여 각 단어 간의 유사성과 관계를 캡처하는 기술
- 주의 메커니즘: 입력 시퀀스의 다양한 부분에 가중치를 부여하여 모델이 중요한 정보에게 집중할 수 있도록 하는 기술
- Transformer: 주의 메커니즘을 기반으로 한 인코더와 디코더 구조의 신경망 모델로, 길이가 다른 시퀀스를 처리하는 데 탁월한 성능
- Fine-tuning LLMs: 사전 학습된 대규모 언어 모델을 특정 작업에 적용하기 위해 추가 학습하는 과정
- Prompt engineering: 모델에 입력하는 질문이나 명령을 구조화하여 모델의 성능을 향상시키는 과정
- Bias (편향): 모델이 학습 데이터의 불균형이나 잘못된 패턴을 포착하여 실제 세계의 현실과 일치하지 않는 결과를 내놓는 경향
- 해석 가능성: LLM이 가진 복잡성을 극복하고 AI 시스템의 결과와 결정을 이해하고 설명할 수 있는 능력
728x90
'ML > NLP' 카테고리의 다른 글
[NLP] BERT로 네이버 영화 리뷰 감정분류하기 (2) | 2024.01.12 |
---|---|
[NLP] BERT에 대해서 (1) | 2024.01.06 |