ML/NLP 3

[NLP] BERT로 네이버 영화 리뷰 감정분류하기

저번 포스팅에서 BERT 모델에 대해 알아봤다! 이번에는 BERT를 이용해서 네이버 영화 리뷰 데이터를 긍정, 부정 감정분류하는 실습을 해보고자한다. 여러 블로그들을 참고해보며 코드를 작성했고, 특히 Teddy님의 블로그를 많이 참고하였다. (압도적 감사) 처음부터 뚝딱뚝딱 만들 수 있으면 좋겠지만, 이번 실습의 목표는 코드를 뜯어보고 체화시키는 것이기 때문에 욕심 부리지 않기로 했다! 대신, 더 내 코드로 만들어서 점점 성장하는 걸로!! 이번 코드에는 python의 magic method가 많이 나오는데, 한번 정리하면 좋을것같아서 추후 정리예정!! 전체 코드 깃헙 -> 링크 시작해봅시다!! 1. 데이터셋 데이터셋은 github에 올라와 있는 naver sentiment movie corpus를 clo..

ML/NLP 2024.01.12

[NLP] BERT에 대해서

첫번째로, BERT 모델에 대해서 공부해보자. BERT : Bidirectional Encoder Representations from Transformers로, 2018년도 google이 공개한 AI 언어 모델 이름에서 알 수 있듯이, 자연어를 이해하기 위한 양방향 학습 모델을 모두 지원하는 알고리즘이다. 3.3억 단어의 방대한 코퍼스를 정제 및 임베딩하여 학습하고 스스로 라벨링하여 준지도학습으로 수행했다. 💡 기본 구조 Transformer의 Encoder을 쌓아올린 구조로, Base 버전에는 12개를 쌓았고 Large 버전에서는 24개를 쌓았다. 💡 BERT의 토크나이저 WordPiece : BERT는 단어보다 더 작은 단위로 쪼개는 서브워드 토크나이저를 사용. BPE(Byte Pair Encodi..

ML/NLP 2024.01.06

[NLP] LLM이란?

최근 몇년동안 뜨겁게 불타오르는 주제인 거대언어모델인 LLM에 대해서 알아보고자한다. 우선 LLM이란 무엇인지부터 알아보자!! LLM이란? : Large Language Model로, 다양한 NLP 처리 작업을 수행할 수 있는 대규모 언어 모델이다. 트랜스포머 모델을 사용하며 방대한 데이터 세트를 사용하여 훈련되었다. BERT계열, GPT계열 등 다양한 모델이 있다. 언어 모델의 유형 SLM(Small Language Model) : 제한된 양의 텍스트 데이터를 학습하여 국소적인 문맥 이해하는데 초점. 작은 규모지만 가볍고 실행속도가 빠른 특징 NLM(Neural Language Model) : 기존 통계 기반 언어 모델보다 더 정확한 성능. 주로 단어 임베딩, 문장 완성, 기계 번역 등 NLP작업에 사..

ML/NLP 2024.01.05
728x90