728x90

ML 15

[NLP] BERT로 네이버 영화 리뷰 감정분류하기

저번 포스팅에서 BERT 모델에 대해 알아봤다! 이번에는 BERT를 이용해서 네이버 영화 리뷰 데이터를 긍정, 부정 감정분류하는 실습을 해보고자한다. 여러 블로그들을 참고해보며 코드를 작성했고, 특히 Teddy님의 블로그를 많이 참고하였다. (압도적 감사) 처음부터 뚝딱뚝딱 만들 수 있으면 좋겠지만, 이번 실습의 목표는 코드를 뜯어보고 체화시키는 것이기 때문에 욕심 부리지 않기로 했다! 대신, 더 내 코드로 만들어서 점점 성장하는 걸로!! 이번 코드에는 python의 magic method가 많이 나오는데, 한번 정리하면 좋을것같아서 추후 정리예정!! 전체 코드 깃헙 -> 링크 시작해봅시다!! 1. 데이터셋 데이터셋은 github에 올라와 있는 naver sentiment movie corpus를 clo..

ML/NLP 2024.01.12

[NLP] BERT에 대해서

첫번째로, BERT 모델에 대해서 공부해보자. BERT : Bidirectional Encoder Representations from Transformers로, 2018년도 google이 공개한 AI 언어 모델 이름에서 알 수 있듯이, 자연어를 이해하기 위한 양방향 학습 모델을 모두 지원하는 알고리즘이다. 3.3억 단어의 방대한 코퍼스를 정제 및 임베딩하여 학습하고 스스로 라벨링하여 준지도학습으로 수행했다. 💡 기본 구조 Transformer의 Encoder을 쌓아올린 구조로, Base 버전에는 12개를 쌓았고 Large 버전에서는 24개를 쌓았다. 💡 BERT의 토크나이저 WordPiece : BERT는 단어보다 더 작은 단위로 쪼개는 서브워드 토크나이저를 사용. BPE(Byte Pair Encodi..

ML/NLP 2024.01.06

[NLP] LLM이란?

최근 몇년동안 뜨겁게 불타오르는 주제인 거대언어모델인 LLM에 대해서 알아보고자한다. 우선 LLM이란 무엇인지부터 알아보자!! LLM이란? : Large Language Model로, 다양한 NLP 처리 작업을 수행할 수 있는 대규모 언어 모델이다. 트랜스포머 모델을 사용하며 방대한 데이터 세트를 사용하여 훈련되었다. BERT계열, GPT계열 등 다양한 모델이 있다. 언어 모델의 유형 SLM(Small Language Model) : 제한된 양의 텍스트 데이터를 학습하여 국소적인 문맥 이해하는데 초점. 작은 규모지만 가볍고 실행속도가 빠른 특징 NLM(Neural Language Model) : 기존 통계 기반 언어 모델보다 더 정확한 성능. 주로 단어 임베딩, 문장 완성, 기계 번역 등 NLP작업에 사..

ML/NLP 2024.01.05

[Colab] matplotlib 한글폰트 깨짐 현상 해결 mac

어휴나눔 폰트를 설치해줘도 자꾸 인식을 못하길래 구글링으로 이것저것 찾아보는데 font_manager 버전이 업그레이드 돼서 무용지물이 되었다는 글을 보았다.. 그래서 찾은 해결방법import matplotlib.pyplot as pltfrom matplotlib import rc rc('font', family='AppleGothic') plt.rcParams['axes.unicode_minus'] = False  윈도우에서는 나눔고딕을 추가해주던데, Apple에는 'AppleGothic'을 추가해줘야한다 ㅋㅋ아무튼 위 코드를 실행하면 한글이 안 깨지고 잘 나온다!개인적으로 재부팅 필요없게 돼서 업데이트 된게 더 편한듯ㅎㅎ [참고]https://stackoverflow.com/questions/..

ML 2023.12.19

Thresholding

💡딥러닝에서의 thresholding 더보기 - 딥러닝에서의 thresholding : 분류 기준 default value = 0.5 precision(정밀도 = tp/tp+fp)가 높을 수록 thresholding도 높다. threshold(분류기준) 기준으로 그 이상이면 1이라고 예측(분류)한다. 따라서 분류기준이 높을수록 더 정밀하게 예측한다. 반대로 Recall(재현율 = tp/tp+fn)을 높이면 threshold가 낮아진다. 이미지 processing에서 자주 활용되는 이미지 Thresholding은 분류 기준값을 의미, 그 기준값을 기준으로 작으면 0 크면 1로 분류된다. OpenCV 이미지 프로세싱에서 thresholding을 적용하려면 grayscale 이미지로 변환해서 적용한다. 📌 G..

ML/Computer Vision 2023.07.04
728x90