ML 14

[NLP] BERT에 대해서

첫번째로, BERT 모델에 대해서 공부해보자. BERT : Bidirectional Encoder Representations from Transformers로, 2018년도 google이 공개한 AI 언어 모델 이름에서 알 수 있듯이, 자연어를 이해하기 위한 양방향 학습 모델을 모두 지원하는 알고리즘이다. 3.3억 단어의 방대한 코퍼스를 정제 및 임베딩하여 학습하고 스스로 라벨링하여 준지도학습으로 수행했다. 💡 기본 구조 Transformer의 Encoder을 쌓아올린 구조로, Base 버전에는 12개를 쌓았고 Large 버전에서는 24개를 쌓았다. 💡 BERT의 토크나이저 WordPiece : BERT는 단어보다 더 작은 단위로 쪼개는 서브워드 토크나이저를 사용. BPE(Byte Pair Encodi..

ML/NLP 2024.01.06

[NLP] LLM이란?

최근 몇년동안 뜨겁게 불타오르는 주제인 거대언어모델인 LLM에 대해서 알아보고자한다. 우선 LLM이란 무엇인지부터 알아보자!! LLM이란? : Large Language Model로, 다양한 NLP 처리 작업을 수행할 수 있는 대규모 언어 모델이다. 트랜스포머 모델을 사용하며 방대한 데이터 세트를 사용하여 훈련되었다. BERT계열, GPT계열 등 다양한 모델이 있다. 언어 모델의 유형 SLM(Small Language Model) : 제한된 양의 텍스트 데이터를 학습하여 국소적인 문맥 이해하는데 초점. 작은 규모지만 가볍고 실행속도가 빠른 특징 NLM(Neural Language Model) : 기존 통계 기반 언어 모델보다 더 정확한 성능. 주로 단어 임베딩, 문장 완성, 기계 번역 등 NLP작업에 사..

ML/NLP 2024.01.05

[Colab] matplotlib 한글폰트 깨짐 현상 해결 mac

어휴나눔 폰트를 설치해줘도 자꾸 인식을 못하길래 구글링으로 이것저것 찾아보는데 font_manager 버전이 업그레이드 돼서 무용지물이 되었다는 글을 보았다.. 그래서 찾은 해결방법import matplotlib.pyplot as pltfrom matplotlib import rc rc('font', family='AppleGothic') plt.rcParams['axes.unicode_minus'] = False  윈도우에서는 나눔고딕을 추가해주던데, Apple에는 'AppleGothic'을 추가해줘야한다 ㅋㅋ아무튼 위 코드를 실행하면 한글이 안 깨지고 잘 나온다!개인적으로 재부팅 필요없게 돼서 업데이트 된게 더 편한듯ㅎㅎ [참고]https://stackoverflow.com/questions/..

ML 2023.12.19

Thresholding

💡딥러닝에서의 thresholding 더보기 - 딥러닝에서의 thresholding : 분류 기준 default value = 0.5 precision(정밀도 = tp/tp+fp)가 높을 수록 thresholding도 높다. threshold(분류기준) 기준으로 그 이상이면 1이라고 예측(분류)한다. 따라서 분류기준이 높을수록 더 정밀하게 예측한다. 반대로 Recall(재현율 = tp/tp+fn)을 높이면 threshold가 낮아진다. 이미지 processing에서 자주 활용되는 이미지 Thresholding은 분류 기준값을 의미, 그 기준값을 기준으로 작으면 0 크면 1로 분류된다. OpenCV 이미지 프로세싱에서 thresholding을 적용하려면 grayscale 이미지로 변환해서 적용한다. 📌 G..

ML/Computer Vision 2023.07.04
728x90