코딩세상
[자연어 처리] 텍스트 전처리 및 단어 임베딩 - 단어 임베딩 본문
- 컴퓨터 - 언어
컴퓨터는 텍스트를 포함하여 모든 데이터를 0과 1로 처리합니다.
앞서 우리가 이미지 분류에 대해서 배울 때 이미지를 1차원으로 변형하여 이 때의 결과가 여러 라벨 중 가장 가중치가 높은 라벨의 결과값으로 나왔던 것처럼 자연어의 기본 단위인 단어 역시 수치형 데이터로 표현하는 것이 중요합니다.
- 단어 임베딩
그래서 위 그림처럼 단어들을 연속형 벡터로 표현하는 방법을 단어 임베딩이라고 합니다.
위 두개의 문장을 비교할 때 도시와 주인의 이름, 동물의 종류가 다르지만 문맥은 어느정도 비슷하다는 것을 알 수 있습니다. 이럴 경우 각각의 단어들은 유사한 의미를 지니게 됩니다.
'
위 그림처럼 각각의 단어들을 임베딩하여 벡터로 나타내고 이를 좌표로 표현할 때 서로 비슷한 문맥을 가진 단어들끼리 위치하게 됩니다.
하지만 각각의 단어들이 모두 같은 점에 위치하는 것은 아니기 때문에 우리는 임베딩 벡터 간의 합과 차를 이용하여 단어의 의미적 특징을 활용할 수 있습니다.
# 출처 및 참고자료
엘리스 AI 트랙 7기 - [이론] 덱스트 전처리 및 단어 임베딩
'인공지능' 카테고리의 다른 글
[자연어 처리] 텍스트 전처리 및 단어 임베딩 - fastText (1) | 2023.10.09 |
---|---|
[자연어 처리] 텍스트 전처리 및 단어 임베딩 - wrod2vec (0) | 2023.09.27 |
[자연어 처리] 텍스트 전처리 및 단어 임베딩 - 텍스트 전처리 (0) | 2023.09.24 |
[자연어 처리] 텍스트 전처리 및 단어 임베딩 - 자연어 처리 (0) | 2023.09.24 |
[이미지] Convolutional Neural Network - 대표적인 CNN 모델 (0) | 2023.09.20 |
Comments