Notice
Recent Posts
Recent Comments
Link
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

코딩세상

[자연어 처리] 텍스트 전처리 및 단어 임베딩 - 단어 임베딩 본문

인공지능

[자연어 처리] 텍스트 전처리 및 단어 임베딩 - 단어 임베딩

필륭 2023. 9. 27. 19:35

- 컴퓨터  - 언어

 

컴퓨터가 언어를 처리하는 법

 

컴퓨터는 텍스트를 포함하여 모든 데이터를 0과 1로 처리합니다.

 

단어를 수치형 데이터로 변환

 

앞서 우리가 이미지 분류에 대해서 배울 때 이미지를 1차원으로 변형하여 이 때의 결과가 여러 라벨 중 가장 가중치가 높은 라벨의 결과값으로 나왔던 것처럼 자연어의 기본 단위인 단어 역시 수치형 데이터로 표현하는 것이 중요합니다.

 

 

 

- 단어 임베딩

 

단어 임베딩

 

그래서 위 그림처럼 단어들을 연속형 벡터로 표현하는 방법을 단어 임베딩이라고 합니다.

 

비슷한 문맥의 문장

 

위 두개의 문장을 비교할 때 도시와 주인의 이름, 동물의 종류가 다르지만 문맥은 어느정도 비슷하다는 것을 알 수 있습니다. 이럴 경우 각각의 단어들은 유사한 의미를 지니게 됩니다.

'

각 단어들의 위치

 

위 그림처럼 각각의 단어들을 임베딩하여 벡터로 나타내고 이를 좌표로 표현할 때 서로 비슷한 문맥을 가진 단어들끼리 위치하게 됩니다.

 

 

하지만 각각의 단어들이 모두 같은 점에 위치하는 것은 아니기 때문에 우리는 임베딩 벡터 간의 합과 차를 이용하여 단어의 의미적 특징을 활용할 수 있습니다.

 

 

 

 

 

 

# 출처 및 참고자료

 

엘리스 AI 트랙 7기 - [이론] 덱스트 전처리 및 단어 임베딩

 

Comments