Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- VoIP
- 한국의 기획자들
- "명탐정 코난"
- 김장훈
- 자바
- 차트쇼쇼쇼
- HSDPA
- brew
- 페이스북
- 사요
- 러시아
- USIM
- 김장훈의who
- 퀄컴
- Java
- 민동현
- 위피
- EV-DO Rev. B
- 유희열의라디오천국
- 그녀가말했다
- itmusic
- SWT
- 모던음악만만세
- 공정위
- Wibro
- ETF
- 이지형
- 라디오
- CDMA
- 민동현의토요명화
Archives
- Today
- Total
02-15 00:04
zyint's blog
Cosine similarity 본문
Cosine similarity는 n개의 속성(n-dimensional)의 두 벡터간의 cosine 값을 사용합니다.
-
값의 범위: -1 ~ 1
- -1: 두 vector는 정확히 반대
- 0: 두 vector는 독립
- 1: 두 vector는 같다
Text Mining / Information Retrieval
Cosine similarity는 text mining에서 두 문서간의 유서도를 구하는데 사용합니다.
벡터 A, B는 term frequency vector가 됩니다.
Cosine similarity를 이용하면 문서 길이를 normalize하는 효과가 있습니다.
-
값의 범위: 0 ~ 1
- information retrieval분야에서는 tf/idf 값이 음수가 되는 경우가 없습니다. 따라서 두 문서의 각도는 90도를 넘지 않습니다.
같이 읽기
참고자료
이 글은 스프링노트에서 작성되었습니다.
Comments