Notice
Recent Posts
Recent Comments
Link
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
04-25 17:15
관리 메뉴

zyint's blog

Cosine similarity 본문

예전글들

Cosine similarity

진트­ 2009. 9. 22. 22:32

Cosine similarity는 n개의 속성(n-dimensional)의 두 벡터간의 cosine 값을 사용합니다.

 

\[similarity = \cos (\theta ) = \frac{{A \cdot B}} {{\left\| A \right\|\left\| B \right\|}}\]

 

  • 값의 범위: -1 ~ 1

    • -1: 두 vector는 정확히 반대
    •  0: 두 vector는 독립
    •  1: 두 vector는 같다

 

 

 

Text Mining / Information Retrieval

Cosine similarity는 text mining에서 두 문서간의 유서도를 구하는데 사용합니다.

벡터 A, B는 term frequency vector가 됩니다.

Cosine similarity를 이용하면 문서 길이를 normalize하는 효과가 있습니다.

 

  • 값의 범위: 0 ~ 1

    • information retrieval분야에서는 tf/idf 값이 음수가 되는 경우가 없습니다. 따라서 두 문서의 각도는 90도를 넘지 않습니다.

 

 

 

같이 읽기

Tanimoto coefficient

 

 

 

참고자료

Cosine similarity, Wikipedia

 

이 글은 스프링노트에서 작성되었습니다.

Comments