Cosine similarity

2009.09.22 22:32 from 예전글들

Cosine similarity는 n개의 속성(n-dimensional)의 두 벡터간의 cosine 값을 사용합니다.

 

\[similarity = \cos (\theta ) = \frac{{A \cdot B}} {{\left\| A \right\|\left\| B \right\|}}\]

 

  • 값의 범위: -1 ~ 1

    • -1: 두 vector는 정확히 반대
    •  0: 두 vector는 독립
    •  1: 두 vector는 같다

 

 

 

Text Mining / Information Retrieval

Cosine similarity는 text mining에서 두 문서간의 유서도를 구하는데 사용합니다.

벡터 A, B는 term frequency vector가 됩니다.

Cosine similarity를 이용하면 문서 길이를 normalize하는 효과가 있습니다.

 

  • 값의 범위: 0 ~ 1

    • information retrieval분야에서는 tf/idf 값이 음수가 되는 경우가 없습니다. 따라서 두 문서의 각도는 90도를 넘지 않습니다.

 

 

 

같이 읽기

Tanimoto coefficient

 

 

 

참고자료

Cosine similarity, Wikipedia

 

이 글은 스프링노트에서 작성되었습니다.

퍼가실때에는 출처표시를 반드시 하셔야 합니다. 출처: http://zyint.tistory.com/

Posted by 진트­ 트랙백 0 : 댓글 1

댓글을 달아 주세요

  1. addr | edit/del | reply Favicon of http://xaveng.tistory.com BlogIcon 어벵 2010.06.20 23:27 신고

    진트야 ㅋㅋㅋㅋㅋㅋㅋ


티스토리 툴바