반응형

 

딕셔너리(Dictionary)를 이용한 워드카운트와 문서일치도 계산방법! 실제 뉴스기사들의 문서 일치도를 계산해보자!
-이번편의 최종 목표는 2개의 문서가 얼만큼 유사한지를 대표하는 숫자로 표현해보는 것이다!
-문서의 일치도를 계산하는 가장 간단한 방법을 이용해서 한번 해보자!(방법은 녹칸다에게 들어보자)
-일단 하나의 문서안에 존재하는 단어(word)를 추출해서 몇개의 단어가 있는지를 계산해야 한다!(워드 카운트)
-애국가를 예로 들자면 동해물과는 1회 등장하고 무궁화는 후렴마다 있으므로 4회 등장할 것이다! 이것을 계산하는 것이다!
-워드 카운트를 구현할때 가장 적절한 자료구조는 딕셔너리(dictionary)이다!
-딕셔너리의 key에 단어를 집어넣고 value를 int형으로 선언해서 해당 단어의 등장 횟수로 지정한다!
-문서의 있는 단어를 딕셔너리의 key로 지정하고 중복되는게 있으면 갯수를 하나씩 올린다!
-2개의 문서를 각각 딕셔너리로 워드카운트 한다!
-최종적으로 간단한? 계산식을 이용해서 문서의 일치도를 계산한다!
-당일날 실시간 뉴스기사 몇개를 가져와서 문서 일치도의 적절성을 평가해보자!

C#에서 특수문자 제거
Regex.Replace(text2, @"[^a-zA-Z0-9가-힣]", " ", RegexOptions.Singleline);

 

C#프로젝트

example133.zip
0.19MB

반응형
Posted by 덕력킹
,