[C#윈폼133] 딕셔너리(Dictionary)를 이용한 워드카운트와 문서일치도 계산방법! 실제 뉴스기사들의 문서 일치도를 계산해보자!(녹칸다/포로리야공대가자)
프로그래밍/C# 호작질 2021. 4. 6. 22:03반응형
딕셔너리(Dictionary)를 이용한 워드카운트와 문서일치도 계산방법! 실제 뉴스기사들의 문서 일치도를 계산해보자!
-이번편의 최종 목표는 2개의 문서가 얼만큼 유사한지를 대표하는 숫자로 표현해보는 것이다!
-문서의 일치도를 계산하는 가장 간단한 방법을 이용해서 한번 해보자!(방법은 녹칸다에게 들어보자)
-일단 하나의 문서안에 존재하는 단어(word)를 추출해서 몇개의 단어가 있는지를 계산해야 한다!(워드 카운트)
-애국가를 예로 들자면 동해물과는 1회 등장하고 무궁화는 후렴마다 있으므로 4회 등장할 것이다! 이것을 계산하는 것이다!
-워드 카운트를 구현할때 가장 적절한 자료구조는 딕셔너리(dictionary)이다!
-딕셔너리의 key에 단어를 집어넣고 value를 int형으로 선언해서 해당 단어의 등장 횟수로 지정한다!
-문서의 있는 단어를 딕셔너리의 key로 지정하고 중복되는게 있으면 갯수를 하나씩 올린다!
-2개의 문서를 각각 딕셔너리로 워드카운트 한다!
-최종적으로 간단한? 계산식을 이용해서 문서의 일치도를 계산한다!
-당일날 실시간 뉴스기사 몇개를 가져와서 문서 일치도의 적절성을 평가해보자!
C#에서 특수문자 제거
Regex.Replace(text2, @"[^a-zA-Z0-9가-힣]", " ", RegexOptions.Singleline);
C#프로젝트
반응형
'프로그래밍 > C# 호작질' 카테고리의 다른 글
[C#윈폼132] Hungarian Algorithm(Maximum Weighted Matching)을 이용해서 최적해 찾아보기! 그래프이론(Graph Theory)(녹칸다/포로리야공대가자) (0) | 2021.04.06 |
---|---|
[C#윈폼#73] C# 윈폼/드로잉 삼각함수(녹칸다/포로리야공대가자) (0) | 2020.10.08 |
[C#윈폼#72] C# 윈폼/드로잉 원의 지름과 넓이(녹칸다/포로리야공대가자) (0) | 2020.10.07 |
[C#윈폼#71] C# 윈폼/드로잉 두점사이의 거리(녹칸다/포로리야공대가자) (0) | 2020.10.06 |
[C#윈폼#70] C# 윈폼/드로잉 기본적인 도형 그리기(녹칸다/포로리야공대가자) (0) | 2020.10.05 |