<목차> 1. Word Cloud 2. Word Cloud 분석 예시 |
형태소 분석기 예시를 다룸으로써, 지금까지의 글을 읽으신 분들은 Treform을 활용하여 총 5개의 형태소 분석기를 활용하여 간단한 문장을 분석하실 수 있는 단계에 도달하셨으리라 생각됩니다. 다음 단계는 가장 기초적인 분석 방법인 Word Cloud를 활용해보려 합니다. 코드 분석 이전에 Word Cloud가 무엇이며 어떠한 효용이 있는가를 살펴보겠습니다.
1. Word Cloud
1) Word Cloud란?
워드 클라우드(Word Cloud)는 태그 클라우드(Tag Cloud)로도 불리며, 단어 빈도수 또는 단어 유사도를 기반으로 시각화를 통하여 단어의 중요도를 표현하는 방법이자 라이브러리의 이름입니다.[foot note] https://lovit.github.io/nlp/2018/04/17/word_cloud/ , https://www.betterevaluation.org/methods-approaches/methods/word-cloud [/footnote] 이용자가 원하는 텍스트를 대상으로 분석하여, 이를 다양한 이미지의 윤곽을 기반으로 시각화할 수 있는 라이브러리입니다. 이는 텍스트 분석에 있어서 가장 기초 단계로써, 보다 깊은 분석을 수행하기 이전 단계에서 성격 파악에도 사용될 수 있습니다.
상단의 워드 클라우드 결과물은 'K-뷰티'를 단어로 네이버 블로그에서 3개월(2022-10~2022.12)의 게시물을 수집하여 도출한 결과입니다. 이를 통하여 키워드로 설정한 'K-뷰티'가 포함된 게시물에는 뷰티, 브랜드, 화장품, 피부가 많이 나타남을 확인할 수 있었습니다.
ㄱㄴㄷ 워드클라우드 1 | wordcloud.com의 예시 2 |
이러한 워드 클라우드 이미지 생성을 보다 편하게 하기 위하여 원하는 데이터를 입력하면, 도출까지 연결해주는 대표적인 웹페이지 두곳 이 있습니다. 두 웹페이지 모두 무료로 사용이 가능하며, 다양한 데이터보단 직관적으로 당장에 데이터 출력에는 도움이 될 것 같습니다.
2) Word Cloud Library
Treform에서는 word_cloud 라이브러리를 사용하고 있습니다. 2020년 기준으로는 word_cloud에서 이미지 출력에 사용될 수 있는 그림의 크기에 제한이 있어서 style_cloud 3를 사용하였습니다. 하지만 본 글을 작성하는 2023년을 기준으로는 word_cloud에서 이미 style_cloud를 뛰어넘는 다양한 기능들이 도입되었습니다. 일례로, 형상화하고 싶은 그림의 색을 추출하여 이를 단어 색에 적용 등의 기능도 사용이 가능합니다. 그러므로 word_cloud의 예제인 4https://amueller.github.io/word_cloud/auto_examples/index.html 을 확인하시고 개인 분석에 활요하시면 더욱 좋을것 같습니다.
2. Word Cloud 분석 예시
워드 클라우드는 근래에는 텍스트 마이닝 분석에서 사용되지 않습니다. 하지만, 사회학과 인문학은 아직 텍스트 마이닝 연구가 활용되는 과도기 단계입니다. 이에 해당 방법이 각광받고 있으며 의의를 가지고 있다고 비추어지고 있습니다. 이러한 워드 클라우드에 대하여 긍정적인 관점을 기반으로 하여 두 개의 연구 논문을 개관함으로써, 이용자 분들이 참고하실 수 있게 하고자 합니다. 5
해당 논문은 두 대통령의 연설문을 계량분석함으로써, 그들이 가지고 있던 민족과 민족주의를 파악에 주안점을 두고 있습니다. 아직까지도 '민족'과 '민족주의'로 작은 따옴표를 활용할 정도로 의미가 명확히 규정되지 않은 두 개념을 분석하고자 합니다. 특히나 현대사에서 많은 주목을 받고 있는 두 대통령의 연설문을 통하여 어떠한 의미로 사용되었는지 도출하고자 하는 의도에 주목을 해야할것 같습니다. 디지털 사회과학(또는 계량 사회과학)분야에서 근래에 들어서 많이 활용하고 있는 텍스트마이닝 분석 방법을 활용하여 두 대통령의 연설문을 분석했다는 의의를 확인할 수 있었습니다.
이 논문이 가진 의의는 앞서 언급했던 것처럼 충분하나 해당 연구가 가진 한계는 크게 두가지로 분류할 수 있습니다. 대통령 연설문 데이터의 출처입니다. 명확한 출처가 없는 두 대통령 연설문에 대한 검증이 필요해 보입니다. 국가기록원이라던가, 공공데이터 포털 등에서 데이터 출처를 명시할 필요가 보입니다. 두번째로는 워드 클라우드가 연구에서 구체적으로 어떤 의의를 부여할 수 있었는지는 조금 의문입니다. 두 지도자가 가진 '민족'과 '민족주의'의 경우에는 흔히들 거론하는 문맥(Context)이 가지는 의미는 개별적인 빈도를 추산하기 보단, 단어 동시출현 분석(Co-occurence)의 방법이 적절하지 않았을까라는 견해를 제시해봅니다.
앞선 논문보다 개관적으로 연구 트렌드를 분석하고자 하는 경향을 보입니다. 해당 논문은 워드 클라우드를 사용하여 학술 문헌을 분석하였습니다. 그리고 분석결과를 활용하여 연구자들이 향후 연구 지향점을 파악할 수 있다는 특징을 갖고 있습니다. 4차 산업 혁명이후로 연구 트렌드인 융복합 연구를 중접적으로 다루고 있는 학술지인 디지털융복합연구의 2012년부터 2020년까지의 초록을 분석했다는 의의를 갖고 있습니다.
한계로는 워드 클라우드 분석에 활용한 형태소 분석기에 대한 서술 또는 인용이 부재합니다. 워드 클라우드 분석을 위해서는 명사 또는 형용사 등의 특정 형태소를 추출하여서 이를 시각화합니다. 하지만 이러한 부분에 대한 언급이 전혀 없는 상태에서 wordcloud와 matplot을 사용했다는 언급만이 있습니다. 이와 더불어서 트렌드 분석을 통하여 구체적인 지향점이 부재합니다.
논문 정리.
1. 워드 클라우드 분석의 효용성을 다시 한번 고민해야할 필요를 두 논문이 공통적으로 제기하고 있습니다.
2. 텍스트 마이닝이 선풍적인 인기를 끈 2019년 이후로, 우후죽순처럼 많은 논문들이 제시되고 있으나, 공통의 한계를 보이고 있습니다.
마무리.
1. 워드 클라우드 라이브러리의 활용 방면을 알고, 이를 무료로 사용할 수 있는 웹페이지 인지
2. 워드 클라우드를 활용한 논문을 통하여 해당 분석 방법의 한계를 인식하고, 개선 방안 구상
- http://wordcloud.kr/ [본문으로]
- https://www.wordclouds.com/ [본문으로]
- https://github.com/amueller/word_cloud#word_cloud [본문으로]
- https://pypi.org/project/stylecloud/ [본문으로]
- APA 방식을 사용하여 인용되는 논문은 표기하겠습니다 [연구자명. (발행년). 논문명. 자료명(발행단체명), 권(호), 논문수록면수.] [본문으로]
- 류상영, 김민정. (2021). 한국 민족주의의 두 가지 길 박정희와 김대중의 연설문 텍스트 마이닝. 현대정치 연구, 14. 88-130. [본문으로]
- 류상영, 김민정. (2021).&nbsp; 한국 민족주의의 두 가지 길 박정희와 김대중의&nbsp; 연설문 텍스트 마이닝. 현대정치 연구, 14. 88-130.&nbsp; [본문으로]
- 류상영, 김민정. (2021). 한국 민족주의의 두 가지 길 박정희와 김대중의 연설문 텍스트 마이닝. 현대정치 연구, 14. 88-130. [본문으로]
- 김준환, 문형진, 이항. (2021). 워드 클라우드 기법을 이용한 국내 융복합 학술연구 트렌드 분석. 디지털융복합연구, 19, 34-38. [본문으로]
- 김준환, 문형진, 이항. (2021). 워드 클라우드 기법을 이용한 국내 융복합 학술연구 트렌드 분석. 디지털융복합연구,&nbsp; 19, 34-38. [본문으로]
- 김준환, 문형진, 이항. (2021). 워드 클라우드 기법을 이용한 국내 융복합 학술연구 트렌드 분석. 디지털융복합연구, 19, 34-38. [본문으로]