본문 바로가기

분류 전체보기

(10)
Treform-5 1. Word Cloud 예제 2. 코드 분석 이전 글인 Treform-4에서는 Word Cloud가 무엇인지를 살펴보았습니다. 또한, Word Cloud를 활용한 논문을 통하여 향후 활용 방안과 한계점을 제시했습니다. 이번 글에서는 Word Cloud 예제를 실제로 구동해보고자 합니다. github에 업로드 되어있는 Treform 코드의 일부를 개수하였기에, 원본 코드와는 일부 차이가 있으므로 최종 생성되는 이미지가 다르다고 의아하게 여기지 않으시길 부탁드립니다. 1. Word Cloud 예제 #_*_ coding:utf-8 _*_ import pyTextMiner as ptm import stylecloud as styl from wordcloud import WordCloud kiwi=ptm.tok..
Treform-4 1. Word Cloud 2. Word Cloud 분석 예시 형태소 분석기 예시를 다룸으로써, 지금까지의 글을 읽으신 분들은 Treform을 활용하여 총 5개의 형태소 분석기를 활용하여 간단한 문장을 분석하실 수 있는 단계에 도달하셨으리라 생각됩니다. 다음 단계는 가장 기초적인 분석 방법인 Word Cloud를 활용해보려 합니다. 코드 분석 이전에 Word Cloud가 무엇이며 어떠한 효용이 있는가를 살펴보겠습니다. 1. Word Cloud 1) Word Cloud란? 워드 클라우드(Word Cloud)는 태그 클라우드(Tag Cloud)로도 불리며, 단어 빈도수 또는 단어 유사도를 기반으로 시각화를 통하여 단어의 중요도를 표현하는 방법이자 라이브러리의 이름입니다.[foot note] https://lo..
Treform-3 1. Treform 형태소 분석기 구동 예제 2. 코드 분석 이번 글에서는 형태소 분석기 구동 시험을 다루고자 합니다. 먼저 github에 업로드 되어있는 코드를 살펴보고, 이에 대해서 line by line(한 줄씩) 살펴보려고 합니다. Treform의 전반적인 구조를 개관하였으므로, 이후의 내용들은 예제 구동과 이를 활용할 방법을 남기려고 합니다. 필요에 따라서는 예제와 연관된 논문도 요약해보려 합니다. 1. Treform 형태소 분석기 구동 예제 # -*- coding: utf-8 -*- import treform as ptm import time from collections import Counter mecab_path='C:\\mecab\\mecab-ko-dic' komoran = ptm.to..
서버-0 본격적으로 서버에 대한 글을 투고하기 이전에 일러둘 것을 기재합니다. 본 글은 다른 항목의 글과는 성격을 달리합니다. 개인 경험을 기반으로 하여 작성됨으로 인하여 다른 전문가 분들에 비해서 많이 부족합니다. 하지만, 개인 연구실에서 1명의 석사생이 서버를 관리하면서 발생하는 일들을 기재합니다. 일종의 개인 기록으로 봐주시면 좋을것 같습니다.
Treform-2 1. Treform 형태소 분석기 2. 형태소 분석기 종류 이번 글에서는 앞선 Treform 개관에 이어서, 텍스트 분석의 핵심인 형태소 분석기 부분을 살펴보고자 합니다. 먼저 밝힐 부분은, Treform에서는 현재 4개의 버전을 지원하고 있으나, Kiwi의 높은 성능으로 인하여 해당 부분을 웹을 참조하여 Treform에 추가하였습니다. 그러므로 기존의 4개의 형태소 분석기에서 5개의 형태소 분석기 운용을 살펴보겠습니다. 추가적으로 Trform의 형태소 분석기에서Kiwi 수정 부분도 거론하겠습니다. 1. Treform 형태소 분석기 1) 형태소 분석기 기능 형태소 분석기는 형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS, part-of-speech) 등과 같은 언어적 속성을 기계적으로 분석하기 위..
Treform-1 1. 구조 소개 2. 파이프라인 구성 1. 구조 소개 1) 구조 개관 Treform의 기본 구조는 다음과 같습니다. 총 16개의 개별 모듈로 구성되어, 이를 감싸고 있는 패키지가 Trefom입니다. 2) Treform 변천 Pytextminer 는 2019년 버전이며, Treform 은 2020-2021년도, Yonlu 는 2021-2022 버전이라 생각하시면 편할 것 같습니다. yonlu는 딥러닝에 특화된 패키지로, 현재도 지속적으로 수업과 함께 업데이트가 되고 있는 것으로 알고 있습니다. 2. 파이프 라인 구성 1) 구조 Treform 은 파이프 라인 구조로 전처리(Pre-process) 부분이 구성되어 있습니다. 큰 골조(骨組)는 Stanford의 Core NLP와 유사합니다. 일반적인 컴퓨터 공학..
Treform-0 Treform은 python 기반의 패키지(또는 라이브러리)입니다. 연세대학교 문헌정보학과 송민 교수님이 수업에서 사용하셨으며 하단의 주소에서 공유되고 있습니다. (https://github.com/MinSong2) 이에 따라서, 본 게시글은 텍스트 분석에 있어서 유용한 패키지인 Treform을 보다 많은 이들이 사용할 수 있도록 간단한 안내서 역할을 하고자 합니다. 본래 해당 패키지는 Java버전인 yTextminer(2017)와 pyTextMiner(2019)의 상위버전입니다. yTextMiner의 경우에는 K-mooc에서 공유되고 있으며, 교수님의 홈페이지에서 접근이 가능합니다. (http://informatics.yonsei.ac.kr:8080/yTextMiner/home.html) 이후 yonl..
향후 계획 1차적으로 Treform 리뷰를 진행하려고 합니다. 2년간 배웠던 기억을 더듬어서 코드에 대해서 간단하게 살피고, 이를 활용한 연구 주제 구상을 통하여 미래를 준비해보려 합니다. 모든 Treform코드에 대한 저작권은 송민 교수님(min.song@yonsei.ac.kr)께 있습니다. 코드 원본은 https://github.com/MinSong2에 있으며, 저는 이에 대한 2차 저작물 생성만 합니다. 활용하는 연산의 이론 부분은 이민철 선배(https://bab2min.tistory.com/)의 글을 참조합니다.