텍스트마이닝 6

텍스트마이닝-웹크롤링(2)

저번 장에 이어서 ​ 1. 링크를 정리해서 2. 기사의 언론사, 시간, 제목, 본문, 댓글 수를 긁어 데이터 프레임으로 조직한 다음 3. 댓글 내용만 따로 다시 정리하는 작업을 ​ 이어서 해보겠습니다. ​ 1. 네이버뉴스 링크 긁어오기 ​ 브라우저를 원격 조종할 때, 주로 xpath를 사용했습니다. ​ 이번에 사용할 함수는 'html_nodes'이어서, ​ 이번에 활용하는 것은 'css'입니다. ​ css구조를 통해서 html의 text를 긁어오는 그런 것으로..(아마도..?) ​ 일단.. 저번 화면에서 이어서 시작하면 ​ 개발자 모드를 활성화시킨 상태에서 보면, ​ ​ #mainpack 으로 잡힌 초록색 부분에서 ​ 아래 ​ 'a href = ~' 이렇게 두 곳을 주목해서 보면 됩니다. ​ a href..

텍스트마이닝-웹크롤링(1)

텍스트 마이닝이란 빅데이터 분석 방법 중 하나로, 이름에서 드러났듯이 텍스트를 분석하는 방법 중 하나이다. 텍스트 분석에서 일종의 내용 분석과도 유사한 부분이 있지만, 대량의 데이터를 분석하는 방법인 점에서 아마 차이가 있지 않을까..라고 생각해봤습니다 ㅋㅋ 텍스트 마이닝의 목적은 추출된 정보들을 활용해서 일종의 패턴을 발견하는 게 주목적으로 볼 수 있습니다. 태그에도 달아 두었지만, 특히 뉴스 댓글 같은 경우 수많은 사람들이 이래 저래 엄청나게 쓰지요 텍스트 마이닝을 활용한다면 댓글 수천개, 수만개 달린 것을 분석해서 댓글을 쓴 사람들이 어떤 이야기를 중심으로 이루어지고 있는지 살펴볼 수 있답니다(아마도..?) 텍스트마이닝 분석방법에는 대표적으로(?) 워드 클라우드(word cloud), 연관어 분석(..

텍스트마이닝-토픽모델링

1. 토픽 모델링이란..? ​ 텍스트 마이닝에 또 자주 쓰이는 방법론으로 토픽 모델링이라는 것도 있습니다. ​ 대규모의 텍스트 데이터의 집합에서 주요 주제를 발견하고, 구조화하는 방법인데요. ​ 토픽 모델링에서의 가정은 ​ 단어별로 특정한 '주제'를 담고 있다고 가정합니다. ​ 그래서 특정 단어들이 자주 발견되는 데이터 구조, 문장 구조들이 형성되어 있으면 ​ 그 단어들이 의미하는 주제를 담고 있다고 봅니다. ​ 예를 들어, 야구에 대한 같은 온라인 커뮤니티에 다양한 글들이 있겠죠. ​ 이런 글, 저런 글 모으다 보면 ​ 특정 글에서는 '이글스 파이팅'이라는 주제를 담고 있는 데이터 구조가 형성되어 있을 수 있고 ​ '이글스 해체해라' 등의 비방글도 있을 수도 있겠죠 ​ 이러한 주제들을 일일이 하나하나 ..

텍스트마이닝-연관어분석

1.연관어 분석이란..? 텍스트마이닝 분석 방법 중 하나로 연관어 분석(Association keyword analysis)이 있습니다. 연관어 분석이란 특정 단어가 어떤 맥락에서 등장하는지 파악하고, 단어들간의 관계성에서 의미를 파악하는 것입니다. 연관어 분석 중에서도 엔그램(N-grams) 분석 방법이 있습니다. 문장을 n개로 쪼개서 n개의 연결성을 보는 것인데요, 2개로 쪼개면 bi-grams, 3개로 쪼개면 tri-grams, 4개로 쪼개면 quad-grams 으로 분석이 됩니다. 예를 들면, 나는 행복합니다 이글스라 행복합니다. 라는 문장이 있다고 치면, bi-grams 로 분석했을 때 '나는'-'행복합니다' '행복합니다'-'이글스라' '이글스라'-'행복합니다' 라고 결과가 나올 수 있습니다. ..

텍스트마이닝-단어빈도, 워드클라우드

1. 단어 빈도 분석 ​ 명사를 담아둔 noun 객체를 활용해서 분석을 이어가 보겠습니다. ​ 특정 단어가 자주 등장한다면, 일단 그 단어에 주목해볼 필요가 있겠죠. ​ 마치 양적 연구에서 기술통계를 통해 변수의 평균과 표준편차 등을 살펴보듯이 ​ 어떤 단어가 자주 등장하는지 살펴보려 합니다. ​ 빈도 계산을 위해 dplyr 패키지 불러와주시고, ​ count와 filter, str_count 함수를 사용하려 합니다. ​ noun_frequency % count(word, sort = T) %>% filter(str_count(word)>1) ​ count: 전체 단어의 개수를 세어줍니다. filter: 특정 조건에 따른 값만 보여줍니다. str_count: word에서 1글자 초과하는(2글자 이상) 것..

텍스트마이닝-형태소분석

한글을 대상으로 하는 텍스트 마이닝을 할 때 ​ 필수 설치 패키지가 있습니다. ​ 1. KoNLP 패키지 설치 ​ 바로 KoNLP ​ KoNLP에 등록된 함수를 주로 사용합니다. ​ 이거 없으면.. 아마 아무도 못할껄요.. ​ R 환경이 계속 불안정해서 그런지 ​ 이게 설치된다 안된다 말이 많아서, ​ 이렇게 저렇게 다양한 해결방법이 있습니다. ​ 일단 제 컴퓨터 기준으로 설치된 방법은 ​ https://e-datanews.tistory.com/155 이곳을 참조했습니다. ​ install.packages("multilinguer") library(multilinguer) install_jdk() ​ install.packages(c("hash","tau","Sejong","RSQLite","devtoo..