'텍스트마이닝' 태그의 글 목록

텍스트마이닝-웹크롤링(2)

저번 장에 이어서 1. 링크를 정리해서 2. 기사의 언론사, 시간, 제목, 본문, 댓글 수를 긁어 데이터 프레임으로 조직한 다음 3. 댓글 내용만 따로 다시 정리하는 작업을 이어서 해보겠습니다. 1. 네이버뉴스 링크 긁어오기 브라우저를 원격 조종할 때, 주로 xpath를 사용했습니다. 이번에 사용할 함수는 'html_nodes'이어서, 이번에 활용하는 것은 'css'입니다. css구조를 통해서 html의 text를 긁어오는 그런 것으로..(아마도..?) 일단.. 저번 화면에서 이어서 시작하면 개발자 모드를 활성화시킨 상태에서 보면, #mainpack 으로 잡힌 초록색 부분에서 아래 'a href = ~' 이렇게 두 곳을 주목해서 보면 됩니다. a href..

교육통계/텍스트마이닝 2022.11.03

텍스트마이닝-웹크롤링(1)

텍스트 마이닝이란 빅데이터 분석 방법 중 하나로, 이름에서 드러났듯이 텍스트를 분석하는 방법 중 하나이다. 텍스트 분석에서 일종의 내용 분석과도 유사한 부분이 있지만, 대량의 데이터를 분석하는 방법인 점에서 아마 차이가 있지 않을까..라고 생각해봤습니다 ㅋㅋ 텍스트 마이닝의 목적은 추출된 정보들을 활용해서 일종의 패턴을 발견하는 게 주목적으로 볼 수 있습니다. 태그에도 달아 두었지만, 특히 뉴스 댓글 같은 경우 수많은 사람들이 이래 저래 엄청나게 쓰지요 텍스트 마이닝을 활용한다면 댓글 수천개, 수만개 달린 것을 분석해서 댓글을 쓴 사람들이 어떤 이야기를 중심으로 이루어지고 있는지 살펴볼 수 있답니다(아마도..?) 텍스트마이닝 분석방법에는 대표적으로(?) 워드 클라우드(word cloud), 연관어 분석(..

교육통계/텍스트마이닝 2022.11.03

텍스트마이닝-토픽모델링

1. 토픽 모델링이란..? 텍스트 마이닝에 또 자주 쓰이는 방법론으로 토픽 모델링이라는 것도 있습니다. 대규모의 텍스트 데이터의 집합에서 주요 주제를 발견하고, 구조화하는 방법인데요. 토픽 모델링에서의 가정은 단어별로 특정한 '주제'를 담고 있다고 가정합니다. 그래서 특정 단어들이 자주 발견되는 데이터 구조, 문장 구조들이 형성되어 있으면 그 단어들이 의미하는 주제를 담고 있다고 봅니다. 예를 들어, 야구에 대한 같은 온라인 커뮤니티에 다양한 글들이 있겠죠. 이런 글, 저런 글 모으다 보면 특정 글에서는 '이글스 파이팅'이라는 주제를 담고 있는 데이터 구조가 형성되어 있을 수 있고 '이글스 해체해라' 등의 비방글도 있을 수도 있겠죠 이러한 주제들을 일일이 하나하나 ..

교육통계/텍스트마이닝 2022.11.03

텍스트마이닝-연관어분석

1.연관어 분석이란..? 텍스트마이닝 분석 방법 중 하나로 연관어 분석(Association keyword analysis)이 있습니다. 연관어 분석이란 특정 단어가 어떤 맥락에서 등장하는지 파악하고, 단어들간의 관계성에서 의미를 파악하는 것입니다. 연관어 분석 중에서도 엔그램(N-grams) 분석 방법이 있습니다. 문장을 n개로 쪼개서 n개의 연결성을 보는 것인데요, 2개로 쪼개면 bi-grams, 3개로 쪼개면 tri-grams, 4개로 쪼개면 quad-grams 으로 분석이 됩니다. 예를 들면, 나는 행복합니다 이글스라 행복합니다. 라는 문장이 있다고 치면, bi-grams 로 분석했을 때 '나는'-'행복합니다' '행복합니다'-'이글스라' '이글스라'-'행복합니다' 라고 결과가 나올 수 있습니다. ..

교육통계/텍스트마이닝 2022.11.03

텍스트마이닝-단어빈도, 워드클라우드

1. 단어 빈도 분석 명사를 담아둔 noun 객체를 활용해서 분석을 이어가 보겠습니다. 특정 단어가 자주 등장한다면, 일단 그 단어에 주목해볼 필요가 있겠죠. 마치 양적 연구에서 기술통계를 통해 변수의 평균과 표준편차 등을 살펴보듯이 어떤 단어가 자주 등장하는지 살펴보려 합니다. 빈도 계산을 위해 dplyr 패키지 불러와주시고, count와 filter, str_count 함수를 사용하려 합니다. noun_frequency % count(word, sort = T) %>% filter(str_count(word)>1) count: 전체 단어의 개수를 세어줍니다. filter: 특정 조건에 따른 값만 보여줍니다. str_count: word에서 1글자 초과하는(2글자 이상) 것..

교육통계/텍스트마이닝 2022.11.03

텍스트마이닝-형태소분석

한글을 대상으로 하는 텍스트 마이닝을 할 때 필수 설치 패키지가 있습니다. 1. KoNLP 패키지 설치 바로 KoNLP KoNLP에 등록된 함수를 주로 사용합니다. 이거 없으면.. 아마 아무도 못할껄요.. R 환경이 계속 불안정해서 그런지 이게 설치된다 안된다 말이 많아서, 이렇게 저렇게 다양한 해결방법이 있습니다. 일단 제 컴퓨터 기준으로 설치된 방법은 https://e-datanews.tistory.com/155 이곳을 참조했습니다. install.packages("multilinguer") library(multilinguer) install_jdk() install.packages(c("hash","tau","Sejong","RSQLite","devtoo..

교육통계/텍스트마이닝 2022.11.03

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

개노답이글스

텍스트마이닝 6

티스토리툴바