Crawling 2

텍스트마이닝-웹크롤링(2)

저번 장에 이어서 ​ 1. 링크를 정리해서 2. 기사의 언론사, 시간, 제목, 본문, 댓글 수를 긁어 데이터 프레임으로 조직한 다음 3. 댓글 내용만 따로 다시 정리하는 작업을 ​ 이어서 해보겠습니다. ​ 1. 네이버뉴스 링크 긁어오기 ​ 브라우저를 원격 조종할 때, 주로 xpath를 사용했습니다. ​ 이번에 사용할 함수는 'html_nodes'이어서, ​ 이번에 활용하는 것은 'css'입니다. ​ css구조를 통해서 html의 text를 긁어오는 그런 것으로..(아마도..?) ​ 일단.. 저번 화면에서 이어서 시작하면 ​ 개발자 모드를 활성화시킨 상태에서 보면, ​ ​ #mainpack 으로 잡힌 초록색 부분에서 ​ 아래 ​ 'a href = ~' 이렇게 두 곳을 주목해서 보면 됩니다. ​ a href..

텍스트마이닝-웹크롤링(1)

텍스트 마이닝이란 빅데이터 분석 방법 중 하나로, 이름에서 드러났듯이 텍스트를 분석하는 방법 중 하나이다. 텍스트 분석에서 일종의 내용 분석과도 유사한 부분이 있지만, 대량의 데이터를 분석하는 방법인 점에서 아마 차이가 있지 않을까..라고 생각해봤습니다 ㅋㅋ 텍스트 마이닝의 목적은 추출된 정보들을 활용해서 일종의 패턴을 발견하는 게 주목적으로 볼 수 있습니다. 태그에도 달아 두었지만, 특히 뉴스 댓글 같은 경우 수많은 사람들이 이래 저래 엄청나게 쓰지요 텍스트 마이닝을 활용한다면 댓글 수천개, 수만개 달린 것을 분석해서 댓글을 쓴 사람들이 어떤 이야기를 중심으로 이루어지고 있는지 살펴볼 수 있답니다(아마도..?) 텍스트마이닝 분석방법에는 대표적으로(?) 워드 클라우드(word cloud), 연관어 분석(..