목차

반응형

갑자기 회사 네이트온 채팅방을 대상으로 word cloud를 해보고싶어졌다.

word cloud란 

word cloud에 대한 이미지 검색결과

이런식으로 대량의 텍스트에서 가장 자주 쓰이는 텍스트를 추출하여 시각화하는 것을 말한다.

그냥 재미용으로 많이 쓰이기도 하고 발표할때 시선집중용도로도 자주쓰이는것같다.


어쨌든 회사 네이트온 채팅방에서 모든 텍스트를 긁어왔다.

하지만 큰 문제가 있다.


AAA 님의 말(2017/9/21(목) 오전10:00:13) : 

 - 입니다 


XXX 님의 말(2017/9/21(목) 오전10:00:30) : 

 - 넵넵 


XXX 님의 말(2017/9/21(목) 오전10:00:46) : 

 - 감사합니다~ 


이런식으로 ㅁㅁㅁ 님의 말 날짜 필요없지만 계속해서 점유율이 높은 텍스트가 있기때문에 결과가 제대로 나오지 않는다.

저걸 에디트플러스로 간단하게 지워서 처리할거다.

원리는 regex로 특정 텍스트를 찾아내서 지우는 것이지만 regex에대하여 자세하게 설명하지는 않을 것이다.

에디트플러스나 regex로 검색이 가능한 문서도구를 킨다.


이후 Ctrl + H를 눌러서 정규식표현(Regular expression)과 파일 끝에서 검색(Wrap at the end of file)을 체크해준다.

Find 부분에다가는 "[가-힣ㄱ-ㅎㅏ-ㅣ]{3,} 님의 말.*\n - " 따옴표안의 텍스트를 넣어준다.

그리고 검색을 눌러보면

XXX 님의 말(2017/9/21(목) 오전10:00:46) : 

 - 감사합니다~ 

위처럼 입력한 텍스트를 제외한 부분이 선택이 될 것이다.

정삭적으로 인식 되는것을 확인하였으면 Replace with는 비워두고 Repalce All을 눌러 의미있는 텍스트 외에는 전부다 지운다.


결과물을 아래의 wordcloud 사이트에 넣은뒤에 generate 하면 된다.

https://worditout.com/word-cloud/create


regex 참고사이트

http://egloos.zum.com/Cliver/v/2271143

http://blog.edit.kr/entry/%ED%8E%8CJava%EC%97%90%EC%84%9C-%ED%95%9C%EA%B8%80%EC%9D%84-%EC%A0%95%EA%B7%9C%EC%8B%9D%EC%9C%BC%EB%A1%9C-%EC%B0%BE%EA%B8%B0

반응형