본문 바로가기

파이썬으로 네이버 블로그 포스팅 글자수, 이미지수 세는 방법과 감정 분석

직장인 도구함 2024. 10. 8.

이번 포스팅에서는 파이썬을 활용하여 네이버 블로그 포스팅 글자 수를 세는 방법을 단계별로 설명하겠습니다. 이 과정에서 글자 수뿐만 아니라 이미지 수를 계산하고, 글의 감정을 분석해 긍정적, 부정적, 중립적 감정을 종합적으로 점수화하는 기능도 구현할 수 있습니다.

 

코드를 전부 연결하면 네이버 블로그 포스팅을 분석하는 프로그램이 완성됩니다. 하지만 코드가 어떻게 작동하는지 충분히 이해해야 오류가 발생했을 때 적절하게 대처할 수 있습니다. 따라서 각 단계를 천천히 설명드리며, 하단에는 전체 코드를 첨부해두었으니 참고하시기 바랍니다.

 

1. 코드 시작

가장 먼저 필요한 라이브러리들을 임포트하고, 분석할 네이버 블로그 포스팅의 URL을 설정합니다. URL은 분석하고자 하는 포스팅의 주소를 복사해 코드에 넣으면 됩니다. 이때 requestsBeautifulSoup를 이용해 웹페이지의 HTML 구조를 가져옵니다.

 

 

HTML을 가져오면 이를 BeautifulSoup으로 파싱해 원하는 태그들을 찾아냅니다. 네이버 블로그 포스팅은 주로 'div' 태그에 글 내용이 포함되어 있으니 이를 통해 글을 추출하게 됩니다.

 

 

2. 글 내용 분석 준비

파싱한 HTML에서 글 내용과 이미지를 담고 있는 'div' 태그를 찾아냅니다. 이 태그 안에서 p 태그로 감싸진 글 내용과 img 태그로 표시된 이미지 파일들을 추출하는 것이 목표입니다.

 

 

코드를 작성할 때 div 태그가 존재하는 경우에만 실행되도록 조건문을 설정합니다. 이후 각 p 태그로부터 텍스트를, img 태그로부터 이미지를 추출합니다. 이를 통해 필요한 글과 이미지를 가져올 수 있습니다.

 

3. 전체 문자 수 계산

추출한 글 내용의 전체 문자를 계산하는 단계입니다. 모든 p 태그로부터 텍스트를 추출한 후, 각 텍스트의 길이를 합산해 글의 총 문자 수를 계산합니다.

 

 

이때 각 문단의 텍스트 길이를 하나씩 더해 전체 문자의 길이를 산출하게 됩니다. 이를 통해 블로그 포스팅의 총 문자 수를 손쉽게 확인할 수 있습니다.

 

4. 이미지 갯수 계산

글 내용에 포함된 이미지의 수를 계산하는 단계입니다. 이는 포스팅 내 img 태그의 수를 세는 방식으로 이루어집니다.

 

 

HTML 내 img 태그의 갯수를 세면, 해당 블로그 포스팅에 사용된 이미지의 총 갯수를 확인할 수 있습니다.

 

5. 텍스트 합치기

이제 블로그 포스팅의 모든 텍스트를 하나로 합치는 과정입니다. 이를 위해 리스트 컴프리헨션을 활용해 p 태그에서 텍스트를 추출한 후, join 메서드를 사용해 공백을 사이에 두고 결합합니다.

 

 

이 방법을 통해 글의 모든 문단을 하나의 텍스트로 결합할 수 있습니다. 이렇게 합쳐진 텍스트는 이후 감정 분석에 사용됩니다.

 

6. VADER를 이용해 감정 분석하기

글의 감정을 분석하는 단계입니다. 감정 분석을 위해 VADER SentimentIntensityAnalyzer를 활용합니다. 이 라이브러리는 텍스트에서 긍정적, 부정적, 중립적인 감정을 각각 점수화하여 제공합니다.

 

 

VADER의 감정 점수는 각 텍스트의 긍정, 부정, 중립적 성향을 평가하여 수치로 나타냅니다. 이 점수들을 종합적으로 분석하여 글의 감정 상태를 판단할 수 있습니다.

 

7. 감정 분류

마지막으로 종합 감정 점수를 바탕으로 글의 감정을 분류합니다. 이를 통해 해당 글이 긍정적인 감정을 담고 있는지, 부정적인지 또는 중립적인지 판단할 수 있습니다.

 

 

이로써 네이버 블로그 포스팅을 분석하는 전체 과정을 마무리했습니다. 이 코드들을 활용해 원하는 블로그 포스팅을 분석하며, 블로그 운영에 도움이 되는 다양한 인사이트를 얻을 수 있을 것입니다. 하단에는 전체 코드를 첨부해두었으니 직접 실행해 보세요.

 

Code.txt
0.00MB

댓글