Data science

간단한 네이버 블로그 크롤링 파이썬 API 활용 방법

리밋T 2022. 5. 16. 14:41
반응형

특정 키워드에 대한 사람들의 의견을 수집하기 위해
네이버 블로그 크롤링을 Naver Developers의 API로
활용해보고자 가입을 진행했다.

 

먼저 네이버 개발자 센터로 접속한다.

https://developers.naver.com/main/

 

NAVER Developers

네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음

developers.naver.com

 

따로 회원가입 버튼이 없는 대신
바로 로그인 버튼이 있고,
네이버 아이디 로그인 페이지로 간다.

네이버 아이디가 없으면 가입하자.

상단의 Application - 새 애플리케이션 등록에 들어간다.

 

각각의 항목에 오류가 없도록 채워주되,
블로그 크롤링을 위한 '검색'과
혹시 가능할까 싶어 '카페'를 선택해주었다.

내 애플리케이션에 들어가면
Client ID와 Client secret 코드가 뜬다.

이 두 가지는 잘 복사해두자.

비로그인 오픈 API 당일 사용량은 25,000건까지이다.


우리가 이용하려고 하는 블로그 크롤링을 위해서는
다시 상단 메뉴에서 Products - 검색을 클릭해준다.

하단 우측의 개발 가이드 보기를 클릭하면, 아래의 페이지로 이동하는데,
Java, PHP, Node.js, Python, C# 코드가 모두 나와있고
출력 결과에 대한 설명까지 친절하게 나와있다!

여기에서 원하는대로 약간 응용하여 사용하면 된다.

자세한 코드를 보려면 아래 네이버 개발자 공식 링크로!

https://developers.naver.com/docs/serviceapi/search/blog/blog.md#%EB%B8%94%EB%A1%9C%EA%B7%B8

 

블로그 - Search API

블로그 NAVER Developers - 검색 API 블로그 검색 개발가이드 검색 > 블로그 네이버 블로그 검색 결과를 출력해주는 REST API입니다. 비로그인 오픈 API이므로 GET으로 호출할 때 HTTP Header에 애플리케이션

developers.naver.com

 

참고로 json으로 결과를 가져오기 때문에,

pd.read_json과. to_csv를 이용해서 csv 파일로 내려주고, utf-8-sig로 encoding을 해 주면 깔끔할 것 같다.

반응형