본문 바로가기
Data science

간단한 네이버 블로그 크롤링 파이썬 API 활용 방법

by 리밋T 2022. 5. 16.
반응형

특정 키워드에 대한 사람들의 의견을 수집하기 위해
네이버 블로그 크롤링을 Naver Developers의 API로
활용해보고자 가입을 진행했다.

 

먼저 네이버 개발자 센터로 접속한다.

https://developers.naver.com/main/

 

NAVER Developers

네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음

developers.naver.com

 

따로 회원가입 버튼이 없는 대신
바로 로그인 버튼이 있고,
네이버 아이디 로그인 페이지로 간다.

네이버 아이디가 없으면 가입하자.

상단의 Application - 새 애플리케이션 등록에 들어간다.

 

각각의 항목에 오류가 없도록 채워주되,
블로그 크롤링을 위한 '검색'과
혹시 가능할까 싶어 '카페'를 선택해주었다.

내 애플리케이션에 들어가면
Client ID와 Client secret 코드가 뜬다.

이 두 가지는 잘 복사해두자.

비로그인 오픈 API 당일 사용량은 25,000건까지이다.


우리가 이용하려고 하는 블로그 크롤링을 위해서는
다시 상단 메뉴에서 Products - 검색을 클릭해준다.

하단 우측의 개발 가이드 보기를 클릭하면, 아래의 페이지로 이동하는데,
Java, PHP, Node.js, Python, C# 코드가 모두 나와있고
출력 결과에 대한 설명까지 친절하게 나와있다!

여기에서 원하는대로 약간 응용하여 사용하면 된다.

자세한 코드를 보려면 아래 네이버 개발자 공식 링크로!

https://developers.naver.com/docs/serviceapi/search/blog/blog.md#%EB%B8%94%EB%A1%9C%EA%B7%B8

 

블로그 - Search API

블로그 NAVER Developers - 검색 API 블로그 검색 개발가이드 검색 > 블로그 네이버 블로그 검색 결과를 출력해주는 REST API입니다. 비로그인 오픈 API이므로 GET으로 호출할 때 HTTP Header에 애플리케이션

developers.naver.com

 

참고로 json으로 결과를 가져오기 때문에,

pd.read_json과. to_csv를 이용해서 csv 파일로 내려주고, utf-8-sig로 encoding을 해 주면 깔끔할 것 같다.

반응형

댓글