"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."
파이썬으로 웹 크롤러 만들기(3판)
다양한 웹에서 효율적으로 데이터를 수집하는 방법 A to Z
www.hanbit.co.kr
내가 처음 파이썬으로 만들었던 프로그램은 웹 크롤러였다.
그때는 특정 사이트에 공개되어 있는 직원 정보를 스크래핑해서 CUI에서 조회할 수 있도록 만드는 것이 목표였다. 그 과정에서 웹 페이지 구조를 분석하고, 데이터를 가져오는 방법을 익히면서 자연스럽게 크롤링의 기초를 배웠다. 처음에는 단순한 구현에만 집중했지만, 시간이 지나면서 크롤링과 관련된 기술과 역량이 점점 늘어났고, 스스로도 "이런 포인트를 염두에 두자"는 식의 노하우가 하나둘씩 쌓여갔다.
크롤링 기술을 익혀나가는 동안 참고할 자료는 대부분 구글을 통해 얻었다. 각종 개발 블로그나 포럼, 공식 문서 등을 샅샅이 뒤지며 문제를 해결했다. 내 블로그에도 "열려 있는 크롬에서 크롤링하기" 같은 글을 남겨두었는데, 그것도 구글링을 통해 알게 된 정보들을 정리한 것이었다. 웹 크롤링을 하다가 예상치 못한 문제가 발생하면, 검색창을 열고 끈질기게 해결책을 찾아내곤 했다. 하지만 이런 방식은 늘 단기적인 해결책에 의존하는 느낌이었다. 한 단계 더 나아가 크롤링을 체계적으로 이해하고 싶은데, 전체적인 개념과 원리를 다루는 마땅한 책을 찾기 어려웠다. 크롤링 관련 자료는 많았지만, 대부분 특정 라이브러리의 사용법에만 집중하거나 단편적인 예제에 머무르는 경우가 많았다.
그러던 중 이 책을 발견했다. 표지를 보면서 가장 먼저 들었던 생각은 "과연 내가 쌓아온 경험과 이 책이 얼마나 비슷할까?" 하는 궁금증이었다. 나는 오랫동안 크롤링을 직접 하면서 터득한 노하우가 많았기 때문에, 이 책이 과연 나에게 새로운 시각을 줄 수 있을지 의문이었다. 하지만 막상 읽어보니, 저자의 통찰력에 깊이 공감할 수밖에 없었다.
책은 크롤링을 단순한 기술적 과정이 아니라, 데이터 수집과 활용이라는 더 넓은 관점에서 풀어낸다. 크롤링을 할 때 고려해야 할 접근 방식, 데이터를 효과적으로 수집하는 전략, 그리고 그 과정에서 부딪힐 수 있는 문제들까지 체계적으로 설명하고 있었다. 단순히 "이렇게 하면 데이터를 가져올 수 있다"는 수준이 아니라, 크롤링을 하나의 "설계 과정"으로 바라볼 수 있도록 해주는 점이 특히 인상적이었다.
덕분에 나 역시 새로운 관점에서 크롤링을 되돌아보게 되었고, 기존의 방식이 얼마나 단기적인 해결책에 치우쳐 있었는지 깨닫게 되었다.
특히 감명 깊었던 구절이 있다.
확장성 있는 프로젝트를 시작하려면, 사이트 단 하나만 보고 “여기에 어떤 데이터가 있나?”로 출발해서는 안 됩니다. “내게 필요한 데이터가 무엇이지?”로 출발하고, 필요한 데이터를 어떻게 얻을지 생각하십시오.
이 문장을 읽고 나서, 나도 모르게 고개를 끄덕였다. 그동안 나는 특정 사이트에서 제공하는 데이터에 맞춰 크롤링을 설계해왔는데, 사실 중요한 것은 "필요한 데이터를 얻기 위해 어떤 전략을 세울 것인가"였다는 점을 새삼 깨달았다.
이 책은 단순한 크롤링 입문서가 아니라, 데이터를 다루는 방식 자체를 고민하게 만드는 책이다. 나처럼 크롤링을 많이 해본 사람도 배울 점이 많았고, 초보자라면 더욱더 체계적인 접근 방식을 익힐 수 있을 것이다.
'Life > 독서 노트' 카테고리의 다른 글
[Review] 한빛미디어, 나는리뷰어다2025 - 행동의 과학, 디자인의 힘 (0) | 2025.02.28 |
---|---|
[Review] 한빛미디어, 나는리뷰어다2024 - 무엇이 1등 팀을 만드는가? (1) | 2024.12.25 |
[Review] 한빛미디어, 나는리뷰어다2024 - 시작! AWS (0) | 2024.11.25 |
[서른과 마흔사이] 잊어가는 뻔한 소리들을 상기하자. (11) | 2024.10.11 |
[Review] 이것이 취업을 위한 컴퓨터 과학이다 with CS 기술 면접 (3) | 2024.09.26 |