MACE's life blog
Google Drive Spreadsheets : importxml 함수 본문
구글 스프레드시트에서 가장 막강한 함수 중에 하나는 바로 importxml이다.
IT관련 업무를 하다보면 각종 웹페이지에서 텍스트 등을 추출해서 분석해야 할 경우가 종종 생기는데,
이 함수는 이럴 때 마치 크롤러봇이 크롤링을 하듯, 매우 요긴하게 쓸 수 있다.
나는 주로 페이지의 Title을 뽑아 내거나, Xpath로 구조화된 특정 오브젝트의 내용을 뽑아내는데 활용한다.
예를 들어, 어떤 사이트의 '첨부파일 목록'을 긁어와야 한다면, 아래와 같이 활용하면 매우 간편하다.
=importxml(A3,"//table[@class='table table-attachment']")
※A3셀에는 URL이 있음
다양한 활용예가 있겠으나, 실무적으로는 다음과 같을 때 이용하면 생산성이 대폭 향상된다.
- -Google Analytics 보고서 작성시, 특정 기준의 URL을 통하여 제목을 추출/분석
- -벤치마킹 사이트의 주요 콘텐츠에 대한 목록이나 제목을 추출하여 분석
- -데이터 이행/전환시 당초 계획된 항목과 전환 완료된 항목을 추출하여 분석(누락분 등을 비교 분석)
IMPORTXML
XML, HTML, CSV, TSV, RSS 및 Atom XML 피드를 포함한 다양한 구조화된 데이터로부터 데이터를 가져옵니다.
사용 예
IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//a/@href")
IMPORTXML(A2,B2)
구문
IMPORTXML(url, xpath_쿼리)
URL - 검토할 페이지의 URL로, 프로토콜(예: http://)을 포함합니다.
url 값은 따옴표로 묶거나, 적절한 텍스트를 포함하는 셀에 대한 참조여야 합니다.
xpath_쿼리 - 구조화된 데이터에서 실행되는 XPath 쿼리입니다.
XPath에 대한 자세한 정보는 http://www.w3schools.com/xpath/를 참조하세요.
설명
한 스프레드시트에서 최대 50개의 IMPORTXML 함수를 호출할 수 있습니다. Google 스프레드시트 새 버전에서는 이 한도가 삭제되었습니다.
IMPORTRANGE: 지정된 스프레드시트에서 셀 범위를 가져옵니다.
IMPORTHTML: HTML 페이지에서 표 또는 목록에 있는 데이터를 가져옵니다.
IMPORTFEED: RSS 또는 Atom 피드를 가져옵니다.
IMPORTDATA: .csv(쉼표로 구분된 값) 또는 .tsv(탭으로 구분된 값) 형식으로 주어진 URL에서 데이터를 가져옵니다.
'비즈니스&IT' 카테고리의 다른 글
Micro-Moments (0) | 2016.01.17 |
---|---|
OWASP Xenotix XSS Exploit Framework (0) | 2015.04.20 |
[NIA] 데이터베이스 구축 방법론 v4.0 (0) | 2014.11.16 |
서울시 정보소통광장 백서 (0) | 2014.11.11 |
웹 성능 최적화 점검툴 (0) | 2014.11.09 |