웹 화면 긁기 : Semalt의 유용한 팁

요즘에는 데이터가 가장 중요한 자산이 될 수 있습니다. 따라서 경쟁 업체의 손에 맡기는 것이 결코 좋은 생각이 아닙니다. 그러나 때때로 화면 스크래핑으로 인해이를 방지하기 어려울 수 있습니다. 이것은 웹 페이지에서 데이터를 추출하는 데 수년 동안 사용되어 온 기술입니다.

이 방법은 두 가지 중요한 문제를 제기합니다. 우선 데이터를 사용하여 제품에 대한 정보를 얻을뿐만 아니라 가격을 인하함으로써 비즈니스에 비해 이점을 얻을 수 있습니다. 또한 지속적으로 수행하면이 기술은 웹 사이트의 성능을 떨어 뜨릴 수도 있습니다.

일반적으로 화면 스크래핑은 수십 년 전에 초기 터미널 에뮬레이션 프로그램에서 만든 개념입니다. 주로 사람이 볼 수 있도록 설계된 화면에서 정보를 추출하는 프로그래밍 기법입니다. 이 프로그램은 사람인 척하고 데이터를 읽고 귀중한 정보를 수집하고 저장을 위해 처리합니다.

이 기술은 특히 웹 크롤러의 발명과 함께 수년에 걸쳐 크게 발전했습니다. e- 소매 스크린 스크래핑 (예 : 가격 비교 웹 사이트)의 개발로 더욱 발전했습니다. 이러한 웹 사이트는 정기적으로 인기있는 전자 소매점을 방문하여 특정 제품 또는 서비스에 대한 가용성 정보와 최신 가격을 얻는 프로그램을 사용합니다. 이 데이터는 데이터베이스에 저장되어 전자 소매 환경에 대한 비교 검토를 제공하는 데 사용됩니다.

경쟁적인 화면 스크래핑은 원치 않는 트래픽의 또 다른 예일뿐 아니라 회사의 IT 시스템에 다양한 부정적인 영향을 미칩니다. 최근 연구에 따르면 모든 트래픽의 최소 61 %가 봇에 의해 생성되는 것으로 나타났습니다. 이 봇은 실제 웹 사용자를위한 대역폭뿐만 아니라 중요한 리소스를 소비하므로 실제 고객의 대기 시간이 증가 할 수 있습니다.

화면 스크래핑이 오랫동안 진행되었습니다. 그러나 최근까지이 행동의 희생자들이 반응하기 시작하지 않았습니다. 일부는 불공평 한 사업 관행과 저작권 침해를 주장하는 반면, 스크래핑을하는 회사는 정보의 자유를 주장함으로써 스스로를 방어합니다.

많은 웹 사이트 소유자가 웹 페이지에 사용 정책을 작성하여 공격적인 스크래핑을 금지했습니다. 안타깝게도 이러한 정책을 시행 할 수 없으므로 문제가 곧 사라지지 않는 것 같습니다.

수년 전에 eBay는 우수한 스크레이퍼가 데이터에 액세스 할 수있는 API를 도입했습니다. 그러나 경쟁 우위를 위해 악의적 인 정보 수집을 중단하지는 않습니다. 웹 사이트를 방문하는 사람이 아닌 사람을 차단할 수있는 기술을 사용하여 진정한 방어를 얻을 수 있습니다. 이를 통해 실제 사용자는 웹 사이트에 액세스하면서 크롤러가 손상되지 않도록 차단할 수 있습니다.

화면 스크래핑을 방지 할 수있는 다른 효과적인 방법은 IP 평판 인텔리전스, 스푸핑 된 IP 소스 탐지, 요청-응답 행동 분석, 실시간 위협 수준 평가 및 지리적 위치 적용과 같은 기술을 사용하는 것입니다.