Semalt Expert Bitt e Guide fir de Web mam Javascript ofzeschrauwen

Web Scraping kann eng exzellent Quell vu kriteschen Daten sinn, déi am Entscheedungsprozess an all Geschäft benotzt ginn. Dofir ass et am Kär vun der Datenanalyse wéi et deen eenzege Wee ass fir zouverlässeg Daten ze sammelen. Awer, well d'Quantitéit vum Online Inhalt verfügbar ass fir ze schrauwen ëmmer eropgeet, kann et bal onméiglech ginn all Säit manuell ze schrauwen. Dëst fuerdert eng Automatioun.

Et ginn awer vill Tools dobaussen, déi fir verschidden automatiséiert Schraufprojeten personaliséiert sinn, awer d'Majoritéit vun hinnen ass Premium a kascht Iech e Verméige. Dëst ass wou Puppeteer + Chrome + Node.JS erakommen. Dësen Tutorial wäert Iech duerch de Prozess féieren, deen sécher ass datt Dir Websäiten mat Liichtegkeet automatesch ausrottze kënnt.

Wéi funktionéiert de Setup?

Et ass wichteg ze notéieren datt e bësse Wëssen iwwer JavaScript an dësem Projet praktesch kommen. Fir Ufänger, musst Dir déi uewe genannte 3 Programmer getrennt kréien. Puppeteer ass eng Node Bibliothéik déi benotzt ka ginn fir headless Chrome ze kontrolléieren. Headless Chrome bezitt sech op de Prozess vum Chrom ouni säi GUI, oder an anere Wierder ouni Chrom ze lafen. Dir musst Node 8+ vu senger offizieller Websäit installéieren.

Nodeems Dir d'Programmer installéiert hutt, ass et Zäit en neien Projet ze erstellen fir de Code ze starten. Ideal ass JavaScript Schrauwen datt Dir de Code benotze fir de Schrackprozess ze automatiséieren. Fir méi Informatiounen iwwer Puppeteer kuckt op seng Dokumentatioun, et ginn honnerte vu Beispiller verfügbar fir Iech ze spillen.

Wéi automatesch JavaScript Ofbau

Wann Dir en neie Projet erstellt, gitt weider fir eng Datei (.js) ze kreéieren. An der éischter Zeil musst Dir d'Puppeerabhängegkeet opruffen, déi Dir virdru installéiert hutt. Duerno ass eng primär Funktioun "getPic ()" gefollegt, déi all Automatiounscode behält. Déi drëtt Linn fuerdert d'Funktioun "getPic ()" op fir se ze bedreiwen. Bedenkt datt d'Funktioun getPic () eng "Async" Funktioun ass, kënne mir duerno den Erwaardungsausdrock benotzen, deen d'Funktioun ze pausen wärend op de "Verspriechen" ze léisen ier mer weider op déi nächst Code-Linn goen. Dëst wäert als primär Automatiounsfunktioun funktionnéieren.

Wéi opgeruff Headless Chrom

Déi nächst Linn vu Code: "const browser = waart op Puppeteer.Launch ();" wäert automatesch Puppeteer starten an eng chrome Instanz lafen an et an eis nei erstallt "Browser" Variabel setzen. Fuert weider fir eng Säit ze kreéieren déi dann benotzt gëtt fir d'URL ze navigéieren déi Dir wëllt scrap.

Wéi gescrap Donnéeën

Puppeteer API erlaabt Iech mat verschiddene Websäiten Input ze spillen wéi Clocking, Form Füllung wéi och Daten liesen. Dir kënnt et uginn fir eng enk Vue ze kréien wéi Dir dës Prozesser automatiséiere kënnt. D'Funktioun "scrape ()" gëtt benotzt fir eise Schrottcode unzeginn. Fuert weider fir d'Node scrape.js Funktioun ze lafen fir de Schrottprozess ze initiéieren. De ganze Setup sollt dann automatesch den erfuerderlechen Inhalt ufänken. Et ass wichteg ze erënneren datt Dir Äre Code gitt a kuckt datt alles nom Design funktionnéiert fir ze vermeiden datt Feeler laanscht de Wee leeft.

mass gmail