Semalt: 3 Passi Għall-Brix tal-Web PHP

Il-brix tal-web, imsejjaħ ukoll estrazzjoni ta 'dejta tal-web jew ħsad tal-web, huwa l-proċess tal-estrazzjoni tad-dejta minn websajt jew blog. Din l-informazzjoni mbagħad tintuża biex tistabbilixxi meta tags, meta deskrizzjonijiet, kliem ewlieni u links għal sit, u ttejjeb il-prestazzjoni ġenerali tagħha fir-riżultati tal-magna tat-tiftix.

Żewġ tekniki ewlenin jintużaw biex tinbarax id-data:

  • Test ta 'Dokumenti - Jinvolvi dokument XML jew HTML li jiġi kkonvertit għall-fajls DOM (Document Object Model). PHP jagħtina estensjoni DOM kbira.
  • Espressjonijiet regolari - Huwa mod kif tinbara data mid-dokumenti tal-web fil-forma ta 'espressjonijiet regolari.

Il-kwistjoni bid-dejta tal-brix ta 'websajt ta' parti terza hija relatata mad-drittijiet tal-awtur tagħha għaliex m'għandekx permess biex tuża din id-dejta. Imma ma 'PHP, tista' faċilment tinbarax id-dejta mingħajr problemi konnessi mad-drittijiet tal-awtur jew ta 'kwalità baxxa. Bħala programmatur tal-PHP, jista 'jkollok bżonn dejta minn websajts differenti għal skopijiet ta' kodifikazzjoni. Hawnhekk aħna spjegajna kif tista 'tikseb dejta minn siti oħra b'mod effiċjenti, iżda qabel dan, għandek iżżomm f'moħħok li fl-aħħar int ikollok il-fajls index.php jew scrape.js.

Passi 1: Oħloq Formola biex tidħol fl-URL tal-Websajt:

L-ewwelnett, għandek toħloq formola f'index.php billi tikklikkja fuq il-buttuna Ibgħat u tidħol fl-URL tal-websajt għall-brix tad-dejta.

<form form = "post" name = "scrape_form" id = "scrap_form" acti>

Daħħal l-URL tal-Websajt Biex Tibdet id-Dejta

<input type = "input" name = "website_url" id = "website_url">

<input type = "submit" name = "submit" value = "Issottometti">

</form>

Passi 2: Oħloq Funzjoni PHP biex Tieħu Dejta tal-Websajt:

It-tieni pass huwa li tinħoloq scrapes tal-funzjoni PHP fil-fajl scrape.php billi tgħin biex tikseb id-dejta u tuża l-librerija tal-URL. Se tippermetti wkoll li tikkonnettja u tikkomunika ma 'servers u protokolli differenti mingħajr ebda ħruġ.

funzjoni scrapeSiteData ($ website_url) {

jekk (! function_exists ("curl_init")) {

imut ("cURL mhux installat. Jekk jogħġbok installa u erġa 'pprova.");

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ websajt_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, vera);

$ output = curl_exec ($ curl);

curl_close ($ curl);

ritorn $ output;

}

Hawnhekk, nistgħu naraw jekk il-PHP cURL ġiex installat sewwa jew le. Tliet cURLs ewlenin għandhom jintużaw fiż-żona tal-funzjonijiet u curl_init () se jgħin fil-bidu tas-sessjonijiet, curl_exec () se tesegwixxih u curl_close () tgħin biex tagħlaq il-konnessjoni. Il-varjabbli bħal CURLOPT_URL jintużaw biex jistabbilixxu l-URLs tal-websajt li għandna bżonn biex jinbarax. It-tieni CURLOPT_RETURNTRANSFER jgħin biex jaħżen il-paġni mibruxa fil-forma varjabbli aktar milli l-forma default tagħha, li fl-aħħar se turi l-paġna web kollha.

Passi 3: Laqqad id-Dejta Speċifika mill-Websajt:

Wasal iż-żmien li timmaniġġja l-funzjonalitajiet tal-fajl PHP tiegħek u tqaxxar it-taqsima speċifika tal-paġna web tiegħek. Jekk ma tridx id-dejta kollha minn URL speċifika, għandek teditja tuża l-varjabbli CURLOPT_RETURNTRANSFER u tenfasizza s-sezzjonijiet li trid tobrox.

jekk (isset ($ _ POST ["tibgħat"])) {

$ html = scrapeWebsiteData ($ _ POST ["websajt_url"]);

$ start_point = strpos ($ html, "Latest Posts");

$ end_point = strpos ($ html, "", $ start_point);

$ tul = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ tul);

eku $ html;

}

Nissuġġerixxu li tiżviluppa l-għarfien bażiku tal-PHP u l-Espressjonijiet Regolari qabel tuża xi wieħed minn dawn il-kodiċijiet jew tiskrin blog partikolari jew websajt għal skopijiet personali.