Lapinskis

Patvirtinti nariai

Profilis Nario turinys ir veikla

Pranešimai
665
Užsiregistravo
Lapkričio 21, 2009
Lankėsi
Sausio 19, 2016
Laimėta dienų
2
Atsiliepimai
100%

Reputacijos išklotinė

Lapinskis gavo reakciją nuo KasparasV Web scrapping naudojant PHP Balandžio 17, 2011

Sveiki uždarbiečiai, jau vienur prisižadėjau, kad parašysiu šiek tiek apie web scrapping. Tai pirmas mano straipsnis šiame forume, todėl nemaišykit su žemėmis be pagrindo. Konstruktyvi kritika visada laukiama, o šiaip ir pasiginčyti galiu, jeigu atsiras žmonių, manančių, kad mano pateikti programinio kodo pavyzdžiai yra neteisingi ar, kad galima padaryti kažką geriau. Pats esu gana dar jaunas ir daug ko nemoku, tačiau trokštu išmokti. Iš savo, ir kitų mano artimųjų patirties galiu pasakyti, kad srities specialistu tampi mokydamas kitus.

Pradedant, norėčiau apžvelgti kam web scrapping gali būti panaudojamas. Šį metodą programuotojai naudoja tada, kuomet reikia gauti informacijos iš kitos svetainės ir nenorima dirbti "copy->paste" principu. Web scrapping tai padarys už jus. Kadangi daugiausia teko programuoti PHP programavimo kalba, tai tik ja galėsiu pateikti pavyzdžių.

Vogti/skolintis/pasiimti informaciją PHP pagalba iš kitų interneto svetainių galima keletu būdų. Tačiau aprašysiu tik du - vieną, kuris nepatogus ir jį naudojant gali prasidėti rimtas "galvos skausmas", ir antrą - kurį pats naudoju ir rekomenduoju naudoti kitiems.

Pirmasis būdas. Jame naudojama curl biblioteka, preg_match_all funkcija. Blogiausia šio metodo savybė - reikia rašyti regexp išraiškas. Man (spėju ir kitiems programuotojams) tai yra "pain in the ######". Šis metodas turi ir pliusų - juo parašyti script'ai veikia šiek tiek greičiau negu antruoju.

Daug netuščiažodžiaujant, štai kodo pavyzdys (ačiū Sauliui):

<?php function rasti_turini( $pradzia, $galas, $url ) { $pradzia = str_replace('/', '\/', $pradzia); $galas = str_replace('/', '\/', $galas); $regexp = '/' . $pradzia . '(.+?)' . $galas . '/'; preg_match_all($regexp, $url, $atitike); return $atitike[0]; } function curl( $url ) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $result = curl_exec($ch); curl_close($ch); return $result; } //magic (: $url = curl( 'http://www.orai.lt/lt/prognozes/vilnius' ); $orai = rasti_turini( '<td class="oraiTableRow">', '</td>', $url ); //atvaizduojame antrąjį masyvo elementą echo $orai[1]; //jeigu norite pažiūrėti, kaip atrodo gautas masyvas, atkomentuokite sekančias 3 eilutes //echo '<pre>'; //print_r( $orai ); //echo '</pre>'; ?>

Antrasis būdas. Tai mano mėgstamiausias, ir mano nuomone geriausias būdas gauti informaciją iš kito tinklalapio. Kaip taip padaryti? Ogi pasitelkti simple html DOM biblioteką. :) Jos pagalba galima rašyti elementų select'orius jQuery stiliumi.

Pvz.:

$html->find('table.bioTableAlt tbody tr');

Argi gali būti patogiau ir greičiau? :rolleyes:

Tarkim turime užduotį, mums reikia gauti visą geriausių teniso žaidėjų sąrašą iš šitos svetainės. Taip, visą 1000 :) Atkreipkite dėmesį, kad lentelė atnaujinama kiekvieną pirmadienį. Kad šis kodas veiktų, jums prireiks parsisiųsti simple html dom klasę.

Kodas:

<?php //nuimame laiko limita set_time_limit(0); //simple html dom include('simple_html_dom.php'); //------------------------------------------------------------------------------ // Nuorodos //------------------------------------------------------------------------------ //paskutinio pirmadienio data $date = date('d.m.Y', strtotime('last monday')); //užkomentuokit dali nuorodu, jeigu norit greiciau pamatyti rezultata $urls = array(); $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=1'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=101'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=201'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=301'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=401'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=501'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=601'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=701'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=801'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=901'; //inicijuojam masyvą $zaidejai $zaidejai = array(); //praskanuojam visas nuorodas foreach($urls as $url) { //gauname duomenis iš svetainės $html = file_get_html($url); foreach( $html->find('table.bioTableAlt tbody tr') as $a ) { // Duomenys apie žaidėją: // pozicija --- vardas, šalis --- žaidėjo taškai --- pozicijos pokytis --- turnyrų skaičius $zaidejas['pozicija'] = $a->children(0)->plaintext; $zaidejas['vardas'] = $a->children(1)->plaintext; $zaidejas['taskai'] = $a->children(2)->plaintext; $zaidejas['ppokytis'] = $a->children(3)->plaintext; $zaidejas['tskaicius'] = $a->children(4)->plaintext; $zaidejai[] = $zaidejas; } } //pašalinam nereikalingus masyvo elementus (lentelės heading'us) unset( $zaidejai[909] ); unset( $zaidejai[808] ); unset( $zaidejai[707] ); unset( $zaidejai[606] ); unset( $zaidejai[505] ); unset( $zaidejai[404] ); unset( $zaidejai[303] ); unset( $zaidejai[202] ); unset( $zaidejai[101] ); unset( $zaidejai[ 0 ] ); //sutvarkom array keys $zaidejai = array_values( $zaidejai ); //pažiūrim gautą masyvą echo '<pre>'; print_r( $zaidejai ); echo '</pre>'; ?>

Štai dar vienas pavyzdys, kuriame gauname filmo reitingą iš imdb.com:

<?php //simple html dom biblioteka include('simple_html_dom.php'); //filmo url $url = 'http://www.imdb.com/title/tt0485947/'; //gauname svetainės html $html = file_get_html($url); //gauname filmo reitingą $ratio = $html->find('span.rating-rating', 0)->plaintext; echo $ratio; ?>

Pabaigai, noriu paminėti, kad su web scrapping galima sukurti gausybę naudingų ir niekam nekenkiančių dalykėlių, tačiau su juo galima pilnai pavogti turinį is RSS srauto ar iš paprasčiausios svetainės. Bet kaip tai padaryti - susigalvokite patys.

Ir tikiuosi, jog jums patiko, bei buvo naudingas pirmasis mano straipsnis uždarbis.lt forume :)
Lapinskis gavo reakciją nuo KasparasV Web scrapping naudojant PHP Balandžio 17, 2011

Sveiki uždarbiečiai, jau vienur prisižadėjau, kad parašysiu šiek tiek apie web scrapping. Tai pirmas mano straipsnis šiame forume, todėl nemaišykit su žemėmis be pagrindo. Konstruktyvi kritika visada laukiama, o šiaip ir pasiginčyti galiu, jeigu atsiras žmonių, manančių, kad mano pateikti programinio kodo pavyzdžiai yra neteisingi ar, kad galima padaryti kažką geriau. Pats esu gana dar jaunas ir daug ko nemoku, tačiau trokštu išmokti. Iš savo, ir kitų mano artimųjų patirties galiu pasakyti, kad srities specialistu tampi mokydamas kitus.

Pradedant, norėčiau apžvelgti kam web scrapping gali būti panaudojamas. Šį metodą programuotojai naudoja tada, kuomet reikia gauti informacijos iš kitos svetainės ir nenorima dirbti "copy->paste" principu. Web scrapping tai padarys už jus. Kadangi daugiausia teko programuoti PHP programavimo kalba, tai tik ja galėsiu pateikti pavyzdžių.

Vogti/skolintis/pasiimti informaciją PHP pagalba iš kitų interneto svetainių galima keletu būdų. Tačiau aprašysiu tik du - vieną, kuris nepatogus ir jį naudojant gali prasidėti rimtas "galvos skausmas", ir antrą - kurį pats naudoju ir rekomenduoju naudoti kitiems.

Pirmasis būdas. Jame naudojama curl biblioteka, preg_match_all funkcija. Blogiausia šio metodo savybė - reikia rašyti regexp išraiškas. Man (spėju ir kitiems programuotojams) tai yra "pain in the ######". Šis metodas turi ir pliusų - juo parašyti script'ai veikia šiek tiek greičiau negu antruoju.

Daug netuščiažodžiaujant, štai kodo pavyzdys (ačiū Sauliui):

<?php function rasti_turini( $pradzia, $galas, $url ) { $pradzia = str_replace('/', '\/', $pradzia); $galas = str_replace('/', '\/', $galas); $regexp = '/' . $pradzia . '(.+?)' . $galas . '/'; preg_match_all($regexp, $url, $atitike); return $atitike[0]; } function curl( $url ) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $result = curl_exec($ch); curl_close($ch); return $result; } //magic (: $url = curl( 'http://www.orai.lt/lt/prognozes/vilnius' ); $orai = rasti_turini( '<td class="oraiTableRow">', '</td>', $url ); //atvaizduojame antrąjį masyvo elementą echo $orai[1]; //jeigu norite pažiūrėti, kaip atrodo gautas masyvas, atkomentuokite sekančias 3 eilutes //echo '<pre>'; //print_r( $orai ); //echo '</pre>'; ?>

Antrasis būdas. Tai mano mėgstamiausias, ir mano nuomone geriausias būdas gauti informaciją iš kito tinklalapio. Kaip taip padaryti? Ogi pasitelkti simple html DOM biblioteką. :) Jos pagalba galima rašyti elementų select'orius jQuery stiliumi.

Pvz.:

$html->find('table.bioTableAlt tbody tr');

Argi gali būti patogiau ir greičiau? :rolleyes:

Tarkim turime užduotį, mums reikia gauti visą geriausių teniso žaidėjų sąrašą iš šitos svetainės. Taip, visą 1000 :) Atkreipkite dėmesį, kad lentelė atnaujinama kiekvieną pirmadienį. Kad šis kodas veiktų, jums prireiks parsisiųsti simple html dom klasę.

Kodas:

<?php //nuimame laiko limita set_time_limit(0); //simple html dom include('simple_html_dom.php'); //------------------------------------------------------------------------------ // Nuorodos //------------------------------------------------------------------------------ //paskutinio pirmadienio data $date = date('d.m.Y', strtotime('last monday')); //užkomentuokit dali nuorodu, jeigu norit greiciau pamatyti rezultata $urls = array(); $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=1'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=101'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=201'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=301'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=401'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=501'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=601'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=701'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=801'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=901'; //inicijuojam masyvą $zaidejai $zaidejai = array(); //praskanuojam visas nuorodas foreach($urls as $url) { //gauname duomenis iš svetainės $html = file_get_html($url); foreach( $html->find('table.bioTableAlt tbody tr') as $a ) { // Duomenys apie žaidėją: // pozicija --- vardas, šalis --- žaidėjo taškai --- pozicijos pokytis --- turnyrų skaičius $zaidejas['pozicija'] = $a->children(0)->plaintext; $zaidejas['vardas'] = $a->children(1)->plaintext; $zaidejas['taskai'] = $a->children(2)->plaintext; $zaidejas['ppokytis'] = $a->children(3)->plaintext; $zaidejas['tskaicius'] = $a->children(4)->plaintext; $zaidejai[] = $zaidejas; } } //pašalinam nereikalingus masyvo elementus (lentelės heading'us) unset( $zaidejai[909] ); unset( $zaidejai[808] ); unset( $zaidejai[707] ); unset( $zaidejai[606] ); unset( $zaidejai[505] ); unset( $zaidejai[404] ); unset( $zaidejai[303] ); unset( $zaidejai[202] ); unset( $zaidejai[101] ); unset( $zaidejai[ 0 ] ); //sutvarkom array keys $zaidejai = array_values( $zaidejai ); //pažiūrim gautą masyvą echo '<pre>'; print_r( $zaidejai ); echo '</pre>'; ?>

Štai dar vienas pavyzdys, kuriame gauname filmo reitingą iš imdb.com:

<?php //simple html dom biblioteka include('simple_html_dom.php'); //filmo url $url = 'http://www.imdb.com/title/tt0485947/'; //gauname svetainės html $html = file_get_html($url); //gauname filmo reitingą $ratio = $html->find('span.rating-rating', 0)->plaintext; echo $ratio; ?>

Pabaigai, noriu paminėti, kad su web scrapping galima sukurti gausybę naudingų ir niekam nekenkiančių dalykėlių, tačiau su juo galima pilnai pavogti turinį is RSS srauto ar iš paprasčiausios svetainės. Bet kaip tai padaryti - susigalvokite patys.

Ir tikiuosi, jog jums patiko, bei buvo naudingas pirmasis mano straipsnis uždarbis.lt forume :)
Lapinskis gavo reakciją nuo KasparasV Web scrapping naudojant PHP Balandžio 17, 2011

Sveiki uždarbiečiai, jau vienur prisižadėjau, kad parašysiu šiek tiek apie web scrapping. Tai pirmas mano straipsnis šiame forume, todėl nemaišykit su žemėmis be pagrindo. Konstruktyvi kritika visada laukiama, o šiaip ir pasiginčyti galiu, jeigu atsiras žmonių, manančių, kad mano pateikti programinio kodo pavyzdžiai yra neteisingi ar, kad galima padaryti kažką geriau. Pats esu gana dar jaunas ir daug ko nemoku, tačiau trokštu išmokti. Iš savo, ir kitų mano artimųjų patirties galiu pasakyti, kad srities specialistu tampi mokydamas kitus.

Pradedant, norėčiau apžvelgti kam web scrapping gali būti panaudojamas. Šį metodą programuotojai naudoja tada, kuomet reikia gauti informacijos iš kitos svetainės ir nenorima dirbti "copy->paste" principu. Web scrapping tai padarys už jus. Kadangi daugiausia teko programuoti PHP programavimo kalba, tai tik ja galėsiu pateikti pavyzdžių.

Vogti/skolintis/pasiimti informaciją PHP pagalba iš kitų interneto svetainių galima keletu būdų. Tačiau aprašysiu tik du - vieną, kuris nepatogus ir jį naudojant gali prasidėti rimtas "galvos skausmas", ir antrą - kurį pats naudoju ir rekomenduoju naudoti kitiems.

Pirmasis būdas. Jame naudojama curl biblioteka, preg_match_all funkcija. Blogiausia šio metodo savybė - reikia rašyti regexp išraiškas. Man (spėju ir kitiems programuotojams) tai yra "pain in the ######". Šis metodas turi ir pliusų - juo parašyti script'ai veikia šiek tiek greičiau negu antruoju.

Daug netuščiažodžiaujant, štai kodo pavyzdys (ačiū Sauliui):

<?php function rasti_turini( $pradzia, $galas, $url ) { $pradzia = str_replace('/', '\/', $pradzia); $galas = str_replace('/', '\/', $galas); $regexp = '/' . $pradzia . '(.+?)' . $galas . '/'; preg_match_all($regexp, $url, $atitike); return $atitike[0]; } function curl( $url ) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $result = curl_exec($ch); curl_close($ch); return $result; } //magic (: $url = curl( 'http://www.orai.lt/lt/prognozes/vilnius' ); $orai = rasti_turini( '<td class="oraiTableRow">', '</td>', $url ); //atvaizduojame antrąjį masyvo elementą echo $orai[1]; //jeigu norite pažiūrėti, kaip atrodo gautas masyvas, atkomentuokite sekančias 3 eilutes //echo '<pre>'; //print_r( $orai ); //echo '</pre>'; ?>

Antrasis būdas. Tai mano mėgstamiausias, ir mano nuomone geriausias būdas gauti informaciją iš kito tinklalapio. Kaip taip padaryti? Ogi pasitelkti simple html DOM biblioteką. :) Jos pagalba galima rašyti elementų select'orius jQuery stiliumi.

Pvz.:

$html->find('table.bioTableAlt tbody tr');

Argi gali būti patogiau ir greičiau? :rolleyes:

Tarkim turime užduotį, mums reikia gauti visą geriausių teniso žaidėjų sąrašą iš šitos svetainės. Taip, visą 1000 :) Atkreipkite dėmesį, kad lentelė atnaujinama kiekvieną pirmadienį. Kad šis kodas veiktų, jums prireiks parsisiųsti simple html dom klasę.

Kodas:

<?php //nuimame laiko limita set_time_limit(0); //simple html dom include('simple_html_dom.php'); //------------------------------------------------------------------------------ // Nuorodos //------------------------------------------------------------------------------ //paskutinio pirmadienio data $date = date('d.m.Y', strtotime('last monday')); //užkomentuokit dali nuorodu, jeigu norit greiciau pamatyti rezultata $urls = array(); $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=1'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=101'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=201'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=301'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=401'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=501'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=601'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=701'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=801'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=901'; //inicijuojam masyvą $zaidejai $zaidejai = array(); //praskanuojam visas nuorodas foreach($urls as $url) { //gauname duomenis iš svetainės $html = file_get_html($url); foreach( $html->find('table.bioTableAlt tbody tr') as $a ) { // Duomenys apie žaidėją: // pozicija --- vardas, šalis --- žaidėjo taškai --- pozicijos pokytis --- turnyrų skaičius $zaidejas['pozicija'] = $a->children(0)->plaintext; $zaidejas['vardas'] = $a->children(1)->plaintext; $zaidejas['taskai'] = $a->children(2)->plaintext; $zaidejas['ppokytis'] = $a->children(3)->plaintext; $zaidejas['tskaicius'] = $a->children(4)->plaintext; $zaidejai[] = $zaidejas; } } //pašalinam nereikalingus masyvo elementus (lentelės heading'us) unset( $zaidejai[909] ); unset( $zaidejai[808] ); unset( $zaidejai[707] ); unset( $zaidejai[606] ); unset( $zaidejai[505] ); unset( $zaidejai[404] ); unset( $zaidejai[303] ); unset( $zaidejai[202] ); unset( $zaidejai[101] ); unset( $zaidejai[ 0 ] ); //sutvarkom array keys $zaidejai = array_values( $zaidejai ); //pažiūrim gautą masyvą echo '<pre>'; print_r( $zaidejai ); echo '</pre>'; ?>

Štai dar vienas pavyzdys, kuriame gauname filmo reitingą iš imdb.com:

<?php //simple html dom biblioteka include('simple_html_dom.php'); //filmo url $url = 'http://www.imdb.com/title/tt0485947/'; //gauname svetainės html $html = file_get_html($url); //gauname filmo reitingą $ratio = $html->find('span.rating-rating', 0)->plaintext; echo $ratio; ?>

Pabaigai, noriu paminėti, kad su web scrapping galima sukurti gausybę naudingų ir niekam nekenkiančių dalykėlių, tačiau su juo galima pilnai pavogti turinį is RSS srauto ar iš paprasčiausios svetainės. Bet kaip tai padaryti - susigalvokite patys.

Ir tikiuosi, jog jums patiko, bei buvo naudingas pirmasis mano straipsnis uždarbis.lt forume :)
Lapinskis gavo reakciją nuo KasparasV Web scrapping naudojant PHP Balandžio 17, 2011

Sveiki uždarbiečiai, jau vienur prisižadėjau, kad parašysiu šiek tiek apie web scrapping. Tai pirmas mano straipsnis šiame forume, todėl nemaišykit su žemėmis be pagrindo. Konstruktyvi kritika visada laukiama, o šiaip ir pasiginčyti galiu, jeigu atsiras žmonių, manančių, kad mano pateikti programinio kodo pavyzdžiai yra neteisingi ar, kad galima padaryti kažką geriau. Pats esu gana dar jaunas ir daug ko nemoku, tačiau trokštu išmokti. Iš savo, ir kitų mano artimųjų patirties galiu pasakyti, kad srities specialistu tampi mokydamas kitus.

Pradedant, norėčiau apžvelgti kam web scrapping gali būti panaudojamas. Šį metodą programuotojai naudoja tada, kuomet reikia gauti informacijos iš kitos svetainės ir nenorima dirbti "copy->paste" principu. Web scrapping tai padarys už jus. Kadangi daugiausia teko programuoti PHP programavimo kalba, tai tik ja galėsiu pateikti pavyzdžių.

Vogti/skolintis/pasiimti informaciją PHP pagalba iš kitų interneto svetainių galima keletu būdų. Tačiau aprašysiu tik du - vieną, kuris nepatogus ir jį naudojant gali prasidėti rimtas "galvos skausmas", ir antrą - kurį pats naudoju ir rekomenduoju naudoti kitiems.

Pirmasis būdas. Jame naudojama curl biblioteka, preg_match_all funkcija. Blogiausia šio metodo savybė - reikia rašyti regexp išraiškas. Man (spėju ir kitiems programuotojams) tai yra "pain in the ######". Šis metodas turi ir pliusų - juo parašyti script'ai veikia šiek tiek greičiau negu antruoju.

Daug netuščiažodžiaujant, štai kodo pavyzdys (ačiū Sauliui):

<?php function rasti_turini( $pradzia, $galas, $url ) { $pradzia = str_replace('/', '\/', $pradzia); $galas = str_replace('/', '\/', $galas); $regexp = '/' . $pradzia . '(.+?)' . $galas . '/'; preg_match_all($regexp, $url, $atitike); return $atitike[0]; } function curl( $url ) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $result = curl_exec($ch); curl_close($ch); return $result; } //magic (: $url = curl( 'http://www.orai.lt/lt/prognozes/vilnius' ); $orai = rasti_turini( '<td class="oraiTableRow">', '</td>', $url ); //atvaizduojame antrąjį masyvo elementą echo $orai[1]; //jeigu norite pažiūrėti, kaip atrodo gautas masyvas, atkomentuokite sekančias 3 eilutes //echo '<pre>'; //print_r( $orai ); //echo '</pre>'; ?>

Antrasis būdas. Tai mano mėgstamiausias, ir mano nuomone geriausias būdas gauti informaciją iš kito tinklalapio. Kaip taip padaryti? Ogi pasitelkti simple html DOM biblioteką. :) Jos pagalba galima rašyti elementų select'orius jQuery stiliumi.

Pvz.:

$html->find('table.bioTableAlt tbody tr');

Argi gali būti patogiau ir greičiau? :rolleyes:

Tarkim turime užduotį, mums reikia gauti visą geriausių teniso žaidėjų sąrašą iš šitos svetainės. Taip, visą 1000 :) Atkreipkite dėmesį, kad lentelė atnaujinama kiekvieną pirmadienį. Kad šis kodas veiktų, jums prireiks parsisiųsti simple html dom klasę.

Kodas:

<?php //nuimame laiko limita set_time_limit(0); //simple html dom include('simple_html_dom.php'); //------------------------------------------------------------------------------ // Nuorodos //------------------------------------------------------------------------------ //paskutinio pirmadienio data $date = date('d.m.Y', strtotime('last monday')); //užkomentuokit dali nuorodu, jeigu norit greiciau pamatyti rezultata $urls = array(); $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=1'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=101'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=201'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=301'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=401'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=501'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=601'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=701'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=801'; $urls[] = 'http://www.atpworldtour.com/Rankings/Singles.aspx?d='.$date.'&c=&r=901'; //inicijuojam masyvą $zaidejai $zaidejai = array(); //praskanuojam visas nuorodas foreach($urls as $url) { //gauname duomenis iš svetainės $html = file_get_html($url); foreach( $html->find('table.bioTableAlt tbody tr') as $a ) { // Duomenys apie žaidėją: // pozicija --- vardas, šalis --- žaidėjo taškai --- pozicijos pokytis --- turnyrų skaičius $zaidejas['pozicija'] = $a->children(0)->plaintext; $zaidejas['vardas'] = $a->children(1)->plaintext; $zaidejas['taskai'] = $a->children(2)->plaintext; $zaidejas['ppokytis'] = $a->children(3)->plaintext; $zaidejas['tskaicius'] = $a->children(4)->plaintext; $zaidejai[] = $zaidejas; } } //pašalinam nereikalingus masyvo elementus (lentelės heading'us) unset( $zaidejai[909] ); unset( $zaidejai[808] ); unset( $zaidejai[707] ); unset( $zaidejai[606] ); unset( $zaidejai[505] ); unset( $zaidejai[404] ); unset( $zaidejai[303] ); unset( $zaidejai[202] ); unset( $zaidejai[101] ); unset( $zaidejai[ 0 ] ); //sutvarkom array keys $zaidejai = array_values( $zaidejai ); //pažiūrim gautą masyvą echo '<pre>'; print_r( $zaidejai ); echo '</pre>'; ?>

Štai dar vienas pavyzdys, kuriame gauname filmo reitingą iš imdb.com:

<?php //simple html dom biblioteka include('simple_html_dom.php'); //filmo url $url = 'http://www.imdb.com/title/tt0485947/'; //gauname svetainės html $html = file_get_html($url); //gauname filmo reitingą $ratio = $html->find('span.rating-rating', 0)->plaintext; echo $ratio; ?>

Pabaigai, noriu paminėti, kad su web scrapping galima sukurti gausybę naudingų ir niekam nekenkiančių dalykėlių, tačiau su juo galima pilnai pavogti turinį is RSS srauto ar iš paprasčiausios svetainės. Bet kaip tai padaryti - susigalvokite patys.

Ir tikiuosi, jog jums patiko, bei buvo naudingas pirmasis mano straipsnis uždarbis.lt forume :)
Lapinskis gavo reakciją nuo skystis Nukopijuoti tinklapio veiksmą Balandžio 17, 2011

Kodėl būtinai plagiatų? Web scrapping galima panaudoti ir gerais tikslais, pvz.: svetainėje apie filmus automatiškai paimti ir kas kelias dienas atnaujinti filmų imdb.com reitingus :rolleyes::]
Lapinskis gavo reakciją nuo Plx Nukopijuoti tinklapio veiksmą Balandžio 17, 2011

Tai gi galima padaryti, kad kas pvz 15 minučių atnaujintų informaciją. Parašai atskirą scriptuką, kuris atnaujina duomenis ir ant jo cronjob užstatai - ir vuolia. Tik kreivarankis naudotų duomenų ėmimą iš kito tinklalapio be cache, ypač jeigu tai būtų svetainė turinti lankomumą.

p.s. jeigu pavyks surasti laisvo laiko ir noras nebus pradingęs - galėsiu parašyti trumpą mokomąjį straipsniuką, kaip pasiimti duomenis iš kito tinklalapio, nes, kaip matau, ši tema yra gana dažnai paliečiama.
Lapinskis gavo reakciją nuo april Patarimo, kaip wordpress admin palikti zinutes parnteneriam Balandžio 17, 2011

Nebandžiau, bet gal tiks? :rolleyes: http://wordpress.org/extend/plugins/dashboard-notepad/
Lapinskis gavo reakciją nuo Plx Nukopijuoti tinklapio veiksmą Balandžio 17, 2011

Tai gi galima padaryti, kad kas pvz 15 minučių atnaujintų informaciją. Parašai atskirą scriptuką, kuris atnaujina duomenis ir ant jo cronjob užstatai - ir vuolia. Tik kreivarankis naudotų duomenų ėmimą iš kito tinklalapio be cache, ypač jeigu tai būtų svetainė turinti lankomumą.

p.s. jeigu pavyks surasti laisvo laiko ir noras nebus pradingęs - galėsiu parašyti trumpą mokomąjį straipsniuką, kaip pasiimti duomenis iš kito tinklalapio, nes, kaip matau, ši tema yra gana dažnai paliečiama.
Lapinskis gavo reakciją nuo north Nukopijuoti tinklapio veiksmą Balandžio 17, 2011

Protingas programuotojas panaudotų cache...

Jeigu nieko nenutuoki ir nenori nieko mokintis, tai greičiausiai nieko neišeis. Bet būdamas tavo vietoje, kad mažiau skaudėtų galvą, tai tiesiog pasinaudočiau kokio programuotojo paslaugomis. :)
Lapinskis gavo reakciją nuo Plx Nukopijuoti tinklapio veiksmą Balandžio 17, 2011

Tai gi galima padaryti, kad kas pvz 15 minučių atnaujintų informaciją. Parašai atskirą scriptuką, kuris atnaujina duomenis ir ant jo cronjob užstatai - ir vuolia. Tik kreivarankis naudotų duomenų ėmimą iš kito tinklalapio be cache, ypač jeigu tai būtų svetainė turinti lankomumą.

p.s. jeigu pavyks surasti laisvo laiko ir noras nebus pradingęs - galėsiu parašyti trumpą mokomąjį straipsniuką, kaip pasiimti duomenis iš kito tinklalapio, nes, kaip matau, ši tema yra gana dažnai paliečiama.
Lapinskis gavo reakciją nuo Plx Nukopijuoti tinklapio veiksmą Balandžio 17, 2011

Tai gi galima padaryti, kad kas pvz 15 minučių atnaujintų informaciją. Parašai atskirą scriptuką, kuris atnaujina duomenis ir ant jo cronjob užstatai - ir vuolia. Tik kreivarankis naudotų duomenų ėmimą iš kito tinklalapio be cache, ypač jeigu tai būtų svetainė turinti lankomumą.

p.s. jeigu pavyks surasti laisvo laiko ir noras nebus pradingęs - galėsiu parašyti trumpą mokomąjį straipsniuką, kaip pasiimti duomenis iš kito tinklalapio, nes, kaip matau, ši tema yra gana dažnai paliečiama.
Lapinskis gavo reakciją nuo north Nukopijuoti tinklapio veiksmą Balandžio 17, 2011

Protingas programuotojas panaudotų cache...

Jeigu nieko nenutuoki ir nenori nieko mokintis, tai greičiausiai nieko neišeis. Bet būdamas tavo vietoje, kad mažiau skaudėtų galvą, tai tiesiog pasinaudočiau kokio programuotojo paslaugomis. :)
Lapinskis gavo reakciją nuo north Nukopijuoti tinklapio veiksmą Balandžio 17, 2011

Protingas programuotojas panaudotų cache...

Jeigu nieko nenutuoki ir nenori nieko mokintis, tai greičiausiai nieko neišeis. Bet būdamas tavo vietoje, kad mažiau skaudėtų galvą, tai tiesiog pasinaudočiau kokio programuotojo paslaugomis. :)
Lapinskis sureagavo į twea Lietuviški plagiatai. Balandžio 16, 2011

Šis dar visai nieko :D Pamačiau kažkada - vos nenukritau - jau čia tai tikrai negali būti sutapimas... Ir tikrai netikiu, kad žmogus, kurdamas ženklą kavinei nežinojo apie Starbucks!

P.S. temą galima būtų pervadint "lietuviški plagiatai" :D
Lapinskis sureagavo į alter Puslapių rodymas per index.php Balandžio 2, 2011

Siūlau pasižiūrėti šitą video:
http://www.youtube.com/watch?v=o4dJ7hdA8fs
Lapinskis sureagavo į pushkis Gyvenimiškos tiesos Balandžio 1, 2011

Visiems puikiai suprantama, bet gal kartais reikėtų pažvelgti į šį sąrašą ir apgalvoti ar teisingai gyvename?

Baikit vertkti, nes versknių niekas nemyli.
Žinokite ko norite iš gyvenimo.
Žinokite kokią vietą norite užimti šiame pasaulyje ir ką paliksite po savęs.
Niekada nesigailėkite to, ką padarėte, nes gailėtis reikia to, ko nepadarėte.
Darykite tai ką mėgstatė ir darykite tai ypač gerai – pinigai patys ateis.
Mylėkite visa širdimi, nes ta meilė kurią gaunate niekada nebepasikartos.
Elkitės su kitais taip, kaip norėtumėte, kad su jumis būtų elgiamasi.
Puikybė žmogaus nepuošia.
Gerbkite save ir kiti gerbs jus.
Niekada nelaužykite duoto pažado.
Neturėk 100 draugų, nes lemiamą akimirką nebus nė vieno.
Siek daugiau nei gali gauti, kad nors ir negavęs to, ko norėjau, gautum daugiau nei būtum galėjęs gauti.
Šeima yra viskas.
Duok durniui kelią, bet nahalui vožk taip, kad daugiau tavo kelyje nedrįstų painiotis.
Mylėk gyvenimą.
Išmok atskirti gėra nuo blogo.
Išmok atskirti tikrą nuo netikro.
Visada tikėk savo svajonėmis ir niekada nepasiduok.

P.S Mažas nukrypimas nuo IT, bet gal kažkam bus naudinga... :)
Lapinskis gavo reakciją nuo Arvydas Pasveikinkime naujus Uždarbis.lt moderatorius Balandžio 1, 2011

Sveikinu visus naujus moderatorius, o ypač mano draugą Arius!!! Sėkmės jums ir nepraraskit entuziazmo! ;)
Lapinskis sureagavo į Kernius Pasveikinkime naujus Uždarbis.lt moderatorius Kovo 31, 2011

Atranka baigėsi, pasirinkimas padarytas. Po iškeltų griežtų reikalavimų, kurie buvo tarsi pirmasis atrankos etapas, sulaukėme beveik 30 paraiškų, iš kurių tikrai buvo daug protingų ir aktyvių forumo narių, kas labai nudžiugino. Buvo ir išsamių anketų, kurias labai įdomu buvo skaityti.

Daug nedauždodžiaujant, šįkart naujieji moderatoriai buvo renkami kaip niekada iki šiol griežtai: trys aktyviausi administratoriai (twea, Tadas ir Ernestas) kiekvienas išskyrė tuos, kuriems patikėdami moderatoriaus statusą galėtų jaustis visiškai ramūs - ne tik, kad forumas bus prižiūrimas, bet ir kad moderatorius nesivels į konfliktus su kitais forumo nariais, nesinaudos savo galia asmeniniais tikslais ir bet kaip kitaip nežemins moderatoriaus vardo (juk žinoma - jei vienas moderatorius ar administratorius padaro ką nors blogo, tuomet visa komanda tampa bloga).

Tad renkantis moderatorių galėjo užkliūti bet koks kandidato nemandagus bendravimas su kitais forumo nariais praeityje, smerkimas, panieka ar panašiai - mes tiesiog neįsivaizduojame, kad taip galėtų elgtis moderatorius, kad ir koks jis darbštus ir sąžiningas būtų. Žodžiu, praeities pranešimai forume sudarė kiekvieno kandidato įvaizdį.

Rinkimų sistema buvo paprasta: moderatoriais tampa tie, kurie sulaukia visų trijų "TAIP".

Taigi, pasveikinkime:

Arius techno litas suvalgysiu L33T
Dėkui visiems, kurie parodė norą prisidėti prie Uždarbis.lt komandos. Neabejoju, kad dauguma žmonių, kurių anketas gavome, būtų forumui naudingi, bet bendravimas internete neleidžia visiems visų gerai pažinti, tad moderatoriaus statusą belieka suteikti tiems, kurių pranešimai forume leido juos pažinti iš teigiamos pusės geriausiai.
Lapinskis gavo reakciją nuo EdFoX Puslapių rodymas per index.php Kovo 31, 2011

Gal aš ir kiek pavėluotai įsikišiu dėl tų framework, bet tikrai nuoširdžiai rekomenduoju naudoti Codeigniter php karkasą... Pradedantysis už jį tikrai nieko geriau neras, nuostabi dokumentacija, o ir tutorial'ų visur pilna.. :)
Lapinskis sureagavo į alter Formos validavimas Kovo 27, 2011

Įmečiau naują postą į savo blogą - http://www.arnas.net/blog/

Gal kam pravers kas dirba su CodeIgniter
Lapinskis sureagavo į KasparasV 'Tapatybes patvirtinimas' gera ideja, bet.. Kovo 25, 2011

Bus tau emigruoti iš tėvynės ...
Lapinskis sureagavo į Arvydas Uždarbis.lt moderatorių atranka 2011 Kovo 16, 2011

tai taip, kur čia paskubėsi, kai reikia visų 28 pretendentų nuodėmes surankioti :D ir kompromatus iš googlės ištraukti, o kur dar visas forumo žinutes perskaityti... juokauju žinoma, bet kogero kažkas panašaus vyksta :)
Lapinskis sureagavo į Arvydas Uždarbis.lt moderatorių atranka 2011 Kovo 16, 2011

Gal jau yra pirminė statistika apie dalyvių skaičių?
Lapinskis sureagavo į Arvydas Uždarbis.lt moderatorių atranka 2011 Kovo 16, 2011

paskutinė diena... po vidurnakčio lauksime truputį statistikos apie kandidatus, jei tik bus kernius gyvas tokiu laiku :rolleyes:

kaip tik samonė, bet kokiu atvėju žmogų reikia gyvai pamatyti, pabendrauti. Manau, kad naujieji moderatoriai privalėtų apsilankyti susitikimuose, čia tik mano nuomonė, galite ir nesutikti su ja ;)

P.S. Būtų kaip atestacija, kas met privaloma atvykti į susitikimą - kernius pravestų patikrą įvairios konsistencijos gėrimais :rolleyes:
Lapinskis sureagavo į Arvydas Uždarbis.lt moderatorių atranka 2011 Kovo 16, 2011

reikalavimus papildyčiau dar vienu punktu - turi būti sudalyvavęs bent viename uždarbio susitikime :)

Prisijungti

Lapinskis

Pranešimai

Užsiregistravo

Lankėsi

Laimėta dienų

Atsiliepimai

Reputacijos išklotinė

Veiklos srautas

Skelbimai