Pereiti prie turinio

Rekomenduojami pranešimai

  • po 1 metų...
  • po 10 mėnesių...

O viešam naudojimui reikalingi kažkokie sutikimai iš svetainės savininko, jei tiksliau - parsinciau skelbimus su nuoroda į jų tinklapį? Internete matau nemažai tokių atvėju tik kaip visa tai sprendžia.

 

Kad ir pats skelbiu.lt->cvbankas, etc.., nors jis, turbūt, iš bendrų projektų paima, kaip kiti?

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Man irgi būtų įdomu sužinoti, ar legalu:

a) Scrapinti skelbimų svetainės duomenis kas 10 min, 30 min savoms reikmėms (tarkime ieškant naujausių skelbimų pagal tam tikrus kriterijus);

b) Scrapinti skelbimų svetainės duomenis kas 10 min, 30 min ir kelti į savo internetinį puslapį.

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Man irgi būtų įdomu sužinoti, ar legalu:

a) Scrapinti skelbimų svetainės duomenis kas 10 min, 30 min savoms reikmėms (tarkime ieškant naujausių skelbimų pagal tam tikrus kriterijus);

b) Scrapinti skelbimų svetainės duomenis kas 10 min, 30 min ir kelti į savo internetinį puslapį.

 

 

a - "Robotas irgi žmogus"' - kaip gali baust robotą už tai už ką žmgaus nebaustum?

 

b - Vagystės, šiaip, nelegalu, nebent draugiškai pasidalintų

Nuoroda į pranešimą
Dalintis kituose puslapiuose
  • po 1 mėnesio...

Man irgi būtų įdomu sužinoti, ar legalu:

a) Scrapinti skelbimų svetainės duomenis kas 10 min, 30 min savoms reikmėms (tarkime ieškant naujausių skelbimų pagal tam tikrus kriterijus);

b) Scrapinti skelbimų svetainės duomenis kas 10 min, 30 min ir kelti į savo internetinį puslapį.

 

Robotai teisiškai galėtų būti baudžiami tik tada, jei tai kenkia svetainės sąvininkui:

  • Didelė apkrova/DDoS (tiesiog apkrauni tiek, kad jie negali priimti kitų klientų)
  • Nekreipi dėmesio į robots.txt (būna rekomenduojamas delay, ar puslapiai, kurie turėtų būti nerodomi robotams, tik praktiškai neįmanoma už tai nubausti)
  • Parsisiunti didelį kiekį srauto iš svetainės (būna hosting kai skaičiuoja duomenų srautą, kai tu vienas sunaudoji didelę dalį, krenti į akis)
  • Surinktą informaciją naudoji konkuruoti su pačiu puslapiu (ypač dėl Google paieškos). Autorinės teisės draudžia pasisavinti kito autoriaus turinį be jo sutikimo, bet tas autorius turi įrodyti, kad jis sąvininkas. (pagal patentus ar pan, bet dažniausiai tai galioja tik straipsniams. Pvz. jeigu būtų parduodamos prekės informacija, tai didelė jos dalis būna tiesiogiai gaunama iš gamintojų/tiekėjų ir visur kartojasi)

 

Manau praktiškai, kad kažkas imtųsi teisinių priemonių prieš jų svetainėje naršančius robotus nėra (labai sunku įrodyti žalą). Didesnė tikimybė yra neteisingai panaudoti crawler/scraper'į ir taip pakliūti į akiratį, arba neteisingai naudoti surinktą informaciją (kam ir scraper nereikia, gali copy-paste ir jau gauti teisininkų raštą).

 

p.s. lengviau yra svetainės savininkams bandyti blokuoti/lėtinti scraper'ius ir tik taip nuo jų apsisaugoti.

Nuoroda į pranešimą
Dalintis kituose puslapiuose
  • po 1 metų...

Sveiki, ar eina pamatyti skelbimus kol juos patvirtina? Pvz: dedant skelbimą į autoplius.lt reikia laukti apie 5min kol jį patvirtina. Noriu matyti kol nemato kiti:)

Negali, nes tie skelbimai tuo metu yra "karantine" (laukia, kol juos peržiūrės turinio moderatoriai. Niekas kitas be moderatoriaus/administratoriaus, bei skelbimo savininko, to skelbimo matyti negali.

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Man irgi būtų įdomu sužinoti, ar legalu:

a) Scrapinti skelbimų svetainės duomenis kas 10 min, 30 min savoms reikmėms (tarkime ieškant naujausių skelbimų pagal tam tikrus kriterijus);

b) Scrapinti skelbimų svetainės duomenis kas 10 min, 30 min ir kelti į savo internetinį puslapį.

a) Yra naujienlaiškiai pagal filtracijas, kurie ganėtinai gerai veikia 10-20min po įkėlimo skelbimo. Laiškus iš serverio savo skanuotis lengviau yra.

b) Nelegalu, jei taip nurodyta panaudojimo taisyklėse, plius visi skelbimų puslapiai watermark deda ant nuotraukų, tai kaip ir be ryšio tuos skelbimus imti.

Nuoroda į pranešimą
Dalintis kituose puslapiuose
  • po 1 metų...

Sveiki, noriu pasidaryti WebScraperį paskoluklubas.lt su Python, tačiau niekur puslapio kode nerandu prisijungimo mygtuko ID. Gal kas darėt jau ir galit pasidalint info? :)

 

Tokių atveju reiktu rištis ne prie mygtuko, o prie pačio formos:

id="password-login-form"

Redagavo Arvis
Nuoroda į pranešimą
Dalintis kituose puslapiuose
  • po 2 metų...

Tema sena, bet matau yra sekančių šią temą. Pasidalinsiu 1 dalimi pamokos, kur mokysiu scrapinti duomenis naudojant Java Jsoup biblioteką. Tai yra HTML parseris, kuris leidžia patogiai surinkti reikiamą informaciją. 

 

 

Redagavo finansai
Nuoroda į pranešimą
Dalintis kituose puslapiuose
  • po 5 mėnesių...
prieš 8 valandas, beeflower44 parašė:

Sveiki. Ar chrome pluginai yra efektyvūs web scrapinimui? Ar geriau naudoti atskirą programinę įrangą? ? 

Sveikas, trumpai, tai labai priklauso nuo turimo atvejo. 

Jei reikalinga ištraukti informaciją labai retu dažnumu, pvz kartą į dieną tik vienas puslapis ar pan, gali užtekti ir tokio: https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn

Tačiau kai kurios limitacijos gali būt greit pasiektos ypač kai papildinys yra sukurtas kažkieno, jo keisti pats negali. 
Brangiausias ir geriausias sprendimas yra individualizuotas sprendimas, jei to reikia.

Pluginų pliusai, jog lengva įsidiegti, pluginas veikia naršyklėje, taigi net jei yra kažkokie tikrinimai svetainėje ar robotai ne 'crawlina' puslapių, tokie veiksmai atrodys kaip normalūs ir ateinantys iš normalaus vartotojo naršyklės su reikiamomis nesuklastotomis antraštėmis, žinoma sudėtingesni algoritmai gali aptikti jei eini per kažkokį sąrašą nuosekliai puslapių, jog skenuoji informaciją, o ne ištiesų lankaisi kaip paprastas lankytojas.

Jei reikalinga maža aptikimo galimybė, periodinės užduotys, atsitiktiniai skenavimo intervalai, tolesnis duomenų apdorojimas po surinkimo, dažnai reikės didesnio sprendimo ar individualaus, asmeniškai ieškočiau tas kas tuo specializuojasi arba domėčiausi programine įranga, kuri daugmaž turi tokio visapusiško funkcionalumo. 

Jei žinai ko reikia konkrečiai galėčiau pagelbėti, gali mestelti AŽ jei aktualu.

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Prisijunkite prie diskusijos

Jūs galite rašyti dabar, o registruotis vėliau. Jeigu turite paskyrą, prisijunkite dabar, kad rašytumėte iš savo paskyros.

Svečias
Parašykite atsakymą...

×   Įdėta kaip raiškusis tekstas.   Atkurti formatavimą

  Only 75 emoji are allowed.

×   Nuorodos turinys įdėtas automatiškai.   Rodyti kaip įprastą nuorodą

×   Jūsų anksčiau įrašytas turinys buvo atkurtas.   Išvalyti redaktorių

×   You cannot paste images directly. Upload or insert images from URL.

Įkraunama...
  • Dabar naršo   0 narių

    Nei vienas registruotas narys šiuo metu nežiūri šio puslapio.

  • Prisijunk prie bendruomenės dabar!

    Uždarbis.lt nariai domisi verslo, IT ir asmeninio tobulėjimo temomis, kartu sprendžia problemas, dalinasi žiniomis ir idėjomis, sutinka būsimus verslo partnerius ir dalyvauja gyvuose susitikimuose.

    Užsiregistruok dabar ir galėsi:

    ✔️ Dalyvauti diskusijose;

    ✔️ Kurti naujas temas;

    ✔️ Rašyti atsakymus;

    ✔️ Vertinti kitų žmonių pranešimus;

    ✔️ Susisiekti su bet kuriuo nariu asmeniškai;

    ✔️ Naudotis tamsia dizaino versija;

    ir dar daugiau.

    Registracija trunka ~30 sek. ir yra visiškai nemokama.

  • Naujausios temos

  • Karštos temos

×
×
  • Pasirinkite naujai kuriamo turinio tipą...