7 - WWW

wget

Il materiale che si trova in rete varia continuamente: i siti vengono continuamente cambiati (si dice "aggiornati"), e oltra a ciò nascono e muoiono frequentemente.
I browser permettono di vedere i siti, e di scaricare il materiale che interessa, cliccando un link alla volta.
Il wget essenzialmente sa cliccare per voi tutte le volte che è possibile cliccare su un link.
In questo modo è possibile scaricare tutto o almeno certe parti di un sito interessante.
wget -m --no-parent http://people.dm.unipi.it/steffe/DIDA/cmc-2018-19/ dovrebbe procurarvi una copia completa di questi Appunti (circa 256MB ) senza copiare i link della parte storica (percè allora si arriverebbe a 1.9GB).
Se 212MB sono troppi, si può scaricare la copia di alcuni anni fa (cmc-2009-10 che, non avendo i filmati, occupa solo 37MBytes - 390 files - compresi i manuali citati nella Bibliografia.
Bisogna stare attenti che wget cliccando qui e li finisce per cercare di copiare tutto il mondo ! Ci sono numerose opzioni da usare. Consultare la man page accuratamente!

(ovviamente per i lucidi attuali occorre sostituire cmc-2015-16 a cmc-2009-10 !)

curl

Simile al wget; in certi casi è preferibile (per esempio per files grandi).
Ha anche una opzione molto interessante che permette di riprendere un download che si era interrotto.

i motori di ricerca del WWW

I ragni o motori di ricerca del WWW sono programmi automatici che visitano periodicamente tutti i siti, costruendo dei giganteschi indici delle parole usate.

E' possibile poi fare delle ricerche mediante delle parole chiave, ed ottenere un elenco delle pagine WEB che riportavano quelle parole o parole vicine.

Alcuni di questi motori di ricerca del WWW sono dedicati a settori particolari altri di carattere generale come GOOGLE o LYCOS o Yahoo o Ask Jeeves.

Laboratorio di Comunicazione mediante Calcolatore - Sergio Steffè - AA 2019/2020 - PISA