archivio ESA bulletin

sperando di farvi cosa gradita, in allegato trovate un file di testo da utilizzare con wget per scaricare tutti e 150 i numeri dell’ESA bulletin.
se avete wget installato basta lanciare dalla finestra di comando dopo esservi posizionati nella directory dove avete salvato il file:

wget -i esabulletin.txt


esabulletin.txt (13.3 KB)

MacOSX non ha wget di default. Volevo fare la stessa cosa con cURL, ma senza usare un file di appoggio.
Curl supporta la “parametrizzazione” di una parte dell’URL (credevo con regexp, ma è qualcosa di più semplice)…

ho dunque provato

curl -O http://esamultimedia.esa.int/multimedia/publications/ESA-Bulletin-[001-150]/offline/download.pdf 

Il giochino funziona, ma il fatto che tutti i file si chiamano “download.pdf” crea ovviamente problemi.
Non sono riuscito a parametrizzare il file di output (con “-o”) allo stesso modo dell’URL, per cui mi sono dovuto arrendere ad usare bash scripting.

E’ sufficiente che copiate questo testo e lo incolliate in una shell BASH per trovarvi tutti i numeri scaricati nella directory dal quale lo lanciate.
Hope this helps.

for i in `seq -w 1 150`; 
do 
	curl -o esa_bulletin_$i.pdf http://esamultimedia.esa.int/multimedia/publications/ESA-Bulletin-$i/offline/download.pdf 

done

Cheers

purtroppo mi sono accorto che gli indirizzi dei numeri dal 125 al 149 hanno una sintassi diversa daglli alti… mannaggia all’ESA!!!

Ah, io l’ho fatto andare un po’ e l’ho fermato causa SSD da 120 GB pieno “a tappo”…
E’ diverso ma predicibile?

http://www.esa.int/esapub/bulletin/bulletin125/bulletin125.pdf e cosi’ via… poi pero’ ci sono alcuni numeri scaricabili come archivio zippato, tipo http://esamultimedia.esa.int/multimedia/publications/ESA-Bulletin-134//offline.zip
insomma un bel macello…

Intanto grazie Mike! :ok_hand:
Pure io avevo provato a riassumere tutto in un comando/script, ma mi ero bloccato tentando di rinominare i file… :flushed:

Paolo se conosci gli intervalli dei numeri che usano un determinato indirizzo non è difficile mettere tutto in uno script che scarica, estrae e rinomina.

Dovrebbe essere: dal 125 al 133 http://www.esa.int/esapub/bulletin/bulletinNNN/bulletinNNN.pdf; dal 134 al 149 http://esamultimedia.esa.int/multimedia/publications/ESA-Bulletin-NNN/offline.zip e il 150 torna ad essere http://esamultimedia.esa.int/multimedia/publications/ESA-Bulletin-NNN/offline/download.pdf.

Ok così lo script dovrebbe essere completo:

#!/bin/bash for i in `seq -w 1 124`; do curl -o ESA-Bulletin-$i.pdf http://esamultimedia.esa.int/multimedia/publications/ESA-Bulletin-$i/offline/download.pdf done for i in `seq 125 133`; do curl -o ESA-Bulletin-$i.pdf http://www.esa.int/esapub/bulletin/bulletin$i/bulletin$i.pdf done for i in `seq 134 149`; do curl -o ESA-Bulletin-$i.zip http://esamultimedia.esa.int/multimedia/publications/ESA-Bulletin-$i/offline.zip unzip -p ESA-Bulletin-$i.zip done for i in `seq 150 150`; do curl -o ESA-Bulletin-$i.pdf http://esamultimedia.esa.int/multimedia/publications/ESA-Bulletin-$i/offline/download.pdf done

L’ultima parte l’ho lasciata così nella speranza che mantengano la sintassi dell’indirizzo anche per i prossimi numeri (>150).

Minkia quanto siete geek… :stuck_out_tongue_winking_eye: :stuck_out_tongue_winking_eye: :nerd:

Ci sono solo 10 categorie di persone: quelle che ragionano in binario, e gli altri :slight_smile:
(un sottoinsieme significativo sono quelli che fanno colazione in bash)

Cara la mia vecchia bash… scusate, ma i ricordi di gioventù…

Per chi non ha wget :stuck_out_tongue_winking_eye:
http://users.ugent.be/~bpuype/wget/