Pagina 1 di 1

wget e ricorsione disabilitata

Inviato: sab 4 apr 2020, 1:04
da joe

Codice: Seleziona tutto

$ wget --spider 'http://www.interno.gov.it/sites/default/files/allegati/nuovo_modello_autodichiarazione_26.03.2020_editabile.pdf'
[...]
Richiesta HTTP inviata, in attesa di risposta... 200 OK
Lunghezza: 6684 (6,5K) [text/html]
Il file remoto esiste e potrebbe contenere ulteriori collegamenti,
ma la ricorsione è disabilitata -- non viene scaricato.
Nell'esempio sopra con wget in modalità "spier" vorrei accertarmi che il file remoto sia presente, in alcuni casi si ottiene anche qualcosa del tipo:

Codice: Seleziona tutto

Length: 394264576 (376M) [application/octet-stream]
Evidentemente nell'esempio sopra wget non riesce a raggiungere le info del file a causa della ricorsione disabilitata.
Se apro lo stesso link con firefox, viene aperto il pdf dentro al browser, quindi correttamente, poi si può scaricare ecc ecc.
C'è un modo per scaricare direttamente il file con wget oppure per ottenere le informazioni corrette sul file PDF in modalità spider?

Ok, ovviamente quello sopra è solo un esempio. Oggi un amico diceva di non riuscire ad aprire il link così volevo controllare con wget per mostrargli che funzionava, ma non sono riuscito (il link funzionava con firefox, quindi non problem lato server, è forse proprio un limite di wget, oppure non so con qualche opzione si riesce).

Ne sapete qualcosa di più?

Re: wget e ricorsione disabilitata

Inviato: sab 4 apr 2020, 7:10
da rik70
Devi aggiungere l'user-agent di un browser noto.

Esempio:

Codice: Seleziona tutto

 -U 'Mozilla/5.0 (Linux; U; Android 4.4.2; it; LG-L160L Build/IML74K) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30'

Codice: Seleziona tutto

-U 'Mozilla/5.0 (X11; Linux x86_64; rv:74.0) Gecko/20100101 Firefox/74.0'
etc, etc.

Re: wget e ricorsione disabilitata

Inviato: sab 4 apr 2020, 10:08
da joe
Ah ecco! Ci avevo anche pensato... Lo fanno per evitare congestioni a causa di "scraping" se si dice così da parte dei vari spider, tipo anche da parte dei motori di ricerca?

Re: wget e ricorsione disabilitata

Inviato: sab 4 apr 2020, 10:51
da rik70
Immagino sia una cosa del genere.... ma non ti so dire più di quanto hai detto tu :)

Re: wget e ricorsione disabilitata

Inviato: sab 4 apr 2020, 14:45
da joe
Ad ogni modo grazie della dritta! :thumbright: