wget e ricorsione disabilitata

Area di discussione libera.

Moderatore: Staff

Regole del forum
1) Rispettare le idee altrui.
2) Evitare le offese dirette.
3) Leggere attentamente le risposte ricevute
4) Scrivere i messaggi con il colore di default, evitare altri colori.
5) Scrivere in Italiano o in Inglese, se possibile grammaticalmente corretto, evitate stili di scrittura poco chiari, quindi nessuna abbreviazione tipo telegramma o scrittura stile SMS o CHAT.
6) Appena registrati è consigliato presentarsi nel forum dedicato.

La non osservanza delle regole porta a provvedimenti di vari tipo da parte dello staff, in particolare la non osservanza della regola 5 porta alla cancellazione del post e alla segnalazione dell'utente. In caso di recidività l'utente rischia il ban temporaneo.
Rispondi
Avatar utente
joe
Iper Master
Iper Master
Messaggi: 3789
Iscritto il: ven 27 apr 2007, 11:21
Slackware: 15.0
Kernel: 5.15.38
Desktop: dwm

wget e ricorsione disabilitata

Messaggio da joe »

Codice: Seleziona tutto

$ wget --spider 'http://www.interno.gov.it/sites/default/files/allegati/nuovo_modello_autodichiarazione_26.03.2020_editabile.pdf'
[...]
Richiesta HTTP inviata, in attesa di risposta... 200 OK
Lunghezza: 6684 (6,5K) [text/html]
Il file remoto esiste e potrebbe contenere ulteriori collegamenti,
ma la ricorsione è disabilitata -- non viene scaricato.
Nell'esempio sopra con wget in modalità "spier" vorrei accertarmi che il file remoto sia presente, in alcuni casi si ottiene anche qualcosa del tipo:

Codice: Seleziona tutto

Length: 394264576 (376M) [application/octet-stream]
Evidentemente nell'esempio sopra wget non riesce a raggiungere le info del file a causa della ricorsione disabilitata.
Se apro lo stesso link con firefox, viene aperto il pdf dentro al browser, quindi correttamente, poi si può scaricare ecc ecc.
C'è un modo per scaricare direttamente il file con wget oppure per ottenere le informazioni corrette sul file PDF in modalità spider?

Ok, ovviamente quello sopra è solo un esempio. Oggi un amico diceva di non riuscire ad aprire il link così volevo controllare con wget per mostrargli che funzionava, ma non sono riuscito (il link funzionava con firefox, quindi non problem lato server, è forse proprio un limite di wget, oppure non so con qualche opzione si riesce).

Ne sapete qualcosa di più?

rik70
Iper Master
Iper Master
Messaggi: 2489
Iscritto il: gio 10 mar 2011, 9:21
Slackware: 15.0
Kernel: 5.15.x-generic
Desktop: Sway
Distribuzione: Arch Linux

Re: wget e ricorsione disabilitata

Messaggio da rik70 »

Devi aggiungere l'user-agent di un browser noto.

Esempio:

Codice: Seleziona tutto

 -U 'Mozilla/5.0 (Linux; U; Android 4.4.2; it; LG-L160L Build/IML74K) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30'

Codice: Seleziona tutto

-U 'Mozilla/5.0 (X11; Linux x86_64; rv:74.0) Gecko/20100101 Firefox/74.0'
etc, etc.

Avatar utente
joe
Iper Master
Iper Master
Messaggi: 3789
Iscritto il: ven 27 apr 2007, 11:21
Slackware: 15.0
Kernel: 5.15.38
Desktop: dwm

Re: wget e ricorsione disabilitata

Messaggio da joe »

Ah ecco! Ci avevo anche pensato... Lo fanno per evitare congestioni a causa di "scraping" se si dice così da parte dei vari spider, tipo anche da parte dei motori di ricerca?

rik70
Iper Master
Iper Master
Messaggi: 2489
Iscritto il: gio 10 mar 2011, 9:21
Slackware: 15.0
Kernel: 5.15.x-generic
Desktop: Sway
Distribuzione: Arch Linux

Re: wget e ricorsione disabilitata

Messaggio da rik70 »

Immagino sia una cosa del genere.... ma non ti so dire più di quanto hai detto tu :)

Avatar utente
joe
Iper Master
Iper Master
Messaggi: 3789
Iscritto il: ven 27 apr 2007, 11:21
Slackware: 15.0
Kernel: 5.15.38
Desktop: dwm

Re: wget e ricorsione disabilitata

Messaggio da joe »

Ad ogni modo grazie della dritta! :thumbright:

Rispondi