Pillole di OSINT n.31

No, gli LLM non sono dei motori di ricerca!

ChatGPT, Gemini, Claude, Copilot, ecc…

Strumenti diversi, architetture diverse, ma tutti accomunati da un equivoco che si sta consolidando rapidamente nelle abitudini digitali di milioni di persone: vengono usati come se fossero motori di ricerca evoluti. Si digita una domanda, si riceve una risposta articolata e si passa oltre. Il problema è che quella risposta proviene da un modello statistico addestrato su dati che si limita a generare testo. Non recupera informazioni, non interroga database in tempo reale, non verifica la veridicità di ciò che produce nel momento in cui lo produce. Quando risponde a una domanda su un evento recente, su una sentenza, su un dato aggiornato, sta operando con ciò che era nel suo dataset di addestramento, interpolando tra pattern linguistici. Il risultato è plausibile, spesso fluente, a volte corretto. Non è affidabile nel senso operativo del termine; semplicemente perché il processo che lo ha generato non è verificabile.

Un motore di ricerca, usato con competenza, fa qualcosa di radicalmente diverso: recupera documenti indicizzati, ne restituisce la fonte, permette di risalire all’origine del dato. La stessa domanda posta a un LLM produce una sintesi che può contenere dati corretti, dati deformati e dati inventati, presentati con lo stesso tono assertivo e la stessa struttura grammaticale.

Il tema è sostanzialmente epistemologico. Chi usa un LLM come motore di ricerca ha abdicato a una parte del processo cognitivo che dovrebbe rimanere umano: la verifica della fonte, la valutazione dell’affidabilità, la distinzione tra ciò che è documentato e ciò che è inferito.

Questa sorta di “abdicazione” ha una spiegazione sociologica relativamente semplice. I motori di ricerca, nella loro forma più efficace, richiedono competenza operativa. La ricerca semplicistica, quella della singola parola chiave nella barra di Google, restituisce risultati rumorosi, ottimizzati per il posizionamento commerciale, spesso irrilevanti. L’utente medio sperimenta il motore di ricerca nella sua forma peggiore e quando trova uno strumento che risponde in linguaggio naturale con frasi complete, la preferenza è comprensibile. Ma il fatto che questa scelta possa essere comprensibile non significa che sia corretta.

La questione centrale da comprendere è che i motori di ricerca, quando usati con metodo, sono strumenti di precisione. Quindi il problema non è lo strumento: è chi non sa usarlo!

Gli operatori di ricerca avanzata e la superficie informativa esposta

Gli operatori di ricerca avanzata sono istruzioni che modificano il comportamento del motore di ricerca. Non cercano parole, cercano strutture. E le strutture rivelano cose che nessuna organizzazione ha deciso consapevolmente di rendere pubbliche.

L’operatore site: circoscrive la ricerca a un dominio specifico. Nella pratica, consente di interrogare l’indice di Google come se fosse il catalogo interno di un sito. Digitare site:sitodiinteresse.it restituisce tutti i contenuti di quel dominio che Google ha indicizzato, indipendentemente da quanto siano accessibili dalla navigazione ordinaria.

Il punto non è il numero di risultati. È la qualità. Molte organizzazioni espongono online contenuti che non compaiono nei menu di navigazione ma che risultano comunque pubblicamente accessibili. Se tali risorse non sono protette da autenticazione o da adeguate direttive tecniche di esclusione dall’indicizzazione, possono essere scoperte e catalogate dai motori di ricerca. Documenti caricati per uso interno, ambienti di test dimenticati o report tecnici non comunicati formalmente possono così diventare rintracciabili tramite una semplice ricerca.

Combinando site: con filetype:, la ricerca diventa selettiva per formato. La query site:sitodiinteresse.it filetype:pdf restituisce i documenti PDF del “sitodiinteresse”, non quelli che il sito in questione ha deciso di mettere in evidenza, ma tutti quelli accessibili.

La distinzione è rilevante: tra un documento pubblicato intenzionalmente e uno semplicemente non protetto, la differenza non si vede nel risultato di ricerca.

Lo stesso principio applicato a filetype:xlsx o filetype:csv rivela una categoria di rischio specifica. I fogli di calcolo e i file CSV sono spesso il prodotto di elaborazioni operative: gare d’appalto, elenchi fornitori, piani di spesa. Quando questi file vengono caricati su un server senza restrizioni di accesso, il motore di ricerca li trova. Una query come site:sitodiinteresse.it filetype:xlsx “bilancio” può restituire documenti che non erano pensati per la consultazione pubblica ma che tecnicamente nessuno ha protetto. Questo non è un attacco informatico. Non richiede alcuna competenza tecnica avanzata. Richiede di sapere cosa scrivere nella barra di ricerca.

La logica booleana e la costruzione di query mirate

Gli operatori isolati hanno un valore limitato. Il loro potenziale si manifesta nella combinazione. La logica booleana applicata alle query permette di costruire filtri progressivi: si include, si esclude, si delimita per dominio, per formato, per data, per presenza o assenza di termini specifici.

Un esempio concreto e quotidiano: si vuole trovare il bilancio consuntivo di un comune italiano, escludendo i comunicati stampa e le pagine generiche del sito. La query site:comunediinteresse.it filetype:pdf “bilancio consuntivo” -comunicato -avviso fa esattamente questo. Il prefisso - esclude i termini indesiderati, filetype:pdf seleziona solo i documenti, le virgolette richiedono la corrispondenza esatta della locuzione. Il risultato restringe il campo dai centinaia di pagine indicizzate del sito ai soli documenti pertinenti.

Lo stesso principio si applica alla ricerca su più domini in parallelo. La query “piano triennale” filetype:pdf site:comunediinteresse.it OR site:altrocomunediinteresse.it OR site:terzocomunediinteresse.it consente di confrontare documenti analoghi su più amministrazioni in un’unica operazione, senza aprire tre schede separate e navigare manualmente ciascun sito.

L’operatore inurl: lavora invece sulla struttura dell’URL, non sul contenuto della pagina. Una query come inurl:trasparenza site:comunediinteresse.it può restituire, ad esempio, le sezioni dedicate all’amministrazione trasparente di quell’ente, che spesso contengono documenti non raggiungibili dalla navigazione ordinaria del sito. È uno strumento utile tanto per chi fa ricerca giornalistica su atti pubblici quanto per chi verifica la conformità di un ente agli obblighi di pubblicazione previsti dalla normativa.

Il profilo LinkedIn come caso limite

La query site:linkedin.com/in “cyber security” “Italia” -recruiter -jobsè un esercizio di profilazione professionale. Cerca professionisti di sicurezza informatica in Italia, escludendo i post di recruiting e le offerte di lavoro che altrimenti saturerebbero i risultati. È una ricerca lecita: i profili LinkedIn sono pubblici per scelta dell’utente.

Ma la domanda che ogni analista dovrebbe porsi non è se la ricerca sia tecnicamente permessa, bensì dove si colloca il confine tra l’aggregazione di informazioni pubbliche e la costruzione di un profilo sistematico su una persona fisica. La risposta non è universale. Dipende dal contesto operativo, dalla finalità, dalla giurisdizione. Un’analisi di Threat Intelligence su un possibile soggetto ostile in un’indagine autorizzata è diversa dalla raccolta di informazioni su un concorrente, che a sua volta è diversa dalla profilazione di un individuo privato. Gli operatori non cambiano, cambia il perimetro etico e legale dell’operazione.

Ciò che i motori di ricerca non restituiscono

La padronanza degli operatori crea facilmente un’illusione di completezza. Google indicizza una parte del web, non tutto il web. Bing, DuckDuckGo e altri motori utilizzano algoritmi di indicizzazione distinti, con criteri di inclusione ed esclusione differenti. La stessa query eseguita su tre motori diversi può restituire risultati parzialmente o completamente non sovrapposti.

Per un’indagine OSINT, questo ha implicazioni pratiche dirette.

I risultati mancanti non sono una prova che l’informazione non esiste: sono una prova che quel motore non l’ha indicizzata, o ha scelto di non restituirla. Considerare i risultati di Google come rappresentativi dell’universo informativo è un errore metodologico con conseguenze reali sulle conclusioni dell’analisi.

Con quanto precede spero di aver dimostrato che un analista OSINT che sostituisce la ricerca strutturata con query a un LLM sta degradando il proprio lavoro su un piano metodologico preciso: rinuncia alla tracciabilità delle fonti, alla verificabilità del processo, alla possibilità di falsificare i risultati. Tre principi che nella produzione di intelligence non sono optional.

Come ripeto spesso, l’assenza di risultati è essa stessa un dato e richiede interpretazione. Un modello linguistico, davanti allo stesso vuoto informativo, genera comunque una risposta. Anche per questa ragione, se da un lato i modelli linguistici hanno un ruolo legittimo nel lavoro di analisi: sintetizzare, strutturare, riformulare, assistere nella redazione di documenti, dall’altro non possono avere la stessa legittimazione come fonte primaria di informazioni fattuali su eventi, persone, organizzazioni o dati che richiedono aggiornamento continuo.

Dall’informazione all’intelligence: il ruolo della ricerca strutturata

C’è un gesto che accomuna chi si avvicina per la prima volta alla ricerca su fonti aperte e chi lo fa da anni senza aver mai davvero riflettuto su cosa stia facendo: aprire Google e digitare qualcosa. Il gesto è identico. La differenza sta in ciò che precede quel momento.

La ricerca non è mai un’attività a sé stante. Ogni query è figlia di un’esigenza informativa (Intelligence Requirement), che nasce da una domanda decisionale concreta. Chi non parte da questa consapevolezza ottiene solo dati. Chi parte da questa consapevolezza costruisce intelligence.

La struttura che precede la ricerca

Prendioamo un caso operativo che può aiutarci a rendere il ragionamento tangibile. Un’azienda manifatturiera italiana sta valutando l’ingresso nel mercato nordafricano. Il management vuole capire se esistono rischi reputazionali legati ai potenziali partner commerciali in Tunisia. La domanda sembra semplice. La risposta richiede un’attenta comprensione dell’esigenza informativa. Il primo passaggio è formulare la nostra Priority Intelligence Requirements (PIR), nella sostanza la nostra domanda di intelligence centrale. Ad esempio: i potenziali partner hanno legami con entità sanzionate o coinvolte in procedimenti per corruzione? È una domanda precisa, orientata a una decisione specifica, verificabile tramite fonti aperte.

Ma la PIR da sola non genera ricerca. Va scomposta in requisiti informativi specifici (SIR, Specific Intelligence Requirements), ciascuno dei quali identifica un’area di indagine distinta:

Chi sono i titolari effettivi delle aziende partner?
Esistono procedimenti giudiziari a loro carico?
Compaiono in liste di sanzioni internazionali?
Qual è la loro esposizione mediatica?

Ogni SIR è autonomo, verificabile separatamente, e contribuisce a rispondere alla PIR. Attenzione al fatto che questa scomposizione non è affatto “burocrazia” metodologica: rappresenta al contrario la vera differenza tra una ricerca che produce evidenze utilizzabili e una navigazione che produce solo rumore e confusione

Dal requisito alla query

Solo a questo punto si costruisce la strategia di ricerca. Per ciascun SIR si identificano le fonti da consultare, gli operatori da applicare, i limiti attesi.

Chi sono i titolari effettivi? OpenCorporates, registri societari tunisini, database ICIJ. Procedimenti giudiziari? Motori di ricerca con operatori booleani su testate giornalistiche regionali, database di tribunali commerciali. Sanzioni internazionali? Liste OFAC, EU Consolidated List, UN Sanctions List, verificabili con ricerche dirette o tramite strumenti aggregatori. Esposizione mediatica? Ricerca per nome e varianti su Google con finestre temporali definite, “nome cognome” site:reuters.com OR site:bbc.com OR site:ft.com.

Ogni SIR genera un insieme di query. Ogni query ha un perimetro, una fonte attesa, un limite riconosciuto.

Attenzione: i limiti non sono un fallimento della metodologia: sono parte della metodologia. Un analista che non documenta cosa non ha trovato, e perché, produce un prodotto di intelligence incompleto indipendentemente dalla qualità di ciò che ha trovato.

Il piano di ricerca come prerequisito fondamentale

La conseguenza pratica di questo approccio è diretta: Google si deve aprire con un piano di ricerca chiaro, non per vedere cosa esce. Questa distinzione è tutt’altro che banale. Chi cerca senza un requisito informativo preciso seleziona inconsapevolmente i risultati in base a ciò che si aspetta di trovare, amplificando i propri bias cognitivi nel momento stesso in cui raccoglie i dati. Infatti, il confirmation bias non nasce nell’analisi: nasce ancor prima nella formulazione delle nostre query.

Il ciclo dell’intelligence (pianificazione, raccolta, elaborazione, analisi, diffusione) esiste proprio perché la raccolta senza pianificazione è sistematicamente distorta. Gli operatori di ricerca avanzata sono strumenti potenti. La loro potenza però dipende interamente dalla qualità delle domande che precedono il loro utilizzo.