Pillole di OSINT n.33

Nel numero 30 abbiamo affrontato la sfida che i modelli linguistici pongono ai fondamentali della verifica OSINT. In questa edizione riprendiamo quel ragionamento attraverso due piani distinti ma convergenti.

Il primo riguarda un equivoco tecnologico preciso: confondere la generazione di testo con la ricerca di informazioni. Non parliamo di una mera sfumatura tecnica ma della differenza tra governare un processo informativo e subirlo; il file robots.txt di qualsiasi grande testata lo rende visibile in modo immediato.

Il secondo apre un filone che accompagnerà i prossimi quattro numeri: l’applicazione del metodo OSINT alle investigazioni private. Un contesto in cui la confusione tra raccolta e sintesi, tra dato grezzo e intelligence, ha conseguenze dirette sulla tenuta del prodotto investigativo: in sede professionale e, nei casi più delicati, in sede giudiziaria. Il punto di partenza è il framework concettuale che governa ogni attività OSINT strutturata: il ciclo dell’intelligence, la Key Intelligence Question, la scomposizione in requisiti specifici.

Gli LLM non sono motori di ricerca. E i robots.txt lo dimostrano.

Ogni sito web può contenere un file chiamato robots.txt: una sorta di cartello all’ingresso, rivolto ai crawler automatici, che specifica cosa possono visitare e raccogliere. Per i non tecnici, un crawler è un programma che naviga il web in modo automatico, pagina dopo pagina, recuperando contenuti per conto di motori di ricerca o sistemi AI. È così che, ad esempio, Google sa cosa c’è su un sito ed è così che i modelli linguistici hanno costruito, tra le altre fonti, parte dei loro dati di addestramento. Il robots.txt non è un blocco tecnico sofisticato: è una convenzione. Un crawler che scegliesse di ignorarlo potrebbe farlo e alcuni lo fanno… Non è un obbligo legale, è un accordo implicito su cui si regge parte dell’architettura di accesso al web aperto.

Aprire https://www.ansa.it/robots.txt o quello di qualsiasi grande testata (e social) restituisce un quadro immediato. Claudebot, ChatGPT-User, PerplexityBot, GPTBot e altri sono tutti bloccati con Disallow: /.

Contenuto dell’articolo

Attenzione però, vale la pena distinguerli, perché non sono la stessa cosa: GPTBot è il crawler che OpenAI usa per raccogliere dati di addestramento, ChatGPT-User è invece il client attivato quando ChatGPT naviga il web in tempo reale durante una conversazione. Due livelli separati (training e inferenza) entrambi bloccati. Molti siti editoriali ed istituzionali tengono chiuse le porte ai bot AI su entrambi i fronti.

Una tendenza destinata a trasformarsi in mercato

Questa chiusura è reale, ma probabilmente transitoria. Il meccanismo degli accordi commerciali è già in corso e le cifre in gioco sono tutt’altro che simboliche. News Corp ha firmato un accordo quinquennale con OpenAI del valore superiore a 250 milioni di dollari; Reddit ha ceduto a Google l’accesso strutturato ai propri contenuti per circa 60 milioni di dollari l’anno; l’Associated Press ha siglato un accordo con Google per fornire informazioni in tempo reale al chatbot Gemini; il Financial Times, Axel Springer, Condé Nast e decine di altri editori hanno accordi attivi con OpenAI, Google o Microsoft. Secondo le stime disponibili, i grandi player AI hanno impegnato complessivamente quasi 3 miliardi di dollari in accordi di licenza con gli editori. Il blocco nel robots.txt non è quindi una barriera permanente e sta diventando una vera e propria leva negoziale. Chi non ha ancora un accordo lo sta trattando o lo tratterà.

Detto questo, la questione commerciale è marginale rispetto al problema che interessa direttamente chi lavora con le informazioni. Il punto non è chi paga chi per accedere ai contenuti. Il punto è capire cosa succede realmente quando si usa uno strumento come Perplexity convinti di “fare ricerca”.

Gli LLM non navigano

Un modello linguistico lavora su dati di addestramento con una data di cutoff: produce testo statisticamente coerente con quanto ha visto in passato, non con ciò che accade ora. Quando sistemi come appunto Perplexity integrano capacità di ricerca, lo fanno tramite Retrieval-Augmented Generation (RAG): un sistema ibrido che interroga un indice web proprio e API di terze parti, recupera frammenti di pagine rilevanti e li passa al modello come contesto aggiuntivo. È il modello, a quel punto, a sintetizzare una risposta. Non è un’interrogazione diretta delle fonti: è un riassunto generato a partire da una selezione parziale di risultati, con tutti i limiti che ne derivano in termini di completezza, aggiornamento e, soprattutto, tracciabilità.

Questa distinzione emerge concretamente ogni volta che presento la funzione base di ricerca di Desk OSINT News a persone non del settore, incluse persone che ricoprono ruoli di responsabilità. La frase che torna è quasi sempre la stessa: “ma anche Perplexity fa la ricerca”. Una frase di questo tipo misura esattamente la distanza tra chi governa il processo informativo e chi lo subisce.

Gli AI Agent non cambiano la sostanza

Un argomento ricorrente a difesa degli strumenti AI è l’avvento degli agenti autonomi: sistemi capaci di compiere azioni multi-step, navigare attivamente, compilare form, aggregare risultati da più fonti. L’impressione è che questo livello di automazione risolva i limiti descritti finora. Non è così. Un agente che agisce per conto nostro aggiunge uno strato di automazione, ma non elimina la natura probabilistica della sintesi finale né garantisce l’accesso a fonti che hanno sbarrato la porta ai bot. Nell’intelligence, delegare l’intera catena di ricerca a un agente significa accettare una scatola nera decisionale tra noi e la fonte. L’automazione dell’azione non equivale alla garanzia della qualità informativa.

Raccolta e sintesi: due fasi che non si possono invertire

Un motore di ricerca visita le pagine, rispetta o meno il robots.txt, e restituisce risultati con una fonte verificabile. Un LLM produce testo probabile, non risultati verificati. Confondere questi due processi è un problema metodologico che incide direttamente sulla qualità dell’intelligence prodotta e sulla capacità di valutare l’affidabilità di ciò che si riceve. Non è una questione di preferenze tecnologiche: è una questione di rigore nel processo metodologico.

E’ chiaro che lo scopo di queste riflessioni non è demonizzare gli LLM, anzi tutt’altro. Infatti, sono fermamente convinto che un modello operativo efficace non debba opporre l’uno all’altro. Deve al contrario usare i motori di ricerca per identificare e selezionare le fonti rilevanti e l’AI per analizzare grandi volumi di informazioni già raccolte e verificate. La raccolta deve quindi restare un atto metodologico controllato dall’analista.

La granularità, la freschezza della fonte, la tracciabilità del dato sono le variabili su cui si misura un processo OSINT serio. Nessun modello linguistico, per quanto sofisticato, è progettato per ottimizzarle.

#OSINT #Intelligence #CriticalThinking #LLM #InformationSecurity #DigitalForensics #Proteggimi

Investigazioni private e OSINT: dall’informazione all’intelligence (1 di 4)

Questo è il primo di quattro approfondimenti sul tema delle investigazioni private condotte con metodo OSINT, un filone che abbiamo aperto con il webinar realizzato in collaborazione con l’Università di Foggia lo scorso 18 marzo. Quello che segue è il framework concettuale da cui tutto parte: prima ancora di costruire una query, occorre comprenderne il valore e l’utilità.

Chi apre Google senza un piano non sta conducendo un’indagine. Sta curiosando. Certo la curiosità ha il suo valore, ma non è ciò che produce intelligence. L’intelligence nasce da un requisito, si sviluppa attraverso un metodo e termina con un prodotto valutabile.

Il ciclo dell’intelligence come cornice operativa

L’intelligence non è sinonimo di informazione, intesa in questa sede come un nome in un registro, un articolo su una testata, una sentenza pubblicata online, ecc…; l’intelligence è quell’informazione dopo che è stata raccolta con metodo, elaborata criticamente, analizzata nel contesto del requisito informativo e diffusa nella forma utile a chi deve decidere.

Il ciclo come già ricordato in svariati contributi, si articola in cinque fasi: pianificazione (identificazione dei requisiti e definizione del piano di raccolta), raccolta (acquisizione di dati grezzi secondo il piano), elaborazione (pulizia, strutturazione, deduplicazione), analisi (interpretazione critica per produrre valutazioni e inferenze) e diffusione (comunicazione delle risultanze nella forma adeguata al committente). Il modello è iterativo, non lineare: un’analisi che rivela un gap informativo riapre la raccolta; una fonte che si rivela inaffidabile impone un ritorno alla pianificazione.

Nella pratica delle investigazioni private, la fase più frequentemente trascurata è la prima. L’impulso operativo è infatti quello di cominciare a cercare immediatamente, ma ogni ora spesa a strutturare correttamente il requisito informativo prima di aprire qualsiasi motore di ricerca riduce di molte ore il tempo di raccolta e, soprattutto, riduce il rischio di raccogliere dati irrilevanti o fuori perimetro rispetto al mandato.

Dal mandato alla query: KIQ e SIR

In un’investigazione privata, tutto nasce dal mandato. Il mandato non è solo il documento legale che autorizza l’attività: è la fonte primaria del requisito informativo. Ogni domanda che l’investigatore si pone durante la raccolta deve poter essere ricondotta, direttamente o indirettamente, a una necessità espressa dal mandato.

Il processo di traduzione si articola su tre livelli. Il primo è la Key Intelligence Question (KIQ): la domanda principale che il committente si pone e che ha originato l’incarico. Non un obiettivo vago come «scoprire tutto sul soggetto», ma una domanda operativa con confini definiti. Ad esempio: «Il soggetto svolge attività lavorativa retribuita durante il periodo di malattia certificata per cui percepisce indennità?». La precisione nella formulazione ha conseguenze dirette sulla qualità del report finale: una KIQ ben formulata permette di verificare, a conclusione dell’indagine, se la domanda ha ricevuto una risposta e con quale grado di confidenza.

Il secondo livello è la scomposizione in Specific Intelligence Requirements (SIR): domande più circoscritte, ciascuna delle quali affronta un aspetto specifico del problema investigativo. Domande troppo ampie non sono ricercabili. Non esiste una fonte che risponda a «chi è questo soggetto?» nella sua interezza. Esistono fonti che dicono dove è registrato come amministratore, altre che documentano eventuali procedimenti a suo carico, altre ancora che ne tracciano la presenza pubblica. Ogni SIR punta a una categoria specifica di fonti.

Il terzo livello è la strategia di ricerca: per ciascun SIR, l’analista identifica le fonti da consultare, la logica degli operatori da utilizzare e i limiti attesi. Solo a questo livello si inizia a pensare in termini di query. Invertire questo ordine (trovare prima i dati e poi cercare di capire a cosa servono) rischia di produrre report che rispondono a domande che nessuno ha posto e di far venir meno le risposte alle domande che contano.

Tassonomia delle fonti e punti ciechi del dorking

Gli operatori di ricerca avanzata, che pur hanno un valore eccezionale in ogni attività OSINT, interrogano esclusivamente le fonti indicizzate dai motori di ricerca. L’analista che non comprende questo limite può rimanere convinto di esplorare il tutto mentre in realtà sta osservando solo una parte.

Le fonti si articolano in tre categorie: OSINT web (Google dorking) coprono tutto ciò che è indicizzato: siti istituzionali, portali di registri pubblici, archivi giornalistici, documenti PDF pubblicati da enti. Le fonti OSINT specializzate come OpenCorporates, OCCRP Aleph, ICIJ Offshore Leaks, OFAC, EU Consolidated Lis, non sono sempre indicizzate in modo completo dai motori generalisti e richiedono accesso diretto ai portali specifici. Fonti non-OSINT (banche dati commerciali a pagamento, fonti HUMINT, richieste formali ad autorità giudiziarie) esulano dal perimetro dell’OSINT ma devono essere documentate come fonti complementari quando il requisito informativo non può essere soddisfatto con mezzi open source.

Mappare i punti ciechi è una necessità operativa. Un report investigativo che non dichiara cosa non ha potuto verificare non è completo e in sede giudiziaria o in una negoziazione commerciale delicata, questo è un difetto che si paga. Il dorking non vede i fascicoli riservati, i beneficiari ultimi in giurisdizioni opache, gli archivi in lingua araba o francese non indicizzati, i profili social privati. La dichiarazione esplicita di questi limiti, con la proposta delle fonti non-OSINT che potrebbero colmarli, è parte integrante della qualità del prodotto.

Vale anche ricordare il confine assoluto: il dorking avanzato non consente mai di accedere a dati protetti da autenticazione, fascicoli riservati o sistemi informatici non pubblici. La linea tra OSINT avanzato e accesso non autorizzato è netta: è il perimetro dell’autenticazione richiesta.

Il tema delle investigazioni private nell’era OSINT è approfondito sul blog di Proteggimi Srl. Per il quadro normativo di riferimento, compreso il ruolo del D.Lgs. 231 nei processi di due diligence: proteggimi.com/blog/osint-decreto-231-investigazioni-private

Il prossimo approfondimento riguarderà il Collection Plan: come tradurre i SIR in un documento operativo con query strutturate, fonti prioritizzate e stati di avanzamento.