WordLift 3.0: Una breve storia semantica – parte 2

Le classificazioni ci aiutano a trovare le cose cercate.

Il web ormai ha una quantità di contenuti tale da rendere impossibile l’applicazione di schemi omogenei di classificazione per organizzare la conoscenza e renderla disponibile; a meno che non si rimanga all’interno di uno specifico dominio (al giorno vengono pubblicati oltre 2.5 M di nuovi articoli).

Gli schemi di classificazione sono strutture che usano entità e relazioni come informazioni aggiunte al contenuto e sono assimilabili a 4 tipi: gerarchica, ad albero, a faccette, per modelli di riferimento (o paradigmi).

L’immagazzinamento strutturato delle informazioni ha il fine ultimo di migliorare la conoscenza umana.

Noi con WordLift 3.0 ci siamo posti l’obiettivo di sviluppare un’applicazione che strutturasse i contenuti per rappresentare contemporaneamente più metodi di classificazione alle macchine: perché queste riescano ad organizzare i contenuti che vengono pubblicati nelle reti digitali in modo da renderle fruibili da molteplici punti di vista.

Considerato l’impasse in cui versavano le tecnologie semantiche introdotto nella parte 1 , abbiamo in una prima fase di analisi escluso il mondo digitale come destinatario obbligatorio della nostra soluzione.

La prima attività ci ha visti quindi volgere lo sguardo verso i sistemi di classificazione che l’umanità ha usato per organizzare le conoscenze prima dell’avvento del computer; per poi arrivare a considerare l’evoluzione delle interfacce a faccette; le tecnologie che relazionano tra loro diversi ambienti web; e quale è il consolidato sul web in merito agli argomenti considerati (interlinking con dbpedia, freebase, geonames, e metodologie richieste dai motori di ricerca per classificare e pubblicare i contenuti).

Le risposte non sono risultate semplici da individuare; soprattutto perchè la componente essenziale tecnologica è in continua e perenne evoluzione. Nel libro Organizzare la conoscenza. Dalle biblioteche all’architettura dell’informazione per il Web … anche questo già citato nel precedente post, ad un certo punto nel cap 2 vengono introdotte le categorie fondamentali, cioè quelle che accomunano più faccette e sono valide per tutte le discipline. Sono introdotte dal matematico indiano Shiyali Ramamrita Ranganathan che per primo intorno al 1930 parlò di questa analisi consistente nello scomporre un argomento nelle sue componenti per poi ricomporlo secondo un codice. Lui scelse 5 categorie fondamentali: lo spazio e il tempo su cui tutti concordano; l’energia che riguarda attività o dinamismo e che nella semantica indica l‘azione’; materia ad esempio di un materiale o sua proprietà; personas per indicare l’oggetto principale di quel contesto anche se non è una persona umana.

Queste categorie sono considerate astratte, ma noi le abbiamo comunque usate nel processo di design delle interfacce da sottoporre all’utenza, ritrovandole integrate nel vocabolario schema.org.

Il software WordLift è direttamente collegato al vocabolario di concetti pubblicato in http://schema.org/docs/full.html che è universalmente riconosciuto, composto ad oggi di circa oltre 1.200 voci raccolte in 9 categorie fondamentali: Action, CreativeWork, Event, Intangible, Medical Entity, Organization, Person, Place, Product.

In questo novembre 2015 ci sono oltre 217 milioni di pagine (url) che contengono al loro interno un totale di oltre 6 miliardi di triple scritte attraverso il vocabolario schema.org.

WordLift 3.0 è un’editor semantico che analizza il contenuto e suggerisce in automatico la metadatazione secondo le categorie del vocabolario schema.org che noi abbiamo, in un certo senso semplificato per l’utenza, raggruppandole in questa prima fase sperimentale in 4 categorie fondamentali: Who (Person, Organization), Where (Place), When (Event), What (CreativeWork, Product, Intangible). L’utente ha comunque la possibilità di aggiungere ‘n entità a quelle suggerite dall’applicazione che andranno a costruire un personale vocabolario interno all’applicazione.

La release successiva, che terminerà la fase sperimentale in gennaio 2016, include la possibilità di variare l’importanza tra le entità per dare corpo alla classificazione gerarchica e ad albero (questo attraverso l’utilizzo della mainEntity prevista da schema.org per marcare gli articoli).

Per il futuro stiamo valutando l’affiancamento della classificazione gerarchica Dewey (Dewey Decimal Classification), diffusa in tutte le biblioteche del mondo.

Questo è l’iter generale che ci ha portato a disegnare una soluzione dove tecnologie semantiche collaborano con le tecnologie di relazione per associare in automatico un set di metadati, o un grafo semantico, ad uno determinato contenuto.

L’individuazione degli sviluppi tecnologici e di servizio per l’utenza non è stato semplice, ma in compenso la maturazione e l’affermazione della cloud Linked Open Data, nonché di dbpedia (freebase, geonames), è stata fondamentale perché l’editor WordLift 3.0 possa produrre dataset riusabili.

 

Ahmed ElMeligy

Read more posts by this author.