Il primo WordLift Hackathon del 2016!

Questo post racconta il making of di una startup e il “dietro le quinte” dello sviluppo di un prodotto innovativo. 

Sviluppare insieme attorno ad uno stesso tavolo un prodotto come WordLift in questa fase (a qualche mese dal rilascio ufficiale) è un po’ come ritrovarsi in un piccolo café di fine ottocento a Parigi. L’atmosfera, in apparenza rilassata, è figlia di un tempo segnato ormai irreversibilmente dal rapido processo di sviluppo industriale avviatosi…a Parigi nel XVIII secolo e, lo scorso Agosto tra le montagne dell’Abruzzo nel caso di WordLift. Senza spingermi ulteriormente sul parallelismo vediamo velocemente da dove siamo partiti e cosa abbiamo realizzato.

CaHkP6mWIAAiCDO Le sfide principali in questa fase del lavoro coinvolgono quattro ambiti:

  1. Lo sviluppo del software – l’obiettivo è semplice: abbiamo un insieme ben definito di funzionalità da traguardare per la versione che sarà messa sul mercato e dobbiamo risolvere tutti i malfunzionamenti che stanno emergendo dalla fase di test.
  2. La validazione con gli utenti – in questo ambito si tratta di lavorare in un costante one-to-one con i nostri dedicatissimi beta-tester con il duplice obiettivo di valorizzare il loro utilizzo di WordLift e di acquisire tutte quelle informazioni che ci possono aiutare a prioritizzare le attività di sviluppo.
  3. La definizione della strategia di go-to-market – i prodotti innovativi hanno una complessità intrinseca che è legata alla difficoltà di comunicare ai potenziali clienti qual è il bisogno a cui il prodotto risponde. Lavorare sul go-to-market significa definire una strategia per il lancio che sia efficace per un vasto numero di tipologie di utenti.
  4. La definizione dei processi di lavoro – qui si tratta di capire se ed in che modo le attuali modalità di svolgimento del lavoro sono efficaci e se ci sono dei margini di miglioramento. All’inizio, su tanti fronti si procede per tentativi, misurazioni ed iterazioni successive (lean insegna…almeno parte) ma via via il tutto dovrà essere razionalizzato per consentire al team di gestire un numero crescente di utenti.

Ora vediamo cosa abbiamo raggiunto su questi quattro fronti:

Sviluppo

Nel corso dell’hackathon abbiamo lavorato su una serie di bug che ci consentiranno questa settimana di pubblicare la versione 3.4 di WordLift (hurrah!). La nuova versione introduce il nuovo faceted search widget. Questo widget consente di filtrare tutti i contenuti associati ad una determinata entità attraverso la rete delle entità collegate ai diversi articoli: vediamolo in azione in questo articolo.

Le entità sono ora organizzate secondo il criterio delle 4W ed è chiaro – a partire da questo esempio – che le entità dovranno essere ridotte in numero ed ordinate per importanza per evitare che il widget risulti troppo invasivo.

dashboard-wordliftSempre sul fronte dello sviluppo è in arrivo la prima dashboard di WordLift che ci aiuta a scoprire immediatamente le dimensioni del grafo di conoscenza del nostro sito.

In particolare le informazioni che troverete nella bacheca di WordPress sono le seguenti:

  • Numero degli articoli annotati con WordLift,
  • Rating medio delle entità (ovvero la qualità delle entità che abbiamo all’interno del nostro vocabolario)
  • Numero di triple (ovvero tutte le asserzioni – o fatti – formate da soggetto, predicato e valore) che caratterizzano il grafo di conoscenza che stiamo creando con WordLift.

 

Validazione

Nella validazione con gli utenti abbiamo avuto il piacere di lavorare con alcuni di loro e, almeno secondo quanto condiviso in questi giorni, ci siamo resi conto che dobbiamo migliorare le funzionalità di visualizzazione e selezione dati del navigator widget. Si tratta di un componente centrale per consentire ai blogger di introdurre in pagina collegamenti con altri articoli che siano al tempo stesso rilevanti e contestualizzati. Il lavoro è su questo fronte già iniziato.

Go-to-market

Dobbiamo lavorare attentamente nei mesi che verranno per:

  • fare del nostro meglio per fornire agli utenti ciò che è per loro più importante rispetto all’organizzazione dei contenuti che pubblicano sui propri siti
  • comunicare WordLift nel modo più efficace possibile in modo che tutti sappiamo cosa effettivamente stanno cercando dal nostro prodotto

Esiste in questo senso una dialettica molto stringente che lega la roadmap (ovvero quali feature supportare e in che modo) con la comunicazione e il marketing.

Nel caso di WordLift, come per qualunque altro prodotto innovativo, non abbiamo un mercato definito dove è sufficiente adattare il prodotto per raggiungere il migliore compromesso per l’utente: dobbiamo adattare ed incidere sull’intero mercato di riferimento.

Il fatto che i contenuti che produciamo si possano perdere nel mare magnum della comunicazione globale è chiaro a tutti. L’idea che organizzando la nostra conoscenza possiamo risolvere il problema alla radice non è invece affatto scontato.

Siamo abituati a piattaforme e servizi estremamente complessi offerti dai colossi del Web in forma gratuita e l’idea che queste stesse tecnologie possano entrare nel nostro blog è difficile da trasmettere. E’ inoltre evidente che l’unico modo efficace per misurare il successo di WordLift è legato alla capacità di modificare realmente il comportamento di chi lo usa.

Quando abbiamo scoperto, lavorando con Greenpeace Italia, che utilizzando WordLift la redazione ha iniziato ad acquisire una nuova forma di auto-consapevolezza rispetto ai propri contenuti abbiamo capito che ci muoviamo nella giusta direzione (qui un articolo uscito sul magazine della Commissione Europea CORDIS che parla di questi primi risultati).

Processi

20160210_165202

Un primo passo su questo fronte l’abbiamo fatto durante l’hackathon rendendo più accessibili i dati del backend di WordLift al team di sviluppo e supporto. In questo modo possiamo analizzare eventuali problemi relativi all’analisi del testo (la parte indubbiamente più complessa del prodotto) risparmiando tempo e energia.

Il primo hackathon del 2016 si è tenuto a Roma nel “grottino” di InsideOut10.

WordLift è il software utilizzato su questo blog per organizzare e promuovere i contenuti.

 

 

Un importante passo per l’infrastruttura dei dati open Italiani

Si parla molto del valore degli open data nel contesto economico nazionale ed Europeo.

Gli studi Europei più recenti parlano nell’arco di tempo 2016-2020 di un economia diretta pari a 325 miliardi di euro.

Organizzare i dati pubblicati con licenze open significa accelerare i processi di riuso e sviluppare l’infrastruttura necessaria perché si possano raggiungere gli obbiettivi attesi in termini di impatto economico e sociale.

Nel quinquennio 2016-2020 con gli open data ci si aspetta di creare 25.000 nuovi posti di lavoro.

I metadati che descrivono i dati sono alla base dell’infrastruttura nazionale degli open data.

Oggi, un gruppo di lavoro in AgID con il quale collaboriamo ha pubblicato il profilo che descrive con quali metadati devono essere pubblicati i dataset in Italia. Il lavoro è risultato di un’iniziativa Europea che si basa su un vocabolario standard promosso dal W3C: il DCAT ed ora utilizzato dai Paesi dell’Unione. I metadati ci consentono ad esempio di descrivere la frequenza di aggiornamento dei dati, il tema trattato e molte altre informazioni utili, che sono descritte attraverso una sintassi standardizzata ed interoperabile.

Avere uno standard internazionalmente riconosciuto a livello nazionale per pubblicare dati è un “giant leap” nell’economia digitale di questo Paese. Complimenti.

Il profilo standard è pubblico e si può partecipare alla fase di consultazione direttamente dal sito dati.gov.it all’indirizzo: http://www.dati.gov.it/consultazione/dcat-ap_it – trovate inoltre in formato visivo l’ontologia del DCAT-AP_IT.

Alla prossima puntata!

 

WordLift, un editor alla moda e su misura

Anteprima

I post di questa sezione sono prodotti per effettuare test e promozione di WordLift: editor semantico distribuito come Plugin sulla piattaforma di CMS WordPress (e attualmente in fase di closed beta con accesso ad invito).

Utilizzando l’editor per pubblicare i contenuti si ha il beneficio di costruire in automatico dataset open strutturati per essere compatibili con la Linked Open Data cloud. Le informazioni contenute nei post possono riguardare tematiche generiche, o trasversali se riferite a più argomenti, o specifiche se esplorano una tematica in particolare. L’editor semantico da la possibilità al giornalista digitale di esprimere la sua professionalità senza richiedere le competenze tecniche necessarie per assimilare al content classificazioni sotto forma di grafo semantico, e/o faccette necessarie anche per l’indicizzazione sui motori di ricerca.

Prima

TUTTO QUELLO CHE ESISTE DI REALE LO CREA IL FUTURO E NON IL PASSATO

Siamo in confusione piena se pensiamo che esista (o meno) un principio naturale di causa/effetto e giustifichiamo quello che succede reinterpretando continuamente la vita a posteriori; pensiamo che quello che è la realtà di oggi sia causa di quello successo prima. Ci troviamo nella necessità di rovesciare tutto; cambiare paradigma e non cercare più il significato al presente che viviamo e che indirizza anche le dinamiche sociali, rivolgendoci al passato.

‘Prima il futuro, quindi il presente, infine il passato’ (Pietro Citati); o ‘prima viene giudicato colpevole e poi viene commesso il delitto’ (…nel mondo di Alice: Lewis Carroll); o come in “Minority Report“: ‘la dichiaro in arresto per il futuro omicidio di ..

Se pensiamo che gli avvenimenti di questo fine 2015 siano successi per assolvere un futuro e non a causa di un passato, avremmo la reale paura di essere su una strada che porta ad una guerra mondiale.

Mi sono trovato diverse volte a pensare col paradigma che il presente soddisfi un determinato futuro, guardando l’abbigliamento di moda e osservando il mondo caratterizzato dalla parola “fashion”: morfologicamente fashion. Quando parliamo di moda anche se di solito è riferita agli abiti, parliamo di qualsiasi cosa scegliamo per rappresentarci: cose e comportamenti sociali.

La moda si basa sulla capacità di anticipare il futuro? Lo coinvolge immaginando la strada per raggiungerlo? La moda è il risultato di quello successo negli anni precedenti? La moda è il risultato di cosa ci piacerà e come ci vestiremo nel futuro?

E il vestito è solamente un filtro? è una tela dove esprimiamo i simboli su cui basiamo i nostri racconti, le nostre relazioni? Lo indossiamo perché spiega in parte il nostro essere, profondo o culturale, o perché ricorda una emozione, una presa di posizione in una piazza, in una casa, ad una festa? o per indifferenza?

Comunque sia, un vestito veste le nostre misure: spalla, collo, cavallo. Il mondo fashion di oggi si divide sempre più in fastfashion e slowfashion. Il fast è caratterizzato dalla velocità di produzione di piccole collezioni, al ritmo di 2 al mese quasi, e dal modo col quale vengono individuate. Si dice che cacciatori di tendenze (cool hunter) vaghino in giro cercando e osservando per trovare i modelli da passare in produzione. Esprit, H&M e Zara sono tra i più famosi di questi giovani brand fastfashion.

Lo slowfashion è un termine usato per indicare un fashion sostenibile. Viene coniato nel 2007 da Kate Flatcher, e in Italia è un marchio collettivo che si distingue per la manifattura completamente italiana. In questo settore l’abbigliamento su misura delle sartorie artigianali è un lessico vero e proprio, che ha una struttura ed è il risultato di una memoria. Fare abbigliamento su misura è un’arte che non si basa sul girovita, ma mette insieme fantasia e professionalità, esperienza, ricordi e qualità.

Entrando in un Atelier di un artigiano dell’abbigliamento slow fashion, come lo è la piccola e serena Sartoria Scavelli del nostro amico Francesco, si prova il piacere dell’indossare che inizia quando si sceglie un tessuto di Ermenegildo Zegna, di cashmere, di seta, una scarpa, un papillon. Si fa moda al presente senza aderire a discorsi sul prima e dopo. Ci si veste semplicemente rispettando le nostre misure con morbide fibre pregiate e accessori di qualità.

Look of the day!

La diffusione della moda secondo Georg Simmel e Thorstein Veblen, avviene secondo una “teoria del gocciolamento”, per indicare brutalmente le classi inferiori che imitano le classi elevate che a loro volta sono costrette ad una nuova moda per differenziarsi; ma era tantissimi anni fa, anche se ripetuto metaforicamente nel famoso film “Il diavolo veste Prada”. Solo con la società industriale, secondo Blumen: con l’abito si comunica l’identità sociale e ci si scambia informazioni tra gruppi.

La Sartoria Scavelli in Roma, fa parte del mondo delle piccole sartorie che servono moda senza seguirla e senza rimanerne succubi.

Il piacere quando si entra in una sartoria artigianale è quello di un incontro stimolante con chi ci lavora, dell’esperienza tattile quando si sceglie tra il cashmere, il cotone, la seta.

La Sartoria Scavelli ha iniziato ad usare WordLift per creare un dataset su misura.

 

WordLift 3.1 e it from bit – A

“Le parole e i pensieri seguono regole formali, o no?”

Se lo chiede Douglas Hofstadter nel suo saggio “Gödel, Escher, Bach: un’eterna ghirlanda brillante, pubblicato nel 1979.

A prima vista sarà una lettura interessante e piacevole, abbiamo solo iniziato a leggerlo, è un tomo di 800 pagine. Avventurandoci tenendo in considerazione quello pubblicato su internet, Lui disquisisce sulla probabile esistenza di modelli che indirizzano i nostri pensieri, e la lettura dell’ambiente.

Nuove scienze come l’ epigenetica e la neurobiologia stanno già dimostrando non solo la verità e l’esistenza di questi modelli (comparabili con le interfacce in informatica), o schemi formali, ma anche quella di circuiti neuronali “primitivi” che agiscono come matrici e replicano le emozioni se stimolati da eventi posti al di fuori della nostra esperienza/conoscenza; eventi fuori dagli schemi/modelli, eventi fantastici.

In altre parole: un determinato stato d’animo o emozione generato direttamente da una esperienza ‘reale’ accende parti del cervello identiche a quelle conseguenti all’immaginazione data dalla lettura di un testo che descrive la medesima esperienza.

L’epigenetica = genetica mediata dall’ambiente – invece e in breve afferma: “se il genoma è l’insieme delle istruzioni che consentono la costruzione e il funzionamento di un organismo vivente, l’epigenoma è l’insieme dei processi che consentono a queste istruzioni di essere lette nei tessuti giusti e nel momento opportuno, anche in risposta a stimoli che provengono dall’ambiente”.

A noi sembra chiara la similitudine dei processi di cui parla l’epigenetica con le regole formali di cui parla Hofstadter. E a voi?

Spingendoci oltre, ma proprio oltre, e stimolati dalla logica Godeliana, potremmo attivare le seguenti 2 comparazioni tra la genetica e l’epigenetica e le tecnologie di classificazione delle conoscenze e le strutture della cloud LOD :

  1. le tecnologie di classificazione stanno alle informazioni per costruire e far funzionare un dataset – come i geni che compongono il DNA stanno alle istruzioni per costruire e far funzionare un organismo vivente;
  2. le tecnologie di relazione permettono la lettura delle istruzioni per costruire un dataset assimilando il posto e il momento giusto dalle strutture Linked Open Data – così come l’insieme dei processi permettono la lettura delle istruzioni nel posto e momento opportuno in risposta agli stimoli ambientali.

Il nostro punto di vista è influenzato dal settore in cui lavoriamo, l’ICT, ed è volto all’organizzazione della conoscenza e alla comunicazione della stessa nelle reti digitali; i modelli di lettura derivati dall’ambiente sono metadati; il contenuto è la matrice di partenza – DNA in biologia.

Si parla sempre di innovazione, ma non c’è un metodo univoco per affermare che una soluzione sia effettivamente innovativa se non apporta un reale cambio di paradigma o una nuova tecnologia in grado di creare nuove matrici e modelli al settore della produzione industriale.

Di solito tutte le pratiche e i prodotti che migliorano e ottimizzano l’esistente non sono reale innovazione, se non di processo.

Progettando e sviluppando l’editor semantico WordLift 3.0: (che legge il testo, ne estrae i significanti secondo gli schemi esposti nella LOD, li suggerisce come nodi del grafo o metadati da allegare al contenuto, e li pubblica come singolo elemento di un sistema più complesso fatto di dataset open riusabili) ci siamo continuamente scontrati, in tutte le fasi, con la necessità di elaborare una soluzione che consenta contestualmente la lettura alle macchine di ogni singolo elemento da classificare e nello stesso tempo funzioni, potremmo dire, su schematismi di lettura e fruizione dell’utenza desunti/estratti dal patrimonio di altre scienze.

Siamo dell’idea che quando si trova una qualsiasi corrispondenza o similitudine tra ‘modelli’ e dinamiche in differenti settori di conoscenza: vada approfondita.

Quelle descritte in questo post sono ancora a livello speculativo, potenzialmente interessanti, da approfondire; potremmo trovare spunti solidi da considerare. Sono come suggerimenti da assimilare quando si cerca una soluzione che non sia vittima dell’evoluzione tecnologica.

Chi agisce come essere umano spinto da uno spirito evolutivo è propenso a considerare come principali e necessarie le attività volte prima a conoscere e poi a comunicare: semplicemente le dividiamo. Si, è vero, tante volte magari spinti dalla socialità comunichiamo senza conoscere, sulla fiducia, così come tanti di noi hanno la giusta voglia e la curiosità adatta per migliorare la loro conoscenza, ma non per comunicarla: per mancanza di volontà o di competenze cognitive e sociali.

Nell’ambito ‘digitale’: una volta acquisita la conoscenza dovremmo renderne obbligatoria l’organizzazione per disporla a molteplici modelli di lettura. Per farlo dobbiamo necessariamente acquisire skills tecnici che ci aiutano ad integrarla in più schemi di classificazione. Da questo momento le macchine possono lavorare e organizzare anche la comunicazione. Qui abbiamo bisogno di un traduttore che ci permette di passare dalla comunicazione digitale a quella umana.

Nel contesto della comunicazione umana (o interpersonale) nei primi anni ’90 dominavano ancora i risultati che nel 1967 erano stati pubblicati a seguito dello studio di Albert Mehrabian. Questi introducono criteri di efficacia in percentuale della comunicazione non verbale 93%, e verbale 7%. A questo risultato si arrivava facendo giudicare ai partecipanti serie di 3 parole sulla base della loro positività, negatività, neutralità. Una volta scelte le parole assimilabili a queste 3 categorie, le stesse venivano lette con atteggiamenti e toni diversi e poi chiesto agli esaminati il giudizio. Il risultato è stato quello di evidenziare la forza della comunicazione veicolata: guardando il viso (55%), sentendo dal tono della voce (38%), dal contenuto del messaggio (7%).

Per tantissimo tempo tutti i master per la formazione sui temi della comunicazione interpersonale usavano il claim: “solo il 5% della comunicazione è verbale” (abbassando ulteriormente il risultato dello studio).

– traslato nel nostro contesto …

Nello stesso tempo il web a metà degli anni ’90 era soggetto ai primi studi sulla comunicazione tramite le interfacce, e non solo. A Nizza-Francia e in Inghilterra vengono effettuate le prime valutazioni sulla comunicazione uomo macchina attraverso l’analisi della fruizione utente delle informazioni contenute nelle interfacce.

Nascono i laboratori che catturano i movimenti oculari in risposta agli stimoli, all’informazione veicolata, nelle diverse aree delle interfacce. Erano schemi costruiti e confinati: dalle esperienze analogiche fatte sui quotidiani e riviste cartacee; dalle classificazioni dettate dall’importanza e dalle categorie che descrivevano quel determinato dominio informativo (ancora non era espresso in questa forma); da soluzioni di grafica/immagine costretta dal browser e estrapolata dalle presentazioni (brochure aziendali) e promozioni professionali di prodotti e servizi.

Il risultato è stata una partizione delle interfacce in aree che meglio soddisfacevano la comunicazione all’utenza del contenuto e delle relazioni con gli altri ambienti digitali. Aree di comunicazione che ancora oggi vengono considerate soprattutto dalle grandi Organizzazioni.

Queste considerazioni hanno inoltre fatto da guida all’evoluzione della comunicazione digitale della conoscenza filtrata dalle macchine, che si trattasse di multidevice, ‘pervasività’ o touch screen.

Il settore in cui ci siamo maggiormente applicati nelle esperienze lavorative, è quello dell’organizzazione della conoscenza e della comunicazione multimediale con l’uso e la qualità delle interfacce che man mano la tecnologia e le esperienze interdisciplinari ci mettevano a disposizione.

In un certo senso abbiamo integrato di volta in volta gli stati di avanzamento delle tecnologie che generano nuovi modelli di fruizione dei contenuti con quelle che danno risposta a determinati bisogni.

Considerando le reti digitali siamo passati da un tempo in cui si collegavano le macchine a quello in cui i contenuti venivano linkati tra di loro. Da qualche anno siamo nella necessità di compiere un ulteriore passo e collegare tra loro i dati in maniera strutturata.

L’affermazione della cloud LOD e dei grafi della conoscenza condivisi (dbpedia, freebase e geonames) stanno accellerando l’applicazione di questa ultima fase: creare sistemi in grado di pubblicare i contenuti in forme comprensibili alle macchine e fruibili dall’uomo.

Fin qui siamo arrivati, e abbiamo individuato una prima soluzione che traduce le informazioni alle macchine rispettando e integrando nel mondo digitale anche modelli analogici: nelle fasi di costruzione dei grafi della conoscenza.

Il prossimo step probabilmente riguarderà l’assimilazione nei processi evolutivi delle differenti forme espressive in cui possono essere comunicate le conoscenze: identificando e organizzando nuove parole, nuovi pensieri, nuove regole formali con le quali le forme d’arte in musica e immagini ci comunicano il mondo che abbiamo dentro e che ci circonda.

… siamo involontariamente seguaci della teoria it from bit! .. continua

L’immagine introduttiva è tratta da una galleria di dipinti ispirati al DNA che s’intitola DNA Art Online.

 

WordLift 3.0: Una breve storia semantica – parte 2

Le classificazioni ci aiutano a trovare le cose cercate.

Il web ormai ha una quantità di contenuti tale da rendere impossibile l’applicazione di schemi omogenei di classificazione per organizzare la conoscenza e renderla disponibile; a meno che non si rimanga all’interno di uno specifico dominio (al giorno vengono pubblicati oltre 2.5 M di nuovi articoli).

Gli schemi di classificazione sono strutture che usano entità e relazioni come informazioni aggiunte al contenuto e sono assimilabili a 4 tipi: gerarchica, ad albero, a faccette, per modelli di riferimento (o paradigmi).

L’immagazzinamento strutturato delle informazioni ha il fine ultimo di migliorare la conoscenza umana.

Noi con WordLift 3.0 ci siamo posti l’obiettivo di sviluppare un’applicazione che strutturasse i contenuti per rappresentare contemporaneamente più metodi di classificazione alle macchine: perché queste riescano ad organizzare i contenuti che vengono pubblicati nelle reti digitali in modo da renderle fruibili da molteplici punti di vista.

Considerato l’impasse in cui versavano le tecnologie semantiche introdotto nella parte 1 , abbiamo in una prima fase di analisi escluso il mondo digitale come destinatario obbligatorio della nostra soluzione.

La prima attività ci ha visti quindi volgere lo sguardo verso i sistemi di classificazione che l’umanità ha usato per organizzare le conoscenze prima dell’avvento del computer; per poi arrivare a considerare l’evoluzione delle interfacce a faccette; le tecnologie che relazionano tra loro diversi ambienti web; e quale è il consolidato sul web in merito agli argomenti considerati (interlinking con dbpedia, freebase, geonames, e metodologie richieste dai motori di ricerca per classificare e pubblicare i contenuti).

Le risposte non sono risultate semplici da individuare; soprattutto perchè la componente essenziale tecnologica è in continua e perenne evoluzione. Nel libro Organizzare la conoscenza. Dalle biblioteche all’architettura dell’informazione per il Web … anche questo già citato nel precedente post, ad un certo punto nel cap 2 vengono introdotte le categorie fondamentali, cioè quelle che accomunano più faccette e sono valide per tutte le discipline. Sono introdotte dal matematico indiano Shiyali Ramamrita Ranganathan che per primo intorno al 1930 parlò di questa analisi consistente nello scomporre un argomento nelle sue componenti per poi ricomporlo secondo un codice. Lui scelse 5 categorie fondamentali: lo spazio e il tempo su cui tutti concordano; l’energia che riguarda attività o dinamismo e che nella semantica indica l‘azione’; materia ad esempio di un materiale o sua proprietà; personas per indicare l’oggetto principale di quel contesto anche se non è una persona umana.

Queste categorie sono considerate astratte, ma noi le abbiamo comunque usate nel processo di design delle interfacce da sottoporre all’utenza, ritrovandole integrate nel vocabolario schema.org.

Il software WordLift è direttamente collegato al vocabolario di concetti pubblicato in http://schema.org/docs/full.html che è universalmente riconosciuto, composto ad oggi di circa oltre 1.200 voci raccolte in 9 categorie fondamentali: Action, CreativeWork, Event, Intangible, Medical Entity, Organization, Person, Place, Product.

In questo novembre 2015 ci sono oltre 217 milioni di pagine (url) che contengono al loro interno un totale di oltre 6 miliardi di triple scritte attraverso il vocabolario schema.org.

WordLift 3.0 è un’editor semantico che analizza il contenuto e suggerisce in automatico la metadatazione secondo le categorie del vocabolario schema.org che noi abbiamo, in un certo senso semplificato per l’utenza, raggruppandole in questa prima fase sperimentale in 4 categorie fondamentali: Who (Person, Organization), Where (Place), When (Event), What (CreativeWork, Product, Intangible). L’utente ha comunque la possibilità di aggiungere ‘n entità a quelle suggerite dall’applicazione che andranno a costruire un personale vocabolario interno all’applicazione.

La release successiva, che terminerà la fase sperimentale in gennaio 2016, include la possibilità di variare l’importanza tra le entità per dare corpo alla classificazione gerarchica e ad albero (questo attraverso l’utilizzo della mainEntity prevista da schema.org per marcare gli articoli).

Per il futuro stiamo valutando l’affiancamento della classificazione gerarchica Dewey (Dewey Decimal Classification), diffusa in tutte le biblioteche del mondo.

Questo è l’iter generale che ci ha portato a disegnare una soluzione dove tecnologie semantiche collaborano con le tecnologie di relazione per associare in automatico un set di metadati, o un grafo semantico, ad uno determinato contenuto.

L’individuazione degli sviluppi tecnologici e di servizio per l’utenza non è stato semplice, ma in compenso la maturazione e l’affermazione della cloud Linked Open Data, nonché di dbpedia (freebase, geonames), è stata fondamentale perché l’editor WordLift 3.0 possa produrre dataset riusabili.

 

WordLift 3.0: Una breve storia semantica – parte 1

Nel mondo delle reti digitali quando si usa il termine generico conoscenza è per identificare e giustificare tutte le attività rivolte al miglioramento della raccolta e organizzazione dei dati. Di tutti i tipi.

Migliorare la conoscenza è possibile quando si rendono disponibili le informazioni per molteplici letture e relazioni al fine di interpretare la realtà, fantasticare sul trend, sull’evoluzione, sul futuro possibile per poterlo in qualche modo controllare o dominare.

Nei processi progettuali abbiamo un’attività necessaria, propedeutica in un programma di progetto, chiamata individuazione dello scenario di riferimento. In pratica si tratta di scoprire e assimilare i contesti che fanno da sfondo, o costruiscono la scena dove l’oggetto dello studio come un attore si incastra a raccontare il perché del suo primo piano.

In informatica la conoscenza è parte dell’intelligenza artificiale. In questo settore viene (veniva) cercata l’automazione mediante strategie per tentativi ed errori. Questa metodologia di disegnare lo scenario è detta Knowledge Representation (wikipediaEN). Si tratta di un tipo di rappresentazione simbolica che aveva come limite la difficoltà di relazionare più scenari. Si evolve per colpa del solito Tim Berners Lee, tutt’ora leader del WWW. Lui attraverso il W3C lancia nel 1996 lo standard XML che permette di aggiungere informazioni semantiche ai contenuti, e quindi metterli in relazione. E’ l’inizio del Semantic Web, con la possibilità di pubblicare insieme ai documenti informazioni e dati in un formato che consente l’elaborazione automatica alle macchine.

“La maggior parte del contenuto informativo dell’odierno web è progettato per essere letto dai soli esseri umani …” (sempre Tim Berners Lee) “i computer non hanno il modo per processare il linguaggio di una pagina web”.

Per web semantico si intende un web dove il contenuto è strutturato perché i software possano: leggerlo, rispondere a domande e all’interazione dell’utenza.

Introduzione liberamente tratta da .. e per chi vuole sapere di tutta la storia.

Introdotto il valore di qualsiasi operazione rivolta a sviluppare un sistema che in automatico predisponga e suggerisca una metadatazione da allegare al contenuto per renderlo leggibile alle macchine, rimane da capire e definire: quali sono i componenti di questa strutturazione, o metadatazione? Come estrarre i significanti da un testo uniformemente a prescindere dalla lingua? A quale tipo di categorizzazione ontologica, e quali relazioni devono essere attivate in un contenuto perché questo diventi parte di un semantic web per tutti? Ma soprattutto: come fare tutto questo insieme?

E qui tutto l’ambiente di ricerca e sviluppo che ruota intorno alle tecnologie semantiche si è come arenato. Crediamo che abbia influito alla creazione di questo impasse la mancanza di accordi tra i diversi percorsi scientifici necessari a realizzare una qualsiasi forma di standardizzazione; e anche per via delle differenze tra le lingue e del lessico, spinto dal web stesso e dalle tecnologie distribuite, verso una sorta di multilinguismo ‘local’.

Considerato l’argomento e il contesto di questo post, meglio se compiamo un salto che dal 1986, nascita dei primi linguaggi di markup, passando per il 1998, definizione dello standard XML, ci porta ad oggi novembre 2015. Il salto lo abbiamo fatto, almeno parzialmente, con una query (di seguito descritta) su Wikidata.

La strada che abbiamo intrapreso (considerando che non c’è nel nostro gruppo una competenza scientifica distribuita tra tutti i saperi che è necessario consultare) è compresa tra:

  • accettare che le tecnologie semantiche così come erano state pensate ed applicate non potevano soddisfare i nostri bisogni di far comprendere e ordinare i contenuti alle macchine;
  • ridefinire il contesto in conseguenza dell’affermazione culturale ed economica del mondo open data e della strutturazione dei dataset della cloud Linked Open Data.

Allora memori e come dettato dal logico, matematico e filosofo austriaco Gödel (amato anche nel mondo dell’informatica) che affermava: non si può comprendere un sistema da dentro il sistema stesso; per capirne qualcosa bisogna uscirne e osservarlo da fuori; abbiamo in un primo momento decostruito racchiudendolo in insiemi tutto quello che necessariamente avrebbe fatto parte della soluzione finale e successivamente ci siamo rivolti al mondo precedente quello attuale: il mondo analogico e come questo aveva affrontato e risposto ai problemi di organizzazione e classificazione di grandi quantità di “conoscenze”.

Una ricerca/guida ci è stata di grande aiuto (e ringraziamo per tanto gli autori): Organizzare la conoscenza: dalle biblioteche all’architettura dell’informazione per il web (Claudio Gnoli, Vittorio Marino e Luca Rosati).

La query su Wikidata per ricostruire la storia dei linguaggi di markup

Di seguito la query che potete eseguire con un click (i risultati sono parziali perché abbiamo inserito solo i linguaggi che in Wikidata hanno la data di creazione valorizzata – questo valore è espresso dalla Property:P571).

PREFIX wd: <http://www.wikidata.org/entity/>
PREFIX wdt: <http://www.wikidata.org/prop/direct/>
PREFIX wikibase: <http://wikiba.se/ontology#>
PREFIX p: <http://www.wikidata.org/prop/>
PREFIX v: <http://www.wikidata.org/prop/statement/>
PREFIX q: <http://www.wikidata.org/prop/qualifier/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT DISTINCT ?entity ?ml ?sl WHERE {
 ?entity wdt:P31 wd:Q37045 . # ?entity is a markup language
 ?entity wdt:P571 ?sl . # ?sl is the inception date of ?entity
 ?entity rdfs:label ?ml . # ?entity name is ?ml
 FILTER(LANG(?ml) = "it") # ?ml is in Italian
 }
 ORDER by ?sl
 LIMIT 100

…. continua

 

Basta un post di successo per spiegare l’importanza … di WordLift 3.0

Come un post può cambiare l’opinione generale dell’intera Europa (in questo caso l’Unicef aveva parlato dell’importanza dei vaccini)

La tecnologia semantica organizza i contenuti secondo strutture ontologiche condivise, identifica: concetti, relazioni e proprietà. Tutti i siti e i Blog generici o tematici, che da anni dominano anche il mondo dell’informazione professionale, non sono supportati da applicazioni che costruiscono archivi strutturati associando metadati in automatico al momento della pubblicazione. Il risultato è un mare di ‘contenuti momentanei’, postati con linguaggi di gestione legacy, organizzati in forme che richiedono l’intervento delle tecniche di ‘conversione’ dei dati e di attività di marketing digitale, per essere diffuse e trovate dall’utente, anche se per un breve arco di tempo.

Nei dieci anni dalla prima diffusione di internet siamo passati da una fase in cui collegavamo i computer, alla successiva in cui abbiamo linkato le pagine, a quella di oggi che ci chiede di collegare i dati. Il web deve essere in grado di riconoscere il significato dei dati e delle parole pubblicate.

Nel settembre del 2014 internet ha superato il miliardo di siti e nell’estate del 2013 già si contavano 100 miliardi di click al giorno, 55 migliaia di miliardi di link tra tutte le pagine web del mondo. Viene da sé che l’importanza primaria è quella di programmare non solo l’organizzazione dei contenuti pubblicati in un sito in temi, canali e layout classici, ma riprogettare gli stessi perché costruiscano dataset arricchiti di metadati, meglio se fatto secondo le specifiche del W3C per permettere l’integrazione con la cloud Linked Open Data.

Inoltre, gli ‘oggetti tecnologici’ che ci permettono di comunicare e svolgere attività on line non sono più meri ‘strumenti’: sono diventati oramai veri e propri ‘dispositivi culturali’. Sono in grado di evidenziare l’essenza della persona, del posto (luoghi, o territori), delle Organizzazioni di cui fanno parte: private o pubbliche.

I dispositivi danno un significato espresso in dati a contesti informali come lo sono i network, che assumono sempre più una struttura in grado di esprimere la dimensione identitaria e culturale sia del gruppo che del singolo. Possiamo affermare che la nostra vita si snodi in una dialettica di sviluppo che ha sullo sfondo una sequenza di contesti ‘digitali’.

L’insieme di questi contesti e delle funzioni cui questi obbediscono, rispecchia la quotidianità delle forme di vita che in essa si sviluppano, e quindi anche delle direzioni delle traiettorie di sviluppo, e dei metodi di comunicazione usati per condividerla.

I siti internet devono tener in debito conto delle potenzialità espressive e delle modalità d’uso dei dispositivi collegati alle reti digitali. Alcuni usi sono già consolidati, e non solo tra i target giovanili e la ‘generazione touch-screen’.

Nel 2011 abbiamo iniziato lo sviluppo di un Editor Semantico, WordLift, oggi fine ottobre 2015 alla terza release. L’applicazione è distribuita come Plug-in in una delle piattaforme di CMS open source più diffuse al mondo: WordPress. Il modulo è già disponibile su Alfresco e in versione sperimentale su Drupal – è in calendario lo sviluppo dei connettori verso altri CMS.

L’Editor Semantico WordLift 3.0 è sviluppato e automatizzato per consentire la costruzione di dataset open secondo gli standard richiesti dal W3C. Il software suggerisce all’utente già in fase di compilazione di un articolo: le entità, i concetti e le relazioni che classificano il contenuto con le chiavi di lettura presenti negli archivi open data: dbpedia, freebase, geonames, i più famosi.

Questo fa si che le informazioni siano accessibili sotto forma di grafo semantico  (i contenuti testuali diventano dei dati e possono essere così letti dalle macchine e collegati con altri dati).

Il prodotto WordLift 3.0 è in grado di recepire “programmi di verticalizzazione” e predisporre la configurazione dell’arricchimento dei contenuti con i dati necessari al riuso, cioè a rispondere alle richieste di servizio provenienti da applicazioni web esterne, applicazioni per mobile e API.

Se, ad esempio, prendiamo in considerazione l’eventualità di realizzare un sito dedicato agli open data di una Istituzione europea ci poniamo come obiettivo quello di sviluppare una verticalizzazione di WordLift 3.0 con un Dominio Informativo ad hoc e l’inserimento di tutti i vocabolari del settore Pubblico disponibili (es. Eurovoc, Core Public Service, Core Business Vocabulary, DCAT, …), e di ontologie già affermate e/o nuovi standard (criteri o indicatori di performance).

Pubblicare i contenuti sul web usando l’editor semantico WordLift 3.0 vuol dire per tutta l’utenza WordPress organizzare il proprio desk e costruire un archivio strutturato dei propri contenuti compatibile con la cloud Linked Open Data senza ostacolare l’eventuale uso di Licenze commerciali per la distribuzione dei contenuti.

 

Il nuovo catalogo nazionale Open Data – seconda parte

Questo secondo articolo sulla progettazione del nuovo catalogo nazionale open data introduce le API supportate dal portale, descrive la treemap che consente di navigare i contenuti del sito e introduce alcune delle novità sulle quali stiamo lavorando in queste settimane. Il primo articolo su dati.gov.it lo trovi qui. 

Dove sono le API?

Nella fase iniziale del progetto abbiamo cercato di consolidare la ri-organizzazione del catalogo e di estendere DKAN secondo quanto necessario dai requisiti del progetto; in particolare si è trattato di estendere il modello di organizzazione dei metadati presente in DKAN aggiungendo le organizzazioni (DKAN è pensato per un singolo ente che pubblica dati mentre nel nostro contesto avevamo l’esigenza di gestire i metadati di tante organizzazioni diverse). Inoltre si è trattato di irrobustire l’harvester di DKAN per poter acquisire la grande mole di dati che era presente nel CKAN della versione precedente del portale (seguono maggiori dettagli nei paragrafi seguenti).

Queste attività hanno fatto si che, nella release di Giugno, non fossero ancora presenti le API. Durante l’estate, sempre in collaborazione con AgID, abbiamo ripreso le attività e ri-attivato le API standard di CKAN a cui molti di voi sono già abituati. Si tratta di interfacce consultabili con richieste HTTP che restituiscono risultati formattati in JSON. Per vedere qualche esempio potete fare un check sulla pagina dedicata agli sviluppatori di dati.gov.it. Sostanzialmente ora trovate disponibili due API:

Nell’esempio sopra chiediamo al sistema di indicarci la lista di tutti i dataset presenti nel portale (limitando, con il parametro limit a 10 il numero dei dataset forniti in risposta). Utilizzando i parametri supportati da questa API limit e offset possiamo scaricare l’intera lista di dataset di dati.gov.it.

Dalla lista dei dataset per accedere ai metadati del singolo dataset possiamo invece usare la chiamata:

Passando, questa volta il parametro id (che abbiamo ottenuto nel JSON di risposta ottenuto con package_list) possiamo acquisire i metadati del singolo dataset.  

Scorrere migliaia di dataset in pochi click con la Treemap e utilizzando le API del sito

La Treemap è una visualizzazione di dati che evidenzia le relazioni tra un elevato numero di oggetti utilizzando una codifica a colori e una serie di rettangoli nidificati di dimensioni diverse.

Una treemap colorata utilizza il colore per raggruppare oggetti appartenenti ad una medesima categoria. Le dimensioni dei rettangoli rappresentano invece i valori che intendiamo rappresentare. Vediamo direttamente la Treemap di dati.gov.it.


Partendo dall’analisi fatta sull’insieme dei dataset del catalogo, e dai nuovi criteri di classificazione, abbiamo cercato una soluzione che consentisse una navigazione immediata e al contempo profonda dei dataset disponibili. Creando una treemap interattiva è stato possibile visualizzare i dataset secondo una gerarchia disposta su più livelli dando all’utente la possibilità di scendere e di salire di livello a piacimento. La treemap visualizza un qualsiasi insieme di dati organizzati gerarchicamente. Nel nostro caso abbiamo utilizzato D3.js che è una libreria JavaScript per la visualizzazione di dati dinamici (D3 è l’acronimo di Data-Driven Documents).

Per fornire alla Treemap i dati nel formato richiesto abbiamo realizzato uno script che a intervalli di tempo regolari esegue le seguenti attività:

  1. Chiama le API di dati.gov.it e scarica l’elenco dei dataset con i dettagli relativi al nome, all’organizzazione, al territorio di riferimento e alla categoria tematica (ove presente);
  2. Riorganizza i dati ad albero seguendo una gerarchia che può essere personalizzata di volta in volta. Al momento abbiamo optato per organizzare i dataset secondo la gerarchia:
    territorio -> tema -> organizzazione -> nome (e link al dataset).
  3. Trasmette i dati alla treemap usando il formato JSON utilizzato da D3.

Quando la treemap viene caricata nella pagina si limita a caricare il JSON e offre all’utente la possibilità di navigare l’albero. Il modello di treemap navigabile è ispirato ad una versione sviluppata da Mike Bostock (autore di D3) che aggiunge alcune caratteristiche importanti per un sito come dati.gov.it – vediamo quali:

  • utilizzo dei colori per la categorizzazione dei dataset (nello specifico il colore ora indica se un dataset ha valenza nazionale, comunale, regionale, provinciale o se appartenente ad un ente extra-territoriale)
  • impiego del formato vettoriale SVG per il rendering degli oggetti in pagina
  • dimensioni responsive della treemap, delle sottocomponenti e delle etichette testuali 
  • interattività per navigare in profondità i contenuti passando dal territorio al tema, e dall’organizzazione al singolo dataset

Sulla treemap sono stati poi effettuati i test di funzionamento cross-browser e cross-device che ci hanno portato  ad estendere la versione originale per supportare al meglio Safari ed Internet Explorer.

Ci siamo inoltre assicurati che il livello di accessibilità della treemap fosse WCAG 2.0 (Level AA) e che i colori non ponessero problemi a chi è affetto da daltonismo (di seguito alcuni dei risultati dei test).

colorblind-test-01

colorblind-test-02

La Treemap è Open Source

La zoomable Treemap è stata realizzata da Piero Savastano e la trovate sul GitHub di Insideout10https://github.com/insideout10/zoomable-treemap

Continua … e nel prossimo articolo parleremo di harvesting e di come i metadati nel catalogo Italiano entreranno in contatto con il nuovo portale open data Europeo. 

L'immagine per questo post è una visualizzazione prodotta da un algoritmo di Alex D. (Ekisto) sui dati delle interazioni (watch, fork e follow) di GitHub.
 

Aiuta WordLift 3.0 e le imprese

Su 10 aziende fallite nel 2014, 8 non avevano il sito internet — detto aRimini, Festa della Rete di questo settembre 2015.

L’ 80% delle imprese fallite non aveva un sito internet ci suggerisce che: se non si è compresa la valenza degli infiniti aiuti che le reti digitali danno alle economie d’impresa è meglio non competere nel mondo dove queste sono fondamentali.

Sicuramente al raggiungimento di queste cifre hanno contribuito molte e tante altre dinamiche, ma se solo consideriamo la riduzione di tutti i tipi di costi d’impresa che si hanno con l’uso delle reti digitali, sia interni che per conoscere il proprio mercato, capiremmo molto di queste difficoltà economiche.

Vorrei poter aggiungere molto presto all’intro di questo post, diciamo entro il 2016:

su 10 Organizzazioni che hanno migliorato la conoscenza di se stesse e dei loro clienti, e aumentato del 30% la loro visibilità su internet nell’anno 2015, costruendo contemporaneamente con i propri contenuti dataset open riusabili, 8 usavano WordLift 3.0; l’editor semantico distribuito come plug in dalla piattaforma di CMS WordPress.

L’editor semantico WordLift 3.0 è molto utile alle imprese, alle Organizzazioni sia private che pubbliche, piccole, medie o grandi che siano, semplicemente perchè una volta personalizzato si adatta ai processi interni di acquisizione delle informazioni, alla pubblicazione delle stesse, e al web con le sue dinamiche di metadatazione.

WordLift 3.0 permette all’imprenditore di usare la rete internet senza dover rincorrere esperienze e tecnologie, perchè si pone come un filtro tra l’Organizzazione e le ormai quasi infinite relazioni e connessioni delle reti digitali. Questo significa non programmare la propria presenza in rete in relazione alle tecnologie disponibili, perchè sono in continua evoluzione e necessitano quindi di investimenti eccessivi per chi deve solo sfruttare il web come canale di comunicazione digitale.

WordLift 3.0 allega in automatico un set di metadati ai propri contenuti dando struttura ai propri archivi interni in modo che siano leggibili alle macchine e conformi con la cloud Linked Open Data.

 

WordLift 3.0 e le Smart Cities & Internet of Things

Le basi per un territorio intelligente sono: la pianificazione e la gestione. Dai primi anni del 2000 si discute nell’Urbanistica sull’approccio da dare allo sviluppo delle città introducendo concetti come cityness per indicare strategie e tendenze urbane che si riflettono sulla spazialità e territorialità.

Oggi queste metodologie sono poste alla base del confronto sui rapporti tra cittadini, spazio, comunità, sanità, sicurezza, cultura, arte, alimentazione, turismo, energia. E’ lo sviluppo della città e cittadinanza insieme come forma di rete e collaborazione. Un metodo per disegnare una pianificazione sensata e applicabile delle soluzioni di Smart City.

http://azarchitecture.com/blog/2014/04/defining-the-great-desert-city-part-two-of-four/

http://azarchitecture.com/blog/2014/04/defining-the-great-desert-city-part-two-of-four/

Affrontare e risolvere i problemi delle città diventa sempre più difficile; se ne sono accorti gli Architetti, o i Politici, o quelli più a diretto contatto con le difficoltà che sono i Funzionari Pubblici. La città non è più riconducibile ad un concetto unitario, ma poliedrico.

Pianificare l’uso, le economie e le regole delle città, conformemente ai bisogni della cittadinanza per migliorare la qualità della vita, è impossibile se non si riesce a recepire e confrontare i dati provenienti dal territorio, compresi quelli in risposta all’applicazione delle politiche sociali ed economiche.

Abbiamo bisogno di vedere tutti gli ambienti, che sono oggi aggregati e generalizzati in un’unica rappresentazione Urbanistica (comprese le infrastrutture di rete digitale), associati alla musica (rumore :), alle scienze e alle visioni, alle esperienze, alle condivisioni.

Organizzare l’uso dei sensori a tale scopo aiuterebbe l’affermazione: “stiamo costruendo una Smart City”. Organizzare in dataset la raccolta delle informazioni provenienti da ogni sensore secondo schemi e categorie diffuse nel mondo open data permetterebbe inoltre l’applicazione e il supporto alle Smart Grid di cui il Gruppo Enel è uno dei leader al mondo.

La pianificazione di città e territori necessita di sistemi complessi non riconducibili a modelli prestabiliti; ma detto questo chiariamo che sono diversi i modelli di Smart City basati o integrati con le tecnologie semantiche.

Gli approcci all’argomento sono sia up che down. Quì la presentazione di un data model basato sulla semantica elaborato dal CNR; e quì l’osservatorio italiano sulle best practice.

Se ad esempio prendiamo in considerazione il mondo del turismo (quì ultima inchiesta) notiamo che i colossi del web come Expedia, Hotel.com, Priceline, Trivago, TripAdvisor, lasciano ‘solo le briciole’ all’industria. Oggi prendono 1 miliardo di euro di provviggioni creando un fenomeno di delocalizzazione, che è di per se assurdo se consideriamo che il bene ha una sede fisica che non può essere spostata.

L’uso delle tecnologie semantiche Open Source per erogare un servizio territoriale e riproducibile potrebbe: sia spostare parte delle risorse e migliorare il prodotto turistico, che aiutare lo sviluppo di altre economie digitali legate alle Smart Cities.

WordLift 3.0 è un editor semantico, API e Plugin della piattaforma CMS WordPress che, una volta definiti i punti di aggregazione delle informazioni (things or nodes), può essere impiegato per costruire dataset open, cioè un insieme di dati riusabile, perchè è possibile la relazione con altri dataset.

WordLift 3.0 è una API per catalogare qualsiasi informazione sulla strada o città in cui viviamo, lavoriamo, viaggiamo, studiamo, per poi trasformarla in qualcos’altro.