WordLift 3.0 e l’Oriente nel 3.000 a.c.

Ci sono anche gli altri orientamenti, dipende dove ti metti e verso cosa guardi. Io Maurizio sono nato e vivo in Italia e se devo raccontare della mia specie …: è reale dire che sono figlio di una combinazione infinita di casualità. Già! Solo a pensare alla difficoltà di incontro dei genitori negli anni ‘50, comprendo che per nascere dovevo avere una grande esperienza, anche estetica; una conoscenza appropriata del marketing analogico, soprattutto nei meccanismi di verifica dell’idea o della fattibilità tecnica; dovevo aver definito gli obiettivi, organizzato gli appuntamenti importanti, etc.. Non so in che percentuale abbia immaginato la vita, ma questo dipende da quanto mi sono applicato, se ero al bar o più semplicemente dormivo.

Poi sono nato e l’aria ha scombinato tutto. Non c’è più memoria e la vita risponde: vabbè rifacciamola. Molti anni dopo ho le stesse domande di tutti, un elenco abbastanza corposo, in cima possiamo mettere tranquillamente:chi sono?

In Occidente e comunque verso sud, forse in Perù ad essere precisi, Condori disse a Kantu: se vuoi convertire i tuoi sogni in realtà devi imparare a conoscere te stessae cosa devo fare? .. trovare risposte … e le domande iniziano sempre con quella in cima anche al mio elenco.

Ma torniamo all’Oriente. Per descrivere il grado di casualità della nascita raccontano/vano: Sai quante sono le probabilità di nascita di un essere umano, non in senso metafisico, ma biologico? Nella tradizione buddhista dicono che sono le stesse che una tartaruga incontri un’asse di legno che galleggia in mezzo all’oceano pacifico, nel momento in cui risale per prendere aria.

Ma torniamo a WordLift 3.0, che è un’editor semantico ad uso degli utilizzatori della piattaforma di CMS WordPress: come fa ad essere uno strumento utile a descrivere alle macchine un contenuto metaforico?

Non lo so ancora, bisognerà provare più e tante storie. Ma intanto, per costruire dataset open sugli antichi saperi orientali, sulle corrispondenze tra mente e corpo, e compararli con altrettanti costruiti su nuove scienze come la neurobiologia: è perfetto!

Before i go to sleep di S.J. Watson

 

Il nuovo catalogo nazionale Open Data

Verso la seconda metà di Marzo di quest’anno abbiamo per la prima volta iniziato a ragionare sull’ipotesi di dare un contributo per rivedere le funzionalità e l’organizzazione del catalogo nazionale degli Open Data Italiani. Questo articolo vuole essere il diario di bordo di quanto svolto sul nuovo dati.gov.it  in termini di design dell’informazione e implementazione tecnologica.

Ci occupiamo, come Insideout10, di open data e linked open data da diversi anni e abbiamo colto la sfida di AgID di ereditare il lavoro svolto dal Formez e da Sciamlab a partire dal 2011 sul catalogo dati.gov.it.

Architettura dell’informazione

Partendo dalla richiesta iniziale di rendere i dataset quanto più accessibili e fruibili ai target di utenza primari identificati dall’Agenzia (cittadini, imprese, professionisti e pubblica amministrazione), il lavoro iniziale è stato quello di analizzare il contesto di riferimento e le modalità di accesso consolidate tra le diverse tipologie di utenza.

[slideshow_deploy id=’266′]

Lo svolgimento di questa parte di analisi lo abbiamo condotto abbinando tecniche miste di analisi dei dati, definizione delle personas, studio dei casi di successo (eh si dobbiamo anche qui ammettere di esserci deliberatamente ispirati al portale degli open data Indiano e da quello Africano invece che rifarci ai più blasonati data.gov.uk e data.gov) e comune buon senso.

La prima treemap navigabileCome startup che lavora in questo settore, siamo a nostra volta “clienti” della soluzione, questo costituisce un punto di vantaggio e un bias da tener sotto controllo. In pratica siamo partiti dal .csv contenente la lista di tutti i dataset presenti originariamente nel catalogo e abbiamo iniziato a visualizzare la struttura dei dati usando una nostra versione personalizzata di RAW (un utilissimo tool di visualizzazione realizzato dal Politecnico di Torino che abbiamo integrato con alcune visualizzazioni provenienti da D3.js per leggere le informazioni aggregate dell’architettura dei siti web e dei dati accesso, keyword e molto altro ancora).

In parallelo abbiamo eseguito manualmente decine e decine di ricerche per analizzare i risultati della ricerca ma anche per raccogliere le combinazioni di keyword, tag e classificazioni pre-esistenti che potevano creare un valore per le nostre personas. E’ un lavoro editoriale che richiede tempo e una cognizione base dei diversi dominii di conoscenza.

Usando la logica del Patchinco (ovvero la costruzione modulare di un albero di classificazione) abbiamo iniziato a definire le logiche di ri-classificazione dell’esistente rispetto alla nuova classificazione tematica che via via prendeva forma. Queste logiche ci hanno consentito di implementare un primo modulo in Drupal per l’acquisizione e la ri-classificazione dei dataset originariamente contenuti in CKAN.
L’organizzazione dei temi è stato il risultato degli incontri con AgID ma anche una mappatura delle diverse tassonomie utilizzate a livello Europeo dai vari portali open data.

Ora per quanto parziale è emersa una nuova logica di ri-classificazione dei dati che mette insieme diversi criteri di accesso alle informazioni.

La nuova classificazione di dati.gov.it

I focus

I focus hanno l’obiettivo di interessare delle comunità trasversali di utenti che accedono al sito con interessi specifici. Nel CMS rappresentano degli aggregati di dataset, di news (e presto anche di app) che possono interessare il target. Ne abbiamo concepiti quattro in prima battuta e aggiunti altri due in corsa. I primi quattro da cui eravamo partiti sono:

  • Smart City (è un tema importante per lo sviluppo economico e l’interesse è in crescita),
  • Dati Geografici (si tratta di un sotto-insieme molto specifico di dataset che hanno un riferimento diretto con il territorio e che si rivolgono tradizionalmente ad una platea di utenti spesso composta da professionisti),
  • Data Journalism (i dati statistici aiutano a raccontare le storie e a produrre informazione basata su fatti concreti)
  • Agenda Open Data (forse il focus più importante di tutti che raccoglie la lista dei dataset identificati come fondamentali dall’agenda digitale del Paese dal 2013 ad oggi – l’obiettivo è quello di esporre in modo chiaro ai cittadini quali dataset sono prioritari e quali di questi sono realmente disponibili).

I due aggiunti in seguito sono stati:

  • Data 4 All (un progetto presentato all’UNICEF che raccoglie alcuni dei progetti Open Data di maggior risalto al momento ovvero Open Expo, Italia Sicura e Soldi Pubblici)
  • Occupazione & Lavoro (la sintesi delle informazioni relative ai livelli occupazionali)

Al momento sono in linea tre focus e speriamo di introdurre anche gli altri tre nei prossimi mesi (questo ovviamente dipenderà dalle valutazioni congiunte di AgID e Formez).  

Perché DKAN al posto di Drupal + CKAN

Effettivamente non è scontata come scelta e vale la pena entrare nel merito. In passato abbiamo lavorato su CKAN e la sua endemica diffusione ne rappresenta il principale punto di forza.

Quando fu concepito originariamente da Dr Rufus Pollock e l’OKFN l’obiettivo era quello di creare uno strumento semplice per pubblicare cataloghi di dataset. Ora le ambizioni di un sito come dati.gov.it come anche quelli di altri cataloghi regionali e/o di settore sono legate al ri-uso dei dati e più in generale alla divulgazione di quanto sia possibile fare con questi dati. Si tratta di favorire l’impiego da parte di tutti dei dati per creare nuove opportunità sul territorio integrando le competenze di tecnici e meno tecnici.

Utilizzare un CMS significa poter trattare i dataset come qualunque altra tipologia di contenuto e abbinarlo ad articoli di approfondimento, applicazioni e molto altro ancora. Analizzando la navigazione dei portali realizzati con CKAN abbinato ad un CMS (Drupal o WordPress) è facile notare come sistemi diversi di navigazione si sovrappongano perché appartenenti a piattaforme diverse. Si veda ad esempio il portale (molto ben realizzato per altro) della Regione Lazio o anche la stessa precedente versione di dati.gov.it – i dati sono accessibili e consultabili con una logica specifica che è di fatto vincolata da CKAN mentre gli altri contenuti rimangono “sospesi” in un’alberatura che è definita nel CMS.

Un CMS consente inoltre un’espressività maggiore in termini di organizzazione dell’architettura delle informazioni e facilità di creazione della presentazione – ma anche una crescita delle funzionalità più organica e meno dispendiosa (nel caso di Drupal legata ai 300+ moduli presenti per questo sistema).

Ora inoltre si trattava di passare da una piattaforma con un harvesting automatico che utilizzava un sistema di crawling per raccogliere e classificare i dati ad un workflow di pubblicazione e gestione centralmente organizzato da AgID e Formez integrable con l’indice della Pubblica Amministrazione. Avere quindi la possibilità di creare dei workflow di acquisizione più strutturati rispetto a quanto offerto da CKAN era un requisito da considerare per lo sviluppo futuro del sistema.     

Last but not least – un comune che ha un budget limitato e usa un WCM open source come Drupal (in Italia sono tantissimi) perché dovrebbe installare una nuova piattaforma e formare il personale?

Continua … e nel prossimo articolo parleremo delle tanto attese API, della treemap utilizzata sulla homepage, delle contribuzioni open source e di altri approfondimenti implementativi. 

La foto di copertina è di Justin Grimes , CC BY-SA 2.0
Il sito dati.gov.it è stato pubblicato in una prima versione il 5 Giugno 2015.
 

WordLift 3.0: il software che fa riflettere il post su se stesso. Poi agisce.

Dostoevskij nel suo ‘Memorie dal sottosuolo’ dice che esistono 2 tipi d’uomo: quello d’azione e quello di pensiero.

http://www.scratchbook.net/2013/10/memorie-dal-sottosuolo-Fedor-Dostoevskij.html (della Maria De Biase)

Stiracchiando quà e là questa descrizione potremmo dire che anche i prodotti dell’uomo d’azione sono a loro volta introspettivi e sociali.

Un contenuto web, anche quello con un grado di multimedialità intrinseco elevato, rimane sempre un prodotto del sottosuolo (o sottobosco o dell’uomo di pensiero). Per emergere almeno al piano terra ha bisogno dell’applicazione delle politiche adottate dai motori di ricerca. Altrimenti: nisba! E se per caso si sceglie il passaparola in vece del marketing digitale, scelta piacevole, si rimane sempre nell’area pensiero, ma debole perchè manca della struttura di classificazione usata per gli open data: dbpedia e altro, impedendo di fatto al post la necessaria visibilità.

chi scrive per non essere letto? chi racconta una storia senza voler essere ascoltato?

WordLift 3.0 sviluppato da Insideout10 è un editor semantico che aiuta chi scrive suggerendo relazioni, descrizioni e approfondimenti a seconda del contenuto da pubblicare, e fa tutto questo senza dimenticare di associare i metadati che identificano univocamente il post e lo rendono compatibile con la classificazione LOD, la più riconosciuta e la più diffusa nel web. L’editor semantico tratta il testo del post come fosse parte di un capitolo in un romanzo: ‘che sembra scritto per noi’, che ci fa vedere una parte di noi che non pensavamo potesse essere condivisa da altri, che inquadra come per fare un selfie al post col suo sfondo.

Il software tratta i post come un capitolo di un libro: Li inserisce in una struttura di relazioni, in un racconto; ma la storia rimane sempre dello scrittore.

Linked Open Data

Wordlift 3.0 fa vedere il contesto dove verrà pubblicato il contenuto mettendo in relazione l’archivio interno del blog o sito internet, con tutto il web, che è lo scenario di riferimento.

Chi scrive ha così un potente strumento di supporto alla scrittura: di verifica culturale e statistica, molte volte di scoperta vera e propria; ma niente serendipity se non casuale.

Terminata l’elaborazione, accettati o meno i consigli, il software associa in automatico i metadati suggeriti dalla componente dedicata alla comprensione del testo. Altri metadati possono essere inseriti manualmente, poi si pubblica.

A seconda dell’uso che se ne vuole fare, mettiamo minimale, chiamiamola classificazione tipo SEO — cioè che associa in automatico un set di metadati, è richiesto al giornalista digitale un tempo aggiuntivo alla fase di pubblicazione che non supera il paio di minuti. Per il resto dipende dalla volontà di usarlo o meno come strumento di ricerca per il design del contesto di pubblicazione.

….. continua

 

i have things – imagined — 1

chissà se funziona uguale a “.. ho visto cose che voi umani..”

recitare il monologo: “ho immaginato cose che voi umani ..”

like as “« I’ve seen things you people wouldn’t believe, ..”

Ho iniziato circa 10 anni fa, e siamo in settembre 2015, a provare la semantica come goal delle tecnologie di rete. Area di ricerca che già dal 201213 è rientrata nei ranghi dell’industrializzazione, essendo secondo me impossibile una qualsiasi attività che che non rientri nell’accumulazione di risorse, e generi nuovi potenziali sviluppi in questo settore.

Le tecnologie semantiche sono in grado di organizzare un contesto, e in un contesto individuarne lo scenario che comprende quel dato contenuto testuale, anche multimediale. Per fare ciò usa ontologie, vocabolari di termini e relazioni, dandogli un carattere leggibile alle macchine.

Nel 2010 (sarebbe meglio dire: intorno al 2010 causa memoria debole) vidi un video su TED di Tim Berners Lee — The Next Web-

e da quel momento inizia la mia seconda ed ultima fase nel mondo della semantica, concettualmente basata su: perchè non realizzare un editor che automaticamente elimini il problema della confusione quantitativa della classificazione dei contenuti del web, inquadrandolo secondo i modelli delle strutture libere come wikipedia? Nei mesi e l’anno a seguire ci fu l’affermazione del mondo open data e linked open data, certificato come vantaggioso economicamente nel 2013 dai più grossi analisti. Che grande riconoscimento 🙂 ancora trascorsi 2 anni viene citato lo studio Mckinsey in tutti i convegni, riunioni, e giustificativi per avallare il mondo dei dati aperti.

Dopo molte prove e 3 anni di sviluppo l’editor semantico WordLift è pronto, e funziona pure. Ancora solo per gli utenti della piattaforma di CMS WordPress.

Autorganizza i contenuti, costruisce dataset open e li predispone alla relazione con quelli presenti nella cloud Linked Open Data.

Per il mondo dell’editoria digitale è, in un certo senso, un riconoscimento della professione di giornalista, perchè non richiede skill tecnici per usarlo, e lo supporta nella fase di redazione del post con collegamenti e relazioni secondo entità significative estratte da una componente del software demandata alla comprensione del testo.

.. continua

articolo originariamente pubblicato su Medium.com
 

What are you looking for ..?

.. E’ un gran lavoro: trovare i pezzi con i quali comporre uno scenario e poi osservarlo. Dall’orizzonte fisso, allo sguardo incuriosito da sulla nave che piano si avvicina,

la scena muta, quasi, anche lei, si scopre e si rivede!

the cat watson

http://goods.mediumcontrol.com/category/watson-the-cat-collection

Di solito la semantica è un sistema da usare per organizzare i contesti traducendoli in lessici che le macchine possano comprendere. Nelle reti digitali passano e in costante aumento, i contenuti. Immaginiamo noi utenti rilasciare un post multimediale così come un orientale libera una candela desiderio accesa a galleggiare su di un fiume. Miliardi di nuovi contenuti ogni giorno. Miliardi e più miliardi: trifantastilioni. Tra questi i motori di ricerca pescano usando ad esca le parole suggerite da noi utenti. Buttano le lenze tra le correnti meno fragili, dove galleggiano i contenuti cosiddetti più “strutturati”, cioè quelli arricchiti di metadati compatibili con i logaritmi usati per la ricerca. I metadati descrivono il contenuto alle macchine e ne indirizzano la catalogazione e quindi danno la possibilità di essere cercati, trovati, e probabilmente letti.

Da oggi in poi l’attività di strutturazione non sarà più un problema risolvibile professionalmente con un tecnico SEO, anche se per un breve termine.

L’editor semantico WordLift 3.0 (soprannome EVA), di insideout10, soddisfa l’esigenza di tutti gli utenti internet che usano la piattaforma CMS WordPress, supportando le categorie del giornalismo digitale:

    • nella fase di redazione, proponendo all’utente relazioni esplicative e di approfondimento degli argomenti espressi nel post,
    • autorganizzando i contenuti secondo le strutture di Dbpedia e più in generale della cloud Linked Open Data.