Skip to content

Latest commit

 

History

History
135 lines (67 loc) · 9.15 KB

crCRIHN2018-02-23.md

File metadata and controls

135 lines (67 loc) · 9.15 KB
date tags
2018-02-23
cr, conférence, crihn, visualisation, cartographie, Stéphan Sinclair

Cr CRIHN Stéphan Sinclair, 23 février 2018

DreamScape, présentation que devait normalement faire Andrew Piper

Un travail en cours, pas achevé.

DREAM, Distant reading early modernity, Stephan Wittek, Matthew Milner, Stephan Sinclair and The Early Moderne Conversions Team. Un projet de partenariat autour de la question de la lecture distante sur un important corpus du début d ela modernité.

  • EBBO Phases I et II

  • more generic catalogue browser in Voyant

    Une manière de créer des sous-ensemble sur des corpus plus grands. Pouvoir filtrer par auteur, par genre ou d’autres champs de métadonnées.

  • large-scale visualisation in Conversions Lab

    DreamScape, la manifestation de cette troisième chose. Qu’arrive-t-il quand dispose d’un large scale high-résolution screen

Une période ou des phases publiques et des phases soumises à des partenariats. Interfaces qui devaient se confronter à cette difficulté.

TCP EBBO est une collection de plusieurs milliers de textes du 14e au 18e siècle. Un projet à long terme pour rendre ces textes disponibles.

DREAM interface phase 1, recherche à facettes sur des sujets. Création possible d’un sous-ensemble. Une fonctionnalité de téléchargement pour utiliser d’autres traitements ou bien possibilité de lancer un nouveau corpus. Mais ensemble du corpus déjà proposé comme un ensemble pour Voyant.

http://dream.voyant-tools.org

Pour le moment aucun outil de mapping dans Voyant. Ian Gregorgy and Patricia Murrieta-Flores "Geography, location and place have traditionally been under-studied by the humanities. This is not because of a lack of interest in them, or because of a failure to acknowledge their importance, but instead because these are difficult concepts to handle..."

Tricky car co-référentiel, ambigus, difficiles conceptuellement. De plus requiert une connaissance du langage difficile à prendre en charge par un ordinateur car notion de lieu variable dans le langage.

Literature and Cartography: Theories, Histories, Genres (MIT Press) 1st Edition, 2017. 978-0262036740, une collection éditée sur la question.

Usage de données tabulaires plus proche des sciences sociales que des humanités, moins à voir avec l’interprétation et la lecture du texte. Pas ce avec quoi nous étions intéressés. Voulait identifier ce que nous pourrions faire sans identifier les localisations dans le texte. Mais voulait aussi voir si pas possibilités d’aller plus loin. Notamment, voulait notamment voir ce que pouvait faire de sequences de localisations dans le texte. Que signifie pour le lecteur de passer de la localisation A à B même si le spectateur ne se déplace pas, toujours un déplacement important à penser.

Première considération sur le voyage et le séjour. Par exemple, article de Barbara Piatti dans collection évoquée, étudie circulation et séjours en fonction du fait que le narrateur parle au présent ou au futur.

Souhaitait aussi montrer des données interactives.

Sue Hemmens, My dream NLP etc. Geo...

"Combining hermeneutic approaches wit methods of distant reading. As far as I can tell, both procedures that are currently used to produce literary maps are limited in their output as well as their explanatory power...

If those two procedures could be more closely linked, new possibilities will…" Barbara Piatti

Travail conduit CRIM Centre de recherche informatique de Montréal. Jérome Labonté. Développement de Voyant jusqu’à présent très amateur. Quand du temps, me pose pour coder mais pas planifié de manière professionnelle. Mais pas formés pour gérer de grands projets. Intéressé par le fait de travailler avec des informaticiens car pour collaborer obligeait à changer mes pratiques et rendre les choses plus explicites. Possible à travers le partenariat.

Jérome beaucoup travaillé sur l’interface. Caroline Barrière, et Gabriel Bernie-Colborne travail sur la reconnaissance d’entités et désambiguation.

Première expérimentation en utilisant le package Python spaCy. Utilisation de la capitalisation pour identifier les noms-propres. Entraîné sur des modèles linguistiques mais relativement naïf sur l’identification. https://spacy.io

CREAM moins moche, mais reste problématique. CRIM produit comparaison avec autres outils. spaCy over-fitting, faux positifs mais en rappel CREAM fait beaucoup mieux.

Sample Challenges

  • kingdom of Antichrist

  • a Scot

  • this City

    problème co-référentiel

  • Duke of Albany

    ici un lieu mais une personne, mais provenance de la personne qui peut être utile à suivre

  • Lishborne

    Collection normalisée mais des textes anciens, donc variations orthographiques énormes.

Bibliothèques envisagées pour l’interface : Mapbox, leaflet, OpenLayers. Plusieurs questions à considérer le framework et les cartes. Choix de OpenLayers.

Pour les cartes, plusieurs fournisseurs, et ces cartes ont des caractéristiques souvent différentes : ArcGIS, CArto, Stamen Map Stack.

Comme travaillait sur des collections historiques, souvent pas utile de travailler sur des cartes modernes. Cherchait contenus plus flexibles. Stamen Map Stack.

ArcGIS National Geographic Map mais finalement choix de Stamen Map Stack. Un mélange de caractéristique que cherchait, notamment le fait que les frontières séparées donc plus flexible pour ce que voulait faire.

Premier prototype, mécanisme, où lisait les données en arrière, et filtre des différentes villes et connexions entre les villes. D’abord développé en dehors de Voyant et stand alone, intégré par la suite.

Hello this is a tool that is very experimental ! Avertir l‘utilisateur que probablement beaucoup de bruits, etc. Utilise des données en live sur le corpus de Jane Austeen. Nombre surprenant de connexions avec l’Amérique du Nord. Rapidement peut identifier que localisations connexion avec quelqu’un en Californie que connaît probablement. Et autre lieu qui existe en Amérique, mais probablement pas le bon.

Possible d’explorer les différentes connexions disponibles, le texte est lu au fur et à mesure. Parcours conceptuels du texte dans son ordre.

Première instant de Jérome dans cette interface consistait à montrer moins de données, les données les plus prévalantes et afficher les choses lorsque zoom. Mais dans le contexte de production d’une interface pour exploration large, parfois plus intéressant de montrer plus. Possibilité de montrer choses comme des cartes de points chauds pour indiquer qu‘une activité intense à un endroit.

Possibilité d’explorer les relations une par une. Possibilité de définir nombre de villes visibles, et population pour réduire le bruit (réduction des faux positifs)

http://earlymodernconversions.com/introducing-dream/

Autre proposition de Jérome, possibilité de créer des filtres multiples. Possibilité d’avoir toutes les connexions avec un personnage du texte. Classement par dates, etc.

"Any robust digital research methodology must allow the scholar to move easily between distant and close reading, between the bird’s eye view and the ground level of the texts themselves." Dan Cohen & Fred Gibbs

Raison pour laquelle des outils comme NGrams si décevants. Donc nécessaire de pouvoir travailler sur l’échelle. Voulait aussi permettre à l’utilisateur lorsque quelque chose est faux, il soit possible de prendre en compte la correction, y compris coexistence d’un conflit sur l’interprétation.

Slide il y a deux ans. The DreamScape Continues : 10M grant, cure all the evils of the world, collaborate with literary scholars.

http://voyant-tools.org/?corpus=austen&view=dreamscape


Accusant humanistes d’être newtoniens.

Notion du temps et de l‘espace particulièrement fluides. Essayer d’être le plus explicite sur la question de l’interface.

Voudrait pouvoir modifier la projection

Travail sur l’échelle pour la granularité des séquences de lieux.

Linéarité de la lecture, très limitée mais en même temps très commune. Produit donc une séquence relativement fixe.

Corpus de biographie et organiser la présence des gens dans le calendrier. Probabilité de déterminer les rencontres. Possibilité de découvertes à partir des lectures distantes.

Une des inspirations pour cette interface mapping the Republic of letters. Travaille avec le projet Orlando sur les biographies d’écrivains britanniques. Malheureusement fermé pour des raisons de financements.

Dans la version naïve, Geonames est utilisé.

Visualiser les lieux fictifs !

Mots doubles fonctions car opèrent comme des lieux mais aussi des formes lexicales pouvant opérer avec les autres outils. Peut donc mettre en rapport avec autres occurrences.

Distinguer les cartes, géographies mentales et imaginaires de chacun d’entre nous, dans notre manière de se représenter le monde qui varie avec nos états personnels. Représentation d’un espace physique qui peut varier dans le temps pour des raisons matérielles ou psychiques. Mais aussi la cartographie des lieux imaginaires. Exemple prendre l’œuvre de Faulkner et cartographier le Conté que situe.

Faire l’inverse : construire des territoires littéraires.