OCR et traitement : Différence entre versions

De Pratiques en milieux numériques
Aller à : navigation, rechercher
(Page créée avec « == Présentation des différents systèmes de lecture machinique == Entre "voir" le texte et "lire" le texte, imaginer des protocoles de représentation numérique de la l... »)
 
(Présentation des différents systèmes de lecture machinique)
 
(Une révision intermédiaire par le même utilisateur non affichée)
Ligne 1 : Ligne 1 :
== Présentation des différents systèmes de lecture machinique ==
+
== Fin de l'exercice "systèmes de lecture machinique" ==
Entre "voir" le texte et "lire" le texte, imaginer des protocoles de représentation numérique de la lecture.
+
Entre "voir" le texte et "lire" le texte, imaginer des protocoles de représentation numérique de la lecture.<br>
Présentation des protocoles de lecture sous une forme libre (print, video, son, performance,...) pour la semaine prochaine. (voir exemples Pixels & Caracters)
+
Présentation des protocoles de lecture sous une forme libre (print, video, son, performance,...) pour la semaine prochaine. <br>
 +
=== projets artistiques, recherches autour de l'ocr ===
 +
* "Pixels and caracters" : http://sicv.activearchives.org/mondo/
 +
* Re-typographe: http://www.revue-backoffice.com/numeros/01-faire-avec/david-valance-thomas-bouville-re-typographe + http://re-typograph.loria.fr/
 +
* Ounopo (xperimental publishing): https://issue.xpub.nl/05/
 +
 
 +
Toutes les images du cours sur: https://cloud.pratiquesnumeriques.be/apps/gallery/#scan%20to%20ocr
 +
 
 
== Traitement des données textuelles à partir de Tesseract ==
 
== Traitement des données textuelles à partir de Tesseract ==
 
* Sortie .txt et manipulations avec Bash (voir: http://alexiadevisscher.be/doc/cat.html)
 
* Sortie .txt et manipulations avec Bash (voir: http://alexiadevisscher.be/doc/cat.html)

Version actuelle datée du 11 octobre 2019 à 09:40

Fin de l'exercice "systèmes de lecture machinique"

Entre "voir" le texte et "lire" le texte, imaginer des protocoles de représentation numérique de la lecture.
Présentation des protocoles de lecture sous une forme libre (print, video, son, performance,...) pour la semaine prochaine.

projets artistiques, recherches autour de l'ocr

Toutes les images du cours sur: https://cloud.pratiquesnumeriques.be/apps/gallery/#scan%20to%20ocr

Traitement des données textuelles à partir de Tesseract

  • Sortie .txt et manipulations avec Bash (voir: http://alexiadevisscher.be/doc/cat.html)
  • .txt to .html: Baliser un texte manuellement en html
    • petite histoire des balises (languages déclaratifs et d'instruction) et normes
  • Sortie html Travailler avec le balisage html proposé par tesseract