Data-wrangling

PDF vs HTML : Extraire des données d'un formulaire Google avec R

Il y a quelques mois, j’ai eu à analyser les réponses à un formulaire Google. Le jeu de données fourni ne respectant pas les 10 commandements d’une base de données réussie, un travail de nettoyage était nécessaire. J’ai eu besoin des intitulés des questions et les réponses possibles mais ils n’étaient pas fournis par le client. Deux choix s’offraient à moi pour les récupérer : soit via le fichier PDF, soit directement via la page HTML. Je teste ici les deux possibilités d’extraction de données.

Continuer la lecture | en