Les outils de la Data Science : R

image

R est un logiciel d’analyse statistique open-source extrêmement populaire chez les statisticiens. Développé et maintenu par la communauté des utilisateurs, il dispose d’une librairie d’algorithmes contenue dans plus de 6000 packages disponibles gratuitement. Ces dernières années, de nombreux projets ont vu le jour pour adapter R aux problématiques actuelles de traitement et d’analyse de données. Cet article a pour objectif de présenter R et quelques opérations qu’il rend possible. Il donnera ensuite lieu à un autre article présentant les différents projets utilisant R sur des technologies Big Data, comme Hadoop ou Spark par exemple.

R est né en 1993 et a conquis le monde pour devenir l’outil le plus utilisé par les statisticiens. Il a donc un passé riche et c’est assez naturellement qu’on le retrouve dans beaucoup de projets autour des technologies Big Data. On peut notamment citer la collection de packages RHadoop permettant d’exécuter des algorithmes R sur Hadoop ou encore SparkR qui a le même rôle mais sur le framework Spark. Il est important de noter que la version 1.4 de Spark (prévue pour juin 2015) incluera une API R qui s’ajoutera aux trois APIs déjà existantes : Scala, Java et Python.

Installer R

Rien de sorcier pour installer R. Tout est indiqué sur le site du projet. C’est sur ce site que sont répertoriés et documentés tous les packages R. Pour Mac et Windows R s’installe comme tous les autres logiciels. Pour Linux une simple ligne de commande est nécessaire, mais différentes selon les distributions. Pour Red Hat :

1sudo yum install R

Pour Ubuntu :

1sudo apt-get install r-base

Pour chacun des OS, un environnement de développement différent par défaut est mis à disposition. Aucun d’entre eux n’est vraiment beau, user-friendly ou ergonomique. Pour les distributions Linux c’est en ligne de commande, pour les deux autres c’est un peu plus élaboré mais loin d’être agréable (pas de coloration syntaxique pour windows, une fenêtre par script ouvert etc…). Cet aspect a souvent été reproché à R et a longtemps été son gros point faible. Cependant depuis quelques années un IDE est sorti du lot et offre ainsi un environnement agréable pour développer : RStudio (disponible sur tous les systèmes d’exploitations). Nous ne pouvons que vous recommander de l’installer. Il existe une version gratuite ainsi que des offres entreprises. L’avantage de cet IDE est de disposer d’une version serveur permettant d’utiliser R via une interface web. Il permet d’avoir une bonne vision de tous les travaux en cours. L’écran est divisé en 4 fenêtres : les scripts et les tables sont en haut à gauche, la console en bas à gauche, toutes les variables sont listées en haut à droite et enfin la fenêtre inférieure droite contient les graphiques et la documentation.

Prendre en main R

R met à disposition une console interactive. Tout le code est exécuté via cette console. Il est possible (et indispensable) de développer ses programmes dans un fichier à part et de les exécuter ensuite. Le transfert de code entre le fichier et la console est plus ou moins pratique en fonction des IDE. Il est très simple et intuitif avec RStudio et l’IDE de Windows (Ctrl+R pour exécuter une ligne de code), l’est beaucoup moins avec celle d’OS X et n’existe pas du tout sur Linux (nécessité de faire un copier-coller du fichier vers la console).

Par Alban Phelip et Matthieu Blanc
http://blog.xebia.fr/2015/03/25/les-outils-de-la-data-science-r/

Publicités