Klare Empfehlung!
Ein Titel, der bei jedem Data Scientist im virtuellen Buchregal stehen sollte:
Das Buch ist eine wunderbare Sammlung wichtiger Tools, die in der täglichen Arbeit mit Daten sinnvoll einsetzbar sind.
Ob Datenquellen, Daten extrahieren und säubern oder übersichtlich darstellen, das Kompendium lässt keine Wünsche offen. Die Tools auf der Kommandozeilenebene werden kurz dargestellt und mit interessanten Anwendungsbeispielen angereichert. Dabei stehen zwar R, Python und Datenbanken im Mittelpunkt, bleiben aber nicht alleine. Selbst die recht junge Analysesprache Julia wird berücksichtigt. Klassiker wie Awk, Curl und natürlich die einfache Shell Programmierung werden in den für die Datenanalyse hilfreichen Kontext eingebettet. Nicht zu kurz kommt die Arbeit mit verschiedenen Datenformaten, wobei dem Klassiker CSV viel Raum eingeräumt wird. Zu wessen täglichen Brot es gehört, mit Exceldateien zu arbeiten, findet hier interessante Tipss, auch diese am Prompt zu bearbeiten.
Absolutes Schmankerl: eine Vagrantbox mit der Sammlung aller erwähnten Tools steht zum Download bereit, so dass man sofort loslegen kann.
Hier findet selbst der geübte terminalfixierte Data Scientist noch nette Tipps. Im Wahn der bunten Oberflächen und abstrahierenden GUIs sind Alltagsprobleme oftmals immer noch am schnellsten direkt im Motorraum zu lösen. Da jedes Betriebssystem inzwischen einigermaßen einheitlich Operationen auf dieser Ebene zulässt und die allermeisten Produkte aus diesem Bereich unter die GNU Lizenz fallen, gehört der tägliche Griff in die Toolbox bei den meisten Data Scientists zum Arbeitsalltag.
Data Science on the command line ist bei Amazon erhältlich. Als E-Buch mit Adobe DRM Sicherung ist es bei Thalia erhältlich.