Getting Started with Impala

Interactive SQL for Apache Hadoop

Author: John Russell

Publisher: "O'Reilly Media, Inc."

ISBN: 1491905743

Category: Computers

Page: 152

View: 7805

Learn how to write, tune, and port SQL queries and other statements for a Big Data environment, using Impala—the massively parallel processing SQL query engine for Apache Hadoop. The best practices in this practical guide help you design database schemas that not only interoperate with other Hadoop components, and are convenient for administers to manage and monitor, but also accommodate future expansion in data size and evolution of software capabilities. Written by John Russell, documentation lead for the Cloudera Impala project, this book gets you working with the most recent Impala releases quickly. Ideal for database developers and business analysts, the latest revision covers analytics functions, complex types, incremental statistics, subqueries, and submission to the Apache incubator. Getting Started with Impala includes advice from Cloudera’s development team, as well as insights from its consulting engagements with customers. Learn how Impala integrates with a wide range of Hadoop components Attain high performance and scalability for huge data sets on production clusters Explore common developer tasks, such as porting code to Impala and optimizing performance Use tutorials for working with billion-row tables, date- and time-based values, and other techniques Learn how to transition from rigid schemas to a flexible model that evolves as needs change Take a deep dive into joins and the roles of statistics
Release

Handbook of Research on Big Data Storage and Visualization Techniques

Author: Segall, Richard S.,Cook, Jeffrey S.

Publisher: IGI Global

ISBN: 1522531432

Category: Computers

Page: 917

View: 2188

The digital age has presented an exponential growth in the amount of data available to individuals looking to draw conclusions based on given or collected information across industries. Challenges associated with the analysis, security, sharing, storage, and visualization of large and complex data sets continue to plague data scientists and analysts alike as traditional data processing applications struggle to adequately manage big data. The Handbook of Research on Big Data Storage and Visualization Techniques is a critical scholarly resource that explores big data analytics and technologies and their role in developing a broad understanding of issues pertaining to the use of big data in multidisciplinary fields. Featuring coverage on a broad range of topics, such as architecture patterns, programing systems, and computational energy, this publication is geared towards professionals, researchers, and students seeking current research and application topics on the subject.
Release

Getting Started with Kudu

Perform Fast Analytics on Fast Data

Author: Jean-Marc Spaggiari,Mladen Kovacevic,Brock Noland,Ryan Bosshart

Publisher: "O'Reilly Media, Inc."

ISBN: 1491980206

Category: Computers

Page: 156

View: 3576

Fast data ingestion, serving, and analytics in the Hadoop ecosystem have forced developers and architects to choose solutions using the least common denominator—either fast analytics at the cost of slow data ingestion or fast data ingestion at the cost of slow analytics. There is an answer to this problem. With the Apache Kudu column-oriented data store, you can easily perform fast analytics on fast data. This practical guide shows you how. Begun as an internal project at Cloudera, Kudu is an open source solution compatible with many data processing frameworks in the Hadoop environment. In this book, current and former solutions professionals from Cloudera provide use cases, examples, best practices, and sample code to help you get up to speed with Kudu. Explore Kudu’s high-level design, including how it spreads data across servers Fully administer a Kudu cluster, enable security, and add or remove nodes Learn Kudu’s client-side APIs, including how to integrate Apache Impala, Spark, and other frameworks for data manipulation Examine Kudu’s schema design, including basic concepts and primitives necessary to make your project successful Explore case studies for using Kudu for real-time IoT analytics, predictive modeling, and in combination with another storage engine
Release

Datenanalyse mit Python

Auswertung von Daten mit Pandas, NumPy und IPython

Author: Wes McKinney

Publisher: O'Reilly

ISBN: 3960102143

Category: Computers

Page: 542

View: 4588

Erfahren Sie alles über das Manipulieren, Bereinigen, Verarbeiten und Aufbereiten von Datensätzen mit Python: Aktualisiert auf Python 3.6, zeigt Ihnen dieses konsequent praxisbezogene Buch anhand konkreter Fallbeispiele, wie Sie eine Vielzahl von typischen Datenanalyse-Problemen effektiv lösen. Gleichzeitig lernen Sie die neuesten Versionen von pandas, NumPy, IPython und Jupyter kennen.Geschrieben von Wes McKinney, dem Begründer des pandas-Projekts, bietet Datenanalyse mit Python einen praktischen Einstieg in die Data-Science-Tools von Python. Das Buch eignet sich sowohl für Datenanalysten, für die Python Neuland ist, als auch für Python-Programmierer, die sich in Data Science und Scientific Computing einarbeiten wollen. Daten und zugehöriges Material des Buchs sind auf GitHub verfügbar.Aus dem Inhalt:Nutzen Sie die IPython-Shell und Jupyter Notebook für das explorative ComputingLernen Sie Grundfunktionen und fortgeschrittene Features von NumPy kennenSetzen Sie die Datenanalyse-Tools der pandasBibliothek einVerwenden Sie flexible Werkzeuge zum Laden, Bereinigen, Transformieren, Zusammenführen und Umformen von DatenErstellen Sie interformative Visualisierungen mit matplotlibWenden Sie die GroupBy-Mechanismen von pandas an, um Datensätzen zurechtzuschneiden, umzugestalten und zusammenzufassenAnalysieren und manipulieren Sie verschiedenste Zeitreihen-DatenFür diese aktualisierte 2. Auflage wurde der gesamte Code an Python 3.6 und die neuesten Versionen der pandas-Bibliothek angepasst. Neu in dieser Auflage: Informationen zu fortgeschrittenen pandas-Tools sowie eine kurze Einführung in statsmodels und scikit-learn.
Release

Programmieren mit Scala

Author: Dean Wampler,Alex Payne

Publisher: O'Reilly Germany

ISBN: 3897216485

Category: Computers

Page: 480

View: 1704

Sie ist elegant, schlank, modern und flexibel: Die Rede ist von Scala, der neuen Programmiersprache für die Java Virtual Machine (JVM). Sie vereint die Vorzüge funktionaler und objektorientierter Programmierung, ist typsicherer als Java, lässt sich nahtlos in die Java-Welt integrieren – und eine in Scala entwickelte Anwendung benötigt oft nur einen Bruchteil der Codezeilen ihres Java-Pendants. Kein Wunder, dass immer mehr Firmen, deren große, geschäftskritische Anwendungen auf Java basieren, auf Scala umsteigen, um ihre Produktivität und die Skalierbarkeit ihrer Software zu erhöhen. Das wollen Sie auch? Dann lassen Sie sich von den Scala-Profis Dean Wampler und Alex Payne zeigen, wie es geht. Ihre Werkzeugkiste: Schon bevor Sie loslegen, sind Sie weiter, als Sie denken: Sie können Ihre Java-Programme weiter verwenden, Java-Bibliotheken nutzen, Java von Scala aus aufrufen und Scala von Java aus. Auch Ihre bevorzugten Entwicklungswerkzeuge wie NetBeans, IntelliJ IDEA oder Eclipse stehen Ihnen weiter zur Verfügung, dazu Kommandozeilen-Tools, Plugins für Editoren, Werkzeuge von Drittanbietern – und natürlich Ihre Programmiererfahrung. In Programmieren mit Scala erfahren Sie, wie Sie sich all das zunutze machen. Das Hybridmodell: Die Paradigmen "funktional" und "objektorientiert" sind keine Gegensätze, sondern ergänzen sich unter dem Scala-Dach zu einem sehr produktiven Ganzen. Nutzen Sie die Vorteile funktionaler Programmierung, wann immer sich das anbietet – und seien Sie so frei, auf die guten alten Seiteneffekte zu bauen, wenn Sie das für nötig halten. Futter für die Profis: Skalierbare Nebenläufigkeit mit Aktoren, Aufzucht und Pflege von XML mit Scala, Domainspezifische Sprachen, Tipps zum richtigen Anwendungsdesign – das sind nur ein paar der fortgeschrittenen Themen, in die Sie mit den beiden Autoren eintauchen. Danach sind Sie auch Profi im Programmieren mit Scala.
Release

Big Data

Die Revolution, die unser Leben verändern wird

Author: Viktor Mayer-Schönberger,Viktor; Cukier Mayer-Schönberger

Publisher: Redline Wirtschaft

ISBN: 3864144590

Category: Political Science

Page: 288

View: 5724

Ob Kaufverhalten, Grippewellen oder welche Farbe am ehesten verrät, ob ein Gebrauchtwagen in einem guten Zustand ist – noch nie gab es eine solche Menge an Daten und noch nie bot sich die Chance, durch Recherche und Kombination in der Daten¬flut blitzschnell Zusammenhänge zu entschlüsseln. Big Data bedeutet nichts weniger als eine Revolution für Gesellschaft, Wirtschaft und Politik. Es wird die Weise, wie wir über Gesundheit, Erziehung, Innovation und vieles mehr denken, völlig umkrempeln. Und Vorhersagen möglich machen, die bisher undenkbar waren. Die Experten Viktor Mayer-Schönberger und Kenneth Cukier beschreiben in ihrem Buch, was Big Data ist, welche Möglichkeiten sich eröffnen, vor welchen Umwälzungen wir alle stehen – und verschweigen auch die dunkle Seite wie das Ausspähen von persönlichen Daten und den drohenden Verlust der Privatsphäre nicht.
Release

Apache Superset Quick Start Guide

Develop interactive visualizations by creating user-friendly dashboards

Author: Shashank Shekhar

Publisher: Packt Publishing Ltd

ISBN: 1788999568

Category: Computers

Page: 188

View: 6679

Integrate open source data analytics and build business intelligence on SQL databases with Apache Superset. The quick, intuitive nature for data visualization in a web application makes it easy for creating interactive dashboards. Key Features Work with Apache Superset's rich set of data visualizations Create interactive dashboards and data storytelling Easily explore data Book Description Apache Superset is a modern, open source, enterprise-ready business intelligence (BI) web application. With the help of this book, you will see how Superset integrates with popular databases like Postgres, Google BigQuery, Snowflake, and MySQL. You will learn to create real time data visualizations and dashboards on modern web browsers for your organization using Superset. First, we look at the fundamentals of Superset, and then get it up and running. You'll go through the requisite installation, configuration, and deployment. Then, we will discuss different columnar data types, analytics, and the visualizations available. You'll also see the security tools available to the administrator to keep your data safe. You will learn how to visualize relationships as graphs instead of coordinates on plain orthogonal axes. This will help you when you upload your own entity relationship dataset and analyze the dataset in new, different ways. You will also see how to analyze geographical regions by working with location data. Finally, we cover a set of tutorials on dashboard designs frequently used by analysts, business intelligence professionals, and developers. What you will learn Get to grips with the fundamentals of data exploration using Superset Set up a working instance of Superset on cloud services like Google Compute Engine Integrate Superset with SQL databases Build dashboards with Superset Calculate statistics in Superset for numerical, categorical, or text data Understand visualization techniques, filtering, and grouping by aggregation Manage user roles and permissions in Superset Work with SQL Lab Who this book is for This book is for data analysts, BI professionals, and developers who want to learn Apache Superset. If you want to create interactive dashboards from SQL databases, this book is what you need. Working knowledge of Python will be an advantage but not necessary to understand this book.
Release

Rechnergestützte Gruppenarbeit

Eine Einführung in Verteilte Anwendungen

Author: Uwe M. Borghoff,Johann H. Schlichter

Publisher: Springer-Verlag

ISBN: 3642588379

Category: Computers

Page: 559

View: 680

Groupware und CSCW (Computer Supported Cooperative Work) sind "Dauerbrenner" in der internationalen Informatikszene. Dieses in der 2. Auflage vollständig überarbeitete und erweiterte Lehrbuch zeigt ihre vielfältigen Nutzungsmöglichkeiten, aber auch die Risiken auf. Rechnergestützte Gruppenarbeit, d.h. Rechnerunterstützung für Gruppen von Personen, die gemeinsam an einem Problem arbeiten, aber möglicherweise räumlich und zeitlich verteilt sind, ist eine synergetische Anwendung der Gebiete Verteilte Systeme und (Multimedia-)Kommunikation wie auch von Informationswissenschaften, Soziologie und Organisationstheorie. Angesprochen sind daher Studierende und Forscher dieser Fachrichtungen sowie Anwender und Entwickler von Systemen, bei denen Kommunikation und Kooperation einer Gruppe vorrangig sind.
Release

Algorithmen - Eine Einführung

Author: Thomas H. Cormen,Charles E. Leiserson,Ronald Rivest,Clifford Stein

Publisher: Walter de Gruyter GmbH & Co KG

ISBN: 3110522012

Category: Computers

Page: 1339

View: 1608

Der "Cormen" bietet eine umfassende und vielseitige Einführung in das moderne Studium von Algorithmen. Es stellt viele Algorithmen Schritt für Schritt vor, behandelt sie detailliert und macht deren Entwurf und deren Analyse allen Leserschichten zugänglich. Sorgfältige Erklärungen zur notwendigen Mathematik helfen, die Analyse der Algorithmen zu verstehen. Den Autoren ist es dabei geglückt, Erklärungen elementar zu halten, ohne auf Tiefe oder mathematische Exaktheit zu verzichten. Jedes der weitgehend eigenständig gestalteten Kapitel stellt einen Algorithmus, eine Entwurfstechnik, ein Anwendungsgebiet oder ein verwandtes Thema vor. Algorithmen werden beschrieben und in Pseudocode entworfen, der für jeden lesbar sein sollte, der schon selbst ein wenig programmiert hat. Zahlreiche Abbildungen verdeutlichen, wie die Algorithmen arbeiten. Ebenfalls angesprochen werden Belange der Implementierung und andere technische Fragen, wobei, da Effizienz als Entwurfskriterium betont wird, die Ausführungen eine sorgfältige Analyse der Laufzeiten der Programme mit ein schließen. Über 1000 Übungen und Problemstellungen und ein umfangreiches Quellen- und Literaturverzeichnis komplettieren das Lehrbuch, dass durch das ganze Studium, aber auch noch danach als mathematisches Nachschlagewerk oder als technisches Handbuch nützlich ist. Für die dritte Auflage wurde das gesamte Buch aktualisiert. Die Änderungen sind vielfältig und umfassen insbesondere neue Kapitel, überarbeiteten Pseudocode, didaktische Verbesserungen und einen lebhafteren Schreibstil. So wurden etwa - neue Kapitel zu van-Emde-Boas-Bäume und mehrfädigen (engl.: multithreaded) Algorithmen aufgenommen, - das Kapitel zu Rekursionsgleichungen überarbeitet, sodass es nunmehr die Teile-und-Beherrsche-Methode besser abdeckt, - die Betrachtungen zu dynamischer Programmierung und Greedy-Algorithmen überarbeitet; Memoisation und der Begriff des Teilproblem-Graphen als eine Möglichkeit, die Laufzeit eines auf dynamischer Programmierung beruhender Algorithmus zu verstehen, werden eingeführt. - 100 neue Übungsaufgaben und 28 neue Problemstellungen ergänzt. Umfangreiches Dozentenmaterial (auf englisch) ist über die Website des US-Verlags verfügbar.
Release

Die Berechnung der Zukunft

Warum die meisten Prognosen falsch sind und manche trotzdem zutreffen - Der New York Times Bestseller

Author: Nate Silver

Publisher: Heyne Verlag

ISBN: 3641112702

Category: Business & Economics

Page: 656

View: 9177

Zuverlässige Vorhersagen sind doch möglich! Nate Silver ist der heimliche Gewinner der amerikanischen Präsidentschaftswahlen 2012: ein begnadeter Statistiker, als »Prognose-Popstar« und »Wundernerd« weltberühmt geworden. Er hat die Wahlergebnisse aller 50 amerikanischen Bundesstaaten absolut exakt vorausgesagt – doch damit nicht genug: Jetzt zeigt Nate Silver, wie seine Prognosen in Zukunft Terroranschläge, Umweltkatastrophen und Finanzkrisen verhindern sollen. Gelingt ihm die Abschaffung des Zufalls? Warum werden Wettervorhersagen immer besser, während die Terrorattacken vom 11.09.2001 niemand kommen sah? Warum erkennen Ökonomen eine globale Finanzkrise nicht einmal dann, wenn diese bereits begonnen hat? Das Problem ist nicht der Mangel an Informationen, sondern dass wir die verfügbaren Daten nicht richtig deuten. Zuverlässige Prognosen aber würden uns helfen, Zufälle und Ungewissheiten abzuwehren und unser Schicksal selbst zu bestimmen. Nate Silver zeigt, dass und wie das geht. Erstmals wendet er seine Wahrscheinlichkeitsrechnung nicht nur auf Wahlprognosen an, sondern auf die großen Probleme unserer Zeit: die Finanzmärkte, Ratingagenturen, Epidemien, Erdbeben, den Klimawandel, den Terrorismus. In all diesen Fällen gibt es zahlreiche Prognosen von Experten, die er überprüft – und erklärt, warum sie meist falsch sind. Gleichzeitig schildert er, wie es gelingen kann, im Rauschen der Daten die wesentlichen Informationen herauszufiltern. Ein unterhaltsamer und spannender Augenöffner!
Release

Struktur Und Interpretation Von Computerprogrammen/ Structure and Interpretation of Computer Programs

Eine Informatik-einfhrung/ a Computer Science Introduction

Author: Harold Abelson,Julie Sussman,Gerald Jay Sussman

Publisher: Springer

ISBN: 9783540423423

Category: Computers

Page: 682

View: 6927

Die Übersetzung der bewährten Einführung in die Informatik, entstanden am Massachusetts Institute of Technology (MIT), wird seit Jahren erfolgreich in der Lehre eingesetzt. Schritt für Schritt werden Konstruktion und Abstraktion von Daten und Prozeduren dargestellt. Von der Modularisierung bis zum Problemlösen mit Registermaschinen werden verschiedene Programmierparadigmen entwickelt und die effektive Handhabung von Komplexität gezeigt. Als Programmiersprache wird SCHEME verwendet, ein Dialekt von LISP. Alle Programme laufen in jeder dem IEEE-Standard entsprechenden SCHEME-Implementierung.
Release

Milliardär per Zufall

die Gründung von Facebook - eine Geschichte über Sex, Geld, Freundschaft und Betrug

Author: Ben Mezrich

Publisher: N.A

ISBN: 9783868812176

Category:

Page: 278

View: 1532

Romanhaft ausgeschmückte Geschichte der Gründung und Entwicklung des sozialen Netzwerks äFacebookä. Hauptperson: der mehrfache Milliardär Mark Zuckerberg.
Release

Statistik-Workshop für Programmierer

Author: Allen B. Downey

Publisher: O'Reilly Germany

ISBN: 3868993436

Category: Computers

Page: 160

View: 3725

Wenn Sie programmieren können, beherrschen Sie bereits Techniken, um aus Daten Wissen zu extrahieren. Diese kompakte Einführung in die Statistik zeigt Ihnen, wie Sie rechnergestützt, anstatt auf mathematischem Weg Datenanalysen mit Python durchführen können. Praktischer Programmier-Workshop statt grauer Theorie: Das Buch führt Sie anhand eines durchgängigen Fallbeispiels durch eine vollständige Datenanalyse -- von der Datensammlung über die Berechnung statistischer Kennwerte und Identifikation von Mustern bis hin zum Testen statistischer Hypothesen. Gleichzeitig werden Sie mit statistischen Verteilungen, den Regeln der Wahrscheinlichkeitsrechnung, Visualisierungsmöglichkeiten und vielen anderen Arbeitstechniken und Konzepten vertraut gemacht. Statistik-Konzepte zum Ausprobieren: Entwickeln Sie über das Schreiben und Testen von Code ein Verständnis für die Grundlagen von Wahrscheinlichkeitsrechnung und Statistik: Überprüfen Sie das Verhalten statistischer Merkmale durch Zufallsexperimente, zum Beispiel indem Sie Stichproben aus unterschiedlichen Verteilungen ziehen. Nutzen Sie Simulationen, um Konzepte zu verstehen, die auf mathematischem Weg nur schwer zugänglich sind. Lernen Sie etwas über Themen, die in Einführungen üblicherweise nicht vermittelt werden, beispielsweise über die Bayessche Schätzung. Nutzen Sie Python zur Bereinigung und Aufbereitung von Rohdaten aus nahezu beliebigen Quellen. Beantworten Sie mit den Mitteln der Inferenzstatistik Fragestellungen zu realen Daten.
Release

Data Science für Dummies

Author: Lillian Pierson

Publisher: John Wiley & Sons

ISBN: 352780675X

Category: Mathematics

Page: 382

View: 1798

Daten, Daten, Daten? Sie haben schon Kenntnisse in Excel und Statistik, wissen aber noch nicht, wie all die Datensätze helfen sollen, bessere Entscheidungen zu treffen? Von Lillian Pierson bekommen Sie das dafür notwendige Handwerkszeug: Bauen Sie Ihre Kenntnisse in Statistik, Programmierung und Visualisierung aus. Nutzen Sie Python, R, SQL, Excel und KNIME. Zahlreiche Beispiele veranschaulichen die vorgestellten Methoden und Techniken. So können Sie die Erkenntnisse dieses Buches auf Ihre Daten übertragen und aus deren Analyse unmittelbare Schlüsse und Konsequenzen ziehen.
Release

Angewandte Kryptographie

Protokolle, Algorithmen und Sourcecode in C

Author: Bruce Schneier

Publisher: N.A

ISBN: 9783827372284

Category: Computer security

Page: 844

View: 8438

Release

Routineaufgaben mit Python automatisieren

Praktische Programmierlösungen für Einsteiger

Author: Al Sweigart

Publisher: dpunkt.verlag

ISBN: 3864919932

Category: Computers

Page: 576

View: 4338

Wenn Sie jemals Stunden damit verbracht haben, Dateien umzubenennen oder Hunderte von Tabelleneinträgen zu aktualisieren, dann wissen Sie, wie stumpfsinnig manche Tätigkeiten sein können. Wie wäre es, den Computer dazu zu bringen, diese Arbeiten zu übernehmen? In diesem Buch lernen Sie, wie Sie mit Python Aufgaben in Sekundenschnelle erledigen können, die sonst viel Zeit in Anspruch nehmen würden. Programmiererfahrung brauchen Sie dazu nicht: Wenn Sie einmal die Grundlagen gemeistert haben, werden Sie Python-Programme schreiben, die automatisch alle möglichen praktischen Aufgaben für Sie abarbeiten: • eine oder eine Vielzahl von Dateien nach Texten durchsuchen • Dateien und Ordner erzeugen, aktualisieren, verschieben und umbenennen • das Web durchsuchen und Inhalte herunterladen • Excel-Dateien aktualisieren und formatieren • PDF-Dateien teilen, zusammenfügen, mit Wasserzeichen versehen und verschlüsseln • Erinnerungsmails und Textnachrichten verschicken • Online-Formulare ausfüllen Schritt-für-Schritt-Anleitungen führen Sie durch jedes Programm und Übungsaufgaben am Ende jedes Kapitels fordern Sie dazu auf, die Programme zu verbessern und Ihre Fähigkeiten auf ähnliche Problemstellungen zu richten. Verschwenden Sie nicht Ihre Zeit mit Aufgaben, die auch ein gut dressierter Affe erledigen könnte. Bringen Sie Ihren Computer dazu, die langweilige Arbeit zu machen!
Release

Programmieren lernen mit Python

Author: Allen B. Downey

Publisher: O'Reilly Germany

ISBN: 3868999477

Category: Computers

Page: 312

View: 2116

Python ist eine moderne, interpretierte, interaktive und objektorientierte Skriptsprache, vielseitig einsetzbar und sehr beliebt. Mit mathematischen Vorkenntnissen ist Python leicht erlernbar und daher die ideale Sprache für den Einstieg in die Welt des Programmierens. Das Buch führt Sie Schritt für Schritt durch die Sprache, beginnend mit grundlegenden Programmierkonzepten, über Funktionen, Syntax und Semantik, Rekursion und Datenstrukturen bis hin zum objektorientierten Design. Jenseits reiner Theorie: Jedes Kapitel enthält passende Übungen und Fallstudien, kurze Verständnistests und kleinere Projekte, an denen Sie die neu erlernten Programmierkonzepte gleich ausprobieren und festigen können. Auf diese Weise können Sie das Gelernte direkt anwenden und die jeweiligen Programmierkonzepte nachvollziehen. Lernen Sie Debugging-Techniken kennen: Am Ende jedes Kapitels finden Sie einen Abschnitt zum Thema Debugging, der Techniken zum Aufspüren und Vermeiden von Bugs sowie Warnungen vor entsprechenden Stolpersteinen in Python enthält. Starten Sie durch: Beginnen Sie mit den Grundlagen der Programmierung und den verschiedenen Programmierkonzepten, und lernen Sie, wie ein Informatiker zu programmieren.
Release