Proč je Jupyter Notebook tak populární mezi datovými vědci

fpfcorp 11/10/2021 929

Jupyter Notebook, zrozený z IPythonu v roce 2014, zaznamenal nadšené přijetí mezi komunitou datové vědy do té míry, že se stal výchozím prostředím pro výzkum. Podle definice je Jupyter bezplatný interaktivní webový počítačový notebook s otevřeným zdrojovým kódem. Počítačové notebooky existují již několik let; Nicméně Jupyter, zvláště, explodoval v popularitě během posledních pár let. Tento šikovný nástroj podporuje vícejazyčné programování, a proto se stal de facto volbou pro datové vědce pro procvičování a sdílení různých kódů, rychlé prototypování a průzkumnou analýzu.

Ačkoli neexistuje nouze o jazykově specifická IDE (Integrated Development Environments), jako jsou PyCharm, Spyder nebo Atom, díky své flexibilitě a interaktivitě si Jupyter mezi vědci v oblasti dat explodoval. Jupyter Notebook také získal masivní trakci v rámci digitálních humanitních věd jako pedagogický nástroj. Podle analýzy GitHubu bylo spočítáno, že v září 2018 bylo sdíleno více než 2,5 milionu veřejných notebooků Jupyter, což je o 200 000 více než v roce 2015. Než se tedy hlouběji ponoříme do funkcí a výhod Jupyteru a proč je považován za nejlepší platformu pro datové vědce, diskutovali bychom o tom, co je Jupyter Notebook.

ZAREGISTRUJTE SE>>

Co je to notebook Jupyter?

Nepřímá zkratka tří jazyků — Julia, Python a R — Jupyter Notebook je klientská interaktivní webová aplikace, která uživatelům umožňuje vytvářet a sdílet kódy, rovnice, vizualizace a také text. Notebook je považován za vícejazyčné interaktivní výpočetní prostředí, které svým uživatelům podporuje více než 40 programovacích jazyků. S Jupyter Notebook mohou uživatelé vložit data, kód a prózu a vytvořit interaktivní výpočetní příběh.

Ať už chcete analyzovat sbírku psaného textu, vytvářet hudbu nebo umění nebo vyvíjet technické koncepty, Jupyter Notebook může kombinovat kódy a vysvětlení s interaktivitou aplikace. Díky tomu je užitečným nástrojem pro datové vědce pro zefektivnění koncových pracovních toků datové vědy.

Poznámkový blok Jupyter lze nainstalovat pomocí příkazu Python pip. A pokud používáte Anaconda, pak se automaticky nainstaluje jako součást instalace Anaconda. Skládá se ze tří komponent — aplikace notebooku, jader a dokumentů notebooku. Webová aplikace notebooku slouží k psaní a spouštění kódů interaktivním způsobem, avšak jádra řídí systém spouštěním a introspekcí uživatelských kódů. A za třetí, dokumenty notebooku jsou samostatné dokumenty veškerého obsahu viditelného v notebooku. Každý dokument v poznámkovém bloku má jádro, které jej řídí.

Podle Loreny Barba, mechanické a letecké inženýrky na Univerzitě George Washingtona ve Washingtonu DC pro vědce zabývající se daty, se Jupyter ukázal jako de-facto standard.

Účel notebooku Jupyter

Čištění dat

Statistické modelování

Školení modelů ML

Vizualizace dat

Proč je notebook Jupyter de facto volbou

Vzhledem k rostoucí popularitě softwaru s otevřeným zdrojovým kódem v tomto odvětví spolu s rychlým růstem datové vědy a strojového učení se notebook Jupyter stal mezi vědci v oblasti dat všudypřítomný. Kromě podpory vícejazyčného programování tato interaktivní webová počítačová platforma také podporuje buňky Markdown, což umožňuje podrobnější zápisy se snadným formátováním. S Jupyterem lze finální produkt exportovat jako soubor PDF nebo HTML, který lze prezentovat v prohlížeči nebo sdílet na webech, jako je GitHub. Poznámkové bloky Jupyter jsou uloženy ve strukturovaných textových souborech — JSON (JavaScript Object Notation) — což velmi usnadňuje sdílení.

Fernando Pérez, spoluzakladatel společnosti Jupyter, kdysi řekl, že růst společnosti Jupyter je způsoben vylepšeními webového softwaru, který pohání aplikace jako Gmail a Dokumenty Google, a snadností, s jakou usnadňuje přístup ke vzdáleným datům. jehož stahování by jinak mohlo být nepraktické. Dozrávání vědeckého Pythonu a datové vědy je dalším důvodem, proč tato platforma získává na síle.

Jupyter Notebooky navíc sehrály zásadní roli v demokratizaci datové vědy, čímž ji učinily dostupnější odstraněním překážek vstupu pro datové vědce.

Výhody

Ačkoli byl Jupyter vyvinut pro aplikace pro datovou vědu, které jsou napsány v jazycích jako Python, R a Julia, platforma se nyní v projektech používá všemi možnými způsoby. Kromě toho, odstraněním bariér pro datové vědce Jupyter výrazně zjednodušil dokumentaci, vizualizace dat a ukládání do mezipaměti, zejména pro hardcore netechnické lidi.

Příznivec datové vědy řekl: „Jupyter Notebook by měl být nedílnou součástí sady nástrojů každého vědce zabývajícího se daty v jazyce Python. Je to skvělé pro prototypování a sdílení notebooků s vizualizacemi.“

Pojďme tedy prozkoumat některé výhody.

Průzkumná analýza dat:

Jupyter umožňuje uživatelům zobrazit výsledky kódu in-line bez závislosti na jiných částech kódu. V poznámkovém bloku lze každou buňku kódu kdykoli potenciálně zkontrolovat a vykreslit výstup. Z tohoto důvodu, na rozdíl od jiných standardních IDE, jako je PyCHarm, VSCode, Jupyter pomáhá při in-line tisku výstupu, což se stává extrémně užitečné pro proces průzkumné analýzy dat (EDA).

Viz také

Koutek pro vývojáře

Příručka pro závaží a předpětí (Wandb) | S implementací Pythonu

Snadné ukládání do mezipaměti ve vestavěné jednotce:

Udržování stavu provádění každé buňky je obtížné, ale s Jupyterem se tato práce provádí automaticky. Jupyter ukládá do mezipaměti výsledky každé buňky, která běží – ať už jde o kód, který trénuje model ML, nebo kód, který stahuje gigabajty dat ze vzdáleného serveru.

Jazykově nezávislé:

Díky reprezentaci ve formátu JSON je Jupyter Notebook nezávislý na platformě a také na jazyce. Dalším důvodem je, že Jupyter může být zpracován v několika jazycích a může být převeden do libovolných formátů souborů, jako je Markdown, HTML, PDF a další.

Vizualizace dat:

Sdílený notebook Jupyter jako součást podporuje vizualizace a zahrnuje vykreslování některých datových sad, jako je grafika a grafy, které jsou generovány z kódů pomocí modulů jako Matplotlib, Plotly nebo Bokeh. Jupyter umožňuje uživatelům vyprávět vizualizace, sdílet kód a datové sady, což umožňuje ostatním interaktivní změny.

Interakce s kódem v reálném čase:

Jupyter Notebook používá balíčky „ipywidgets“, které poskytují standardní uživatelská rozhraní pro zkoumání interaktivity kódu a dat. A proto může být kód upravován uživateli a může být také odeslán k opětovnému spuštění, díky čemuž je Jupyterův kód nestatický. Umožňuje uživatelům ovládat vstupní zdroje kódu a poskytovat zpětnou vazbu přímo v prohlížeči.

Ukázky kódu dokumentace:

Jupyter uživatelům usnadňuje vysvětlování jejich kódů řádek po řádku s přiloženou zpětnou vazbou. Ještě lepší je, že s Jupyter mohou uživatelé přidávat interaktivitu spolu s vysvětleními, zatímco kód je plně funkční.

Výhled

Kombinací všech výše uvedených výhod Jupyter Notebooku je klíčovým bodem, který se objevil, že použití Jupyter je snadný způsob, jak vytvořit příběh s daty. Dnes se Jupyter zcela transformoval a vyrostl v ekosystém, kde rozumí – několik alternativních rozhraní notebooků, jako je JupyterLab a Hydrogen, interaktivní vizualizační knihovny a nástroje kompatibilní s notebooky.

Co si myslíte?

Připojte se k naší skupině telegramů. Staňte se součástí poutavé online komunity.

Připojte se zde

.

Přihlaste se k odběru našeho newsletteru

Sdílejte svůj e-mail a získejte nejnovější aktualizace a relevantní nabídky.

Nejnovější: Proč byste měli používat notebooky Jupyter

Další: Proč já nepoužívám notebook Jupyter a vy byste také neměli