Proč byste měli používat notebooky Jupyter

fpfcorp 08/10/2021 5004

Strojové učení

Modelování

jupyter

přidal

Daniel Gutierrez, ODSC

23. června 2020

Daniel Gutierrez, ODSC

jupyter

Tento článek poskytuje přehled na vysoké úrovni o projektu Jupyter a široce oblíbené technologii notebooků Jupyter. Zastřešující zpráva, kterou bych chtěl...

Tento článek poskytuje přehled na vysoké úrovni

Projekt Jupyter

a široce oblíbená technologie notebooků Jupyter. Zastřešující zpráva, kterou bych chtěl sdělit, je důvod, proč byste měli používat Jupyter pro své projekty v oblasti datové vědy. Používám ho pro veškerou svou práci se strojovým učením Pythonu a jsem docela ohromen a spokojen. Je to skvělé prostředí pro vývoj kódu a také pro komunikaci výsledků.

Projekt Jupyter

je nezisková organizace vytvořená za účelem „vývoje softwaru s otevřeným zdrojovým kódem, otevřených standardů a služeb pro interaktivní výpočty v desítkách programovacích jazyků“. Projekt Jupyter, vyčleněný z IPythonu v roce 2014 spoluzakladatelem Fernandem Pérezem, podporuje spouštěcí prostředí v několika desítkách jazyků.

Název „Jupyter“ byl vybrán, aby připomněl myšlenky a tradice vědy a vědecké metody. Kromě toho jsou hlavními programovacími jazyky podporovanými Jupyterem Julia, Python a R. I když název Jupyter není přímou zkratkou pro tyto jazyky (Julia (Ju), Python (Py) a R), vytváří pevné spojení s jim.

Poznámkové bloky Jupyter

Jupyter Notebook je webová aplikace s otevřeným zdrojovým kódem, která umožňuje datovým vědcům vytvářet a sdílet dokumenty, které integrují kód v reálném čase, rovnice, výpočetní výstup, vizualizaci a další multimediální zdroje a vysvětlující text do jednoho dokumentu. Notebooky Jupyter můžete používat pro různé úkoly v oblasti datové vědy, včetně čištění a transformace dat, numerické simulace, průzkumné analýzy dat, vizualizace dat, statistického modelování, strojového učení, hlubokého učení a dalších.

Jupyter Notebook vám poskytuje snadno použitelné interaktivní prostředí pro vědu o datech, které nefunguje pouze jako integrované vývojové prostředí (IDE), ale také jako prezentační nebo vzdělávací nástroj. Jupyter je způsob práce s Pythonem ve virtuálním „notebooku“ a jeho popularita u datových vědců roste z velké části díky jeho flexibilitě. Poskytuje vám způsob, jak kombinovat kód, obrázky, grafy, komentáře atd. v souladu s krokem „procesu datové vědy“. Dále je to forma interaktivního počítání, prostředí, ve kterém uživatelé spouštějí kód, sledují, co se děje, upravují a opakují v určitém druhu iterativní konverzace mezi datovým vědcem a daty. Datoví vědci mohou také používat notebooky k vytváření výukových programů nebo interaktivních příruček pro svůj software. Zde je krátký návod

video

abychom vám pomohli začít s Juypterem.

Poznámkový blok Jupyter má dvě součásti. Nejprve datoví vědci zadají programovací kód nebo text v obdélníkových „buňkách“ na front-endové webové stránce. Prohlížeč pak předá kód back-endovému „jádru“, které spustí kód a vrátí výsledky. Bylo vytvořeno mnoho jader Jupyter, které podporují desítky programovacích jazyků. Jádra nemusí být umístěna v počítači datového vědce. Notebooky lze také provozovat v cloudu, jako je projekt Google Collaboratory. Jupyter můžete dokonce spustit bez přístupu k síti přímo na svém vlastním počítači a provádět svou práci lokálně.

Další nástroje Jupyter

JupyterLab (původně spuštěný ve verzi beta v lednu 2018) je běžně považován za uživatelské rozhraní nové generace pro Project Jupyter, které nabízí všechny známé stavební bloky klasického notebooku Jupyter (notebook, terminál, textový editor, prohlížeč souborů, bohaté výstupy atd.) ve flexibilním a výkonnějším uživatelském rozhraní

Základní myšlenkou Jupyter Lab je přinést všechny stavební bloky, které jsou v klasickém notebooku, plus nějaké nové věci pod jednou střechou. JupyterLab rozšiřuje známou metaforu notebooku o funkci přetahování a také prohlížeče souborů, prohlížeče dat, textové editory a příkazovou konzoli. Zatímco standardní notebook Jupyter přiřazuje každému notebooku vlastní jádro, JupyterLab vytváří výpočetní prostředí, které umožňuje tyto komponenty sdílet. Datový vědec tak mohl v jednom okně zobrazit notebook, v jiném upravit požadovaný datový soubor a ve třetím zaznamenat všechny provedené příkazy – to vše v jediném rozhraní webového prohlížeče.

Příklad JupyterLab

Použitelnost Jupyteru obohatily dva další nástroje. Jedním z nich je JuputerHub, služba, která institucím umožňuje poskytovat notebooky Jupyter velkým skupinám uživatelů. Druhým je Binder, open-source služba, která umožňuje datovým vědcům používat notebooky Jupyter na GitHubu ve webovém prohlížeči, aniž by museli instalovat software nebo jakékoli programovací knihovny.

Platformy využívající Jupyter

Proč byste měli používat notebooky Jupyter

Oblíbenost Jupyteru přesahuje jeho použití jako samostatného nástroje, je také integrován s řadou platforem, které vědci v oblasti dat znají.

Anaconda je předbalená distribuce Pythonu, která obsahuje řadu modulů a balíčků Pythonu, včetně Jupyter. Ve skutečnosti je Anaconda doporučenou distribucí při instalaci Jupyter. Takto používám Jupyter, protože mě baví flexibilita, kterou nabízí Anaconda Navigator a možnost definovat řadu různých „prostředí“ s různými frameworky, jako je TensorFlow, různé verze Pythonu atd.

Kaggle Kernels

jsou v podstatě notebooky Jupyter spuštěné v prohlížeči, což znamená, že si můžete ušetřit starosti s nastavováním místního prostředí tím, že budete mít prostředí notebooku Jupyter ve svém prohlížeči a budete jej používat kdekoli na světě, kde máte připojení k internetu.

Colab

notebooky

jsou Jupyter

notebooky hostované službou Google Colab. Colab umožňuje uživatelům spolupracovat a spouštět kód, který využívá cloudové zdroje Google, tj. GPU, TPU, a ukládání dokumentů na Disk Google.

Amazon SageMaker

Instance notebooku je plně spravovaná výpočetní instance EC2 pro strojové učení, na které je spuštěna aplikace Jupyter Notebook. Instanci poznámkového bloku slouží k vytváření a správě poznámkových bloků Jupyter, které můžete použít k přípravě a zpracování dat a k trénování a nasazení modelů strojového učení.

Konečně je jich mnoho

příklady

notebooků Jupyter dostupných na GitHubu (jejich prohlížení je dobrý způsob, jak zjistit, co je možné). V současnosti existuje více než 3 miliony veřejných notebooků, oproti ~200 000 v roce 2015.

Závěr

Pro datové vědce se Jupyter v posledních letech ukázal jako de facto standard. Migrace je pravděpodobně nejrychlejší na platformu v nedávné paměti. Většina výzkumných prací ML/DL objevujících se na předtiskovém serveru arXiv.prg odkazuje na notebooky Jupyter, které jsou dobře integrovány do výzkumu pomocí rámců hlubokého učení, jako jsou TensorFlow a PyTorch. Krása Jupyteru je v tom, že vytváří výpočtový příběh, dokument, který umožňuje výzkumníkům doplnit jejich kód a data analýzou, hypotézami a domněnkami. Pro datové vědce může tento formát podporovat kreativní průzkum. Pokud jste se ještě nepodívali na technologii Jupyter, je nejvyšší čas tak učinit!

Zajímá vás další informace o strojovém učení? Podívejte se na tyto

Školení Ai+

Základy strojového učení: Lineární algebra

Tento první díl série Machine Learning Foundations je tématem většiny přístupů strojového učení. Prostřednictvím kombinace teorie a interaktivních příkladů získáte porozumění tomu, jak se lineární algebra používá k řešení neznámých hodnot ve vysokodimenzionálních prostorech, což umožňuje strojům rozpoznávat vzory a vytvářet předpovědi.

Série strojového učení pod dohledem

Anotace dat v měřítku: Aktivní a částečně řízené učení v Pythonu

Vysvětlení a interpretace modelů zesílení gradientu ve strojovém učení

ODSC West 2020: Srozumitelnost v průběhu životního cyklu strojového učení

Neustále nasazované strojové učení

O autorovi

Daniel Gutierrez, ODSC

Daniel D. Gutierrez je praktikující datový vědec, který pracoval s daty dlouho předtím, než tato oblast přišla do módy. Jako technologického novináře rád sleduje tento rychle se rozvíjející průmysl. Daniel je také pedagog, který vyučoval datovou vědu, strojové učení a R třídy na univerzitní úrovni. Je autorem čtyř knih o počítačovém průmyslu o databázové a datové technologii, včetně jeho nejnovějšího titulu „Strojové učení a datová věda: Úvod do statistických metod učení s R“. Daniel má titul bakaláře z matematiky a informatiky na UCLA.

Nejnovější: 10 důvodů, proč datoví vědci milují notebooky Jupyter

Další: Proč je Jupyter Notebook tak populární mezi datovými vědci

proč jupyter notebook