Защо Jupyter Notebook е толкова популярен сред специалистите по данни

fpfcorp 11/10/2021 1207

Роден от IPython през 2014 г., Jupyter Notebook видя ентусиазирано приемане сред общността на науката за данни до степен, в която се превърна в среда по подразбиране за изследвания. По дефиниция Jupyter е безплатен интерактивен уеб базиран изчислителен бележник с отворен код. Изчислителните тетрадки съществуват от няколко години; въпреки това Юпитер, по-специално, експлодира в популярност през последните няколко години. Този елегантен инструмент поддържа многоезично програмиране и следователно се превърна в де факто избор за учените по данни за практикуване и споделяне на различни кодове, бързо създаване на прототипи и проучвателен анализ.

Въпреки че няма недостиг на специфични за езика IDE (интегрирани среди за разработка), като PyCharm, Spyder или Atom, поради своята гъвкавост и интерактивност, Jupyter експлодира в популярност сред специалистите по данни. Jupyter Notebook също придоби огромна популярност в дигиталните хуманитарни науки като педагогически инструмент. Според анализ на GitHub е изчислено, че повече от 2,5 милиона публични преносими компютри на Jupyter са били споделени през септември 2018 г., което е повече от 200 000 преброени през 2015 г. Така че, преди да се задълбочим в характеристиките и предимствата на Jupyter и защо се счита за най-добрата платформа за учени по данни, бихме обсъдили какво е Jupyter Notebook.

РЕГИСТРИРАНЕ>>

Какво е бележник Jupyter?

Косвен акроним на три езика — Julia, Python и R — Jupyter Notebook е базирано на клиента интерактивно уеб приложение, което позволява на потребителите да създават и споделят кодове, уравнения, визуализации, както и текст. Ноутбукът се счита за многоезична интерактивна изчислителна среда, която поддържа 40+ програмни езика за своите потребители. С Jupyter Notebook потребителите могат да обединят данни, код и проза, за да създадат интерактивна изчислителна история.

Дали за анализиране на колекция от писмен текст, създаване на музика или изкуство или за разработване на инженерни концепции, Jupyter Notebook може да комбинира кодове и обяснения с интерактивността на приложението. Това го прави удобен инструмент за специалистите по данни за рационализиране на работните потоци за научни данни от край до край.

Бележникът Jupyter може да се инсталира с помощта на командата pip на Python. И ако използвате Anaconda, той се инсталира автоматично като част от инсталацията на Anaconda. Комбинира се от три компонента — приложение за бележник, ядра и документи за бележник. Уеб приложението за преносим компютър се използва за писане и изпълнение на кодове по интерактивен начин, но ядрата контролират системата, като изпълняват и интроспектират кодовете на потребителите. И трето, документите в бележника са самостоятелни документи на цялото съдържание, видимо в бележника. Всеки документ в бележника има ядрото, което го контролира.

Според Лорена Барба, механичен и авиационен инженер в университета "Джордж Вашингтон" във Вашингтон за - учени по данни, Юпитер се е очертал като де факто стандарт.

Цел на Jupyter Notebook

Почистване на данни

Статистическо моделиране

Обучение на ML модели

Визуализация на данни

Какво прави Jupyter Notebook де факто изборът

Поради нарастващата популярност на софтуера с отворен код в индустрията, заедно с бързия растеж на науката за данни и машинното обучение, Jupyter Notebook стана повсеместен сред специалистите по данни. Освен че поддържа многоезично програмиране, тази интерактивна уеб-базирана изчислителна платформа също поддържа Markdown клетки, което позволява по-подробни записи с лесно форматиране. С Jupyter крайният продукт може да бъде експортиран като PDF или HTML файл, който може да бъде представен в браузър или може да бъде споделен на сайтове като GitHub. Jupyter Notebooks се записват в структурирани текстови файлове — JSON (JavaScript Object Notation) — което го прави изключително лесно за споделяне.

Фернандо Перес, съоснователят на Jupyter, веднъж каза, че растежът на Jupyter се дължи на подобренията, направени в уеб софтуера, който управлява приложения като Gmail и Google Docs и лекотата, с която улеснява достъпа до отдалечени данни което иначе би било непрактично за изтегляне. Съзряването на научния Python и науката за данни е друга причина тази платформа да придобие популярност.

Освен това преносимите компютри Jupyter изиграха съществена роля в демократизирането на науката за данни, като я направиха по-достъпна чрез премахване на бариерите за навлизане на учените по данни.

Предимства

Въпреки че Jupyter е разработен за приложения за наука за данни, които са написани на езици като Python, R и Julia, платформата вече се използва по всякакви начини за проекти. Освен това, като премахна бариерите за учените по данни, Jupyter направи документацията, визуализациите на данни и кеширането много по-лесни, особено за хардкор нетехнически хора.

Ентусиаст в областта на науката за данни каза: „Jupyter Notebook трябва да бъде неразделна част от инструментариума на всеки специалист по данни на Python. Страхотно е за създаване на прототипи и споделяне на преносими компютри с визуализации.“

И така, нека проучим някои от предимствата.

Проучвателен анализ на данни:

Jupyter позволява на потребителите да преглеждат резултатите от кода на линия, без да зависят от други части на кода. В бележника всяка клетка от кода може потенциално да бъде проверена по всяко време, за да се изведе резултат. Поради това, за разлика от други стандартни IDE като PyCHarm, VSCode, Jupyter помага при вградено отпечатване на изхода, което става изключително полезно за процеса на проучвателен анализ на данни (EDA).

Вижте също

Кът за разработчици

Практическо ръководство за тежести и отклонения (Wandb) | С внедряване на Python

Лесно кеширане във вградения модул:

Поддържането на състоянието на изпълнение на всяка клетка е трудно, но с Jupyter тази работа се извършва автоматично. Jupyter кешира резултатите от всяка клетка, която се изпълнява - независимо дали е код, който обучава ML модел или код, който изтегля гигабайти данни от отдалечен сървър.

Независимо от езика:

Поради представянето си във формат JSON, Jupyter Notebook е независим както от платформата, така и от езика. Друга причина е, че Jupyter може да се обработва от няколко езика и може да се конвертира във всякакви файлови формати като Markdown, HTML, PDF и други.

Визуализация на данни:

Като компонент, споделеният бележник Jupyter поддържа визуализации и включва изобразяване на някои от наборите от данни като графики и диаграми, които се генерират от кодове с помощта на модули като Matplotlib, Plotly или Bokeh. Jupyter позволява на потребителите да разказват визуализации, наред с това да споделят кода и наборите от данни, позволявайки на другите да правят интерактивни промени.

Взаимодействие с кода в реално време:

Jupyter Notebook използва пакети „ipywidgets“, които предоставят стандартни потребителски интерфейси за изследване на интерактивността на кода и данните. И следователно кодът може да бъде редактиран от потребителите и може също да бъде изпратен за повторно изпълнение, което прави кода на Jupyter нестатичен. Той позволява на потребителите да контролират входните източници за код и да предоставят обратна връзка директно в браузъра.

Документиране на примерни кодове:

Jupyter улеснява потребителите да обясняват своите кодове ред по ред с обратна връзка, прикачена през целия път. Дори по-добре, с Jupyter потребителите могат да добавят интерактивност заедно с обяснения, докато кодът е напълно функционален.

Outlook

Комбинирайки всички предимства, споменати по-горе на Jupyter Notebook, ключовият момент, който се появи, е, че използването на Jupyter е лесен начин за създаване на история с данни. Днес Jupyter се трансформира напълно и се превърна в екосистема, в която обхваща — няколко алтернативни интерфейса за преносими компютри като JupyterLab и Hydrogen, интерактивни библиотеки за визуализация и инструменти, съвместими с преносимите компютри.

Какво мислите?

Присъединете се към нашата група в Telegram. Бъдете част от ангажираща онлайн общност.

Присъединете се тук

.

Абонирайте се за нашия бюлетин

Получавайте най-новите актуализации и подходящи оферти, като споделите своя имейл.

Latest: Защо трябва да използвате Jupyter Notebooks

Next: Защо не използвам тетрадка Jupyter и вие също не трябва