Защо да използвате Jupyter Notebook в DesignSafe

fpfcorp 15/10/2021 1367

TACC разговаря със Скот Бранденберг, доцент в катедрата по гражданско и екологично инженерство в Калифорнийския университет в Лос Анджелис (UCLA), за да сподели своя опит като нов потребител на преносими компютри Jupyter. Бранденберг също е потребител на експерименталното съоръжение за центрофуга NHERI в Центъра за геотехническо моделиране на UC Davis. Неговите изследвания обхващат геотехническо инженерство при земетресения, разпределение на водата и сеизмични ефекти върху подземни структури.

Какво е естеството на изследването, за което използвате тетрадките Jupyter?

Скот Бранденберг:

Темата на изследователския проект, за който разработихме тетрадка на Юпитер, е сеизмичните ефекти върху подземните структури. Проектът разглежда развитието на земния натиск по време на земетресения. Един от ключовите проблеми, които инженерите трябва да решат, когато проектират подземни конструкции, е какъв натиск упражнява почвата върху конструкцията, когато има земетресение. Когато се случи земетресение, земята се разклаща и може да има увеличаване на налягането върху подземна конструкция, причинено от земетръсните вълни, взаимодействащи със структурата, като водосток или тунел.

Доцент, Катедра по гражданско и екологично инженерство, Калифорнийски университет в Лос Анджелис (UCLA)

Една от големите области, с които собствениците на сгради се борят, е, че подходът, който инженерите използват в момента за изчисляване на тези земни налягания, не е особено реалистичен и те са склонни да предсказват прекалено тези налягания. Това, което правим, е да разработваме нови аналитични методи, които са по-реалистични и се основават на по-фундаментална теория от настоящите методи. Проведохме експерименти с центрофуга върху подземни структури, за да генерираме данни за сеизмично земно налягане, които се използват за оценка на новата ни теория, както и на съществуващите методи. Надяваме се, че новият метод ще свърши по-добра работа за обяснение на наблюденията по време на тези експерименти.

Как се включихте в DesignSafe?

Скот Бранденберг:

Потребител съм на NEES (Мрежа за симулация на земетресение) от дълго време и проведох много експерименти и архивирах данните си чрез NEES. Мисля, че е важно учените да споделят своите данни с всички, а не просто да ги пазят за себе си. Това е визията на NEES. Това е и визията на DesignSafe. Поради усилията ми чрез NEES, главният изследовател на DesignSafe (PI) Елън Ратхие ме покани да се присъединя към екипа на DesignSafe. По време на първоначалния процес на разработка на DesignSafe миналата година използвахме набор от експерименти с центрофуга, проведени наскоро върху водостока като тестова платформа, за да изследваме някои от технологиите, предоставени от DesignSafe, като преносими компютри Jupyter и подобрени възможности за качване на данни.

Какво намирате за най-привлекателно в DesignSafe?

Скот Бранденберг:

Ще сравня DesignSafe с NEES, защото съм фокусиран върху подобренията, които са настъпили. NEES разработи хранилище на данни. Това означаваше, че когато завършим експеримент, ще архивираме данните и метаданните (които описват данните) като таблици на Excel и списъци със сензори. След това данните ще бъдат в NEES, за да могат други хора да ги изтеглят и използват. Ние обаче не бихме използвали данните в хранилището на данни на NEES; щяхме да отидем в хранилището, за да изтеглим данните и след това да работим с нашия собствен локален екземпляр на данните. Следователно качването на данните в NEES беше допълнителна стъпка, която трябваше да бъде предприета от екипа на проекта и не улесни директно откриването на нови открития от данните.

Това, което наистина харесвам в DesignSafe, е, че променя тази парадигма. Сега можем да анализираме данните в самата киберинфраструктура DesignSafe. Ние качваме данните, можем да оперираме с тях там и можем да споделяме инструментите за анализ на данни. Едно нещо, което обикновено се случваше с NEES, е, че щях да ръководя докторант, който провеждаше експериментите. Те биха написали свои собствени скриптове за обработка на данните. Ще пишем документи; подайте ги; и тогава ученикът щеше да се дипломира и да вземе всичките си сценарии със себе си. Щях да имам достъп до данните, но не до всички обработващи файлове. DesignSafe ще реши този проблем. Ще работим върху скриптове в облака и всеки ще има достъп до тях. Когато студентът приключи с проект, цялата работа, която е свършил, ще бъде архивирана в DesignSafe. Целият им работен процес ще бъде документиран и достъпен за по-нататъшна повторна употреба. Това е наистина привлекателна функция за мен като PI за много от тези проекти.

Какво е вашето собствено описание на тетрадка Jupyter?

Скот Бранденберг:

Това е мощен инструмент. Мисля, че това ще промени начина, по който хората в рисковата общност работят с данни. Бележникът Jupyter е програма, която ви позволява да интегрирате различни езици за кодиране – Python или R, например – в активен документ, който се изпълнява в мрежата. Преносимите компютри Jupyter ни позволяват да имаме кодови блокове, които действително работят с данни. И те са комбинирани с клетки за маркиране, които предоставят обяснения на случващото се. Това е добър начин за синтезиране на изчисленията с обяснението. Това улеснява връщането назад и разбирането какво се случва и какъв работен процес е използван. Преносимите компютри Jupyter могат да работят в облака в DesignSafe, което означава, че можем да работим с данните, които сме събрали и да ги поставим в DesignSafe, без да се налага първо да ги изтегляме на собствения си локален компютър. Това е наистина хубаво, защото това означава, че ученик може да работи по сценарий и ме уведомете, че са направили някои промени. След това мога да вляза и да разгледам техния бележник на Jupyter и сам да добавя нови промени или коментари. Използвам други инструменти за изчисление от около 20 години, така че тетрадките са сравнително нови за мен. Това беше първият път, когато използвах Python, например.

Какви са някои от начините, по които е направено вашето проучване, преди да използвате тетрадките Jupyter?

Скот Бранденберг:

Мисля, че най-честият подход, използван от изследователите, е, че студентите ще имат данни на собствения си компютър и ще използват инструменти като MATLAB или Mathcad, за да обработват тези данни и да публикуват тези резултати. Данните може да бъдат споделени, но скриптовете не са били споделени или ако са били споделени, те са били свързани към конкретните директории, в които учениците са съхранявали данните и следователно не са били лесно прехвърляеми. Изследователите на експериментални данни също биха написали „доклади за данни“, писмена документация за набора от данни. Докладът с данните беше от решаващо значение за други изследователи, за да разберат как да използват набора от данни (коя колона съответства на кой сензор, например). Обикновено тези отчети с данни са .pdf файлове, които потребителите изтеглят. И те ще включват стотици страници с графики с данни. Това, което направихме с нашия проект за водостоци, е да направим интерактивен отчет с цифрови данни в DesignSafe с помощта на тетрадка Jupyter. Тъй като бележникът на Jupyter използва език за маркиране, ние успяхме да вземем целия текст, който обикновено се появява в .pdf файла, да го форматираме като html и да го поставим в бележника.

Как се споделят и разпространяват данните?

Скот Бранденберг:

Потребителите могат да взаимодействат с данните с помощта на бележника на Jupyter, но също така могат да изтеглят данните извън Jupyter. Качваме файлове с данни и решаваме кога искаме да направим данните публични; след като стане публичен, всеки може да влезе в DesignSafe и да получи достъп до тези файлове с данни. Така че те биха могли да отидат до Jupyter и да разгледат данните с помощта на този инструмент или биха могли директно да изтеглят данните за собствена употреба. Или дори биха могли да разработят свой собствен бележник Jupyter в DesignSafe и да обработват данните там. Освен това те биха могли да симулират експеримента, използвайки краен елемент, програма като OpenSEES, и да напишат тетрадка на Jupyter, която сравнява резултатите от компютърната симулация с експерименталните данни.

Как получавате достъп до тетрадките на Jupyter?

Скот Бранденберг:

По принцип имате достъп до преносимите компютри на Jupyter чрез DesignSafe. Ако влезете в DesignSafe, ще видите областта Research Workbench, която включва Data Depot. Това е мястото, където отивате за достъп до публикувани данни, както и до вашите лични данни за проекти. DesignSafe също така включва Discovery Workspace, което включва инструменти, като Jupyter, които имат достъп до данните в Data Depot. За да отворите Jupyter в DesignSafe — просто щракнете върху бутон в работното пространство на Discovery, той се отваря направо във вашия уеб браузър и след това можете да отворите бележник на Jupyter от директория в Data Depot. В допълнение, преносимите компютри Jupyter са с отворен код, така че можете да изтеглите клиента и да го стартирате локално на вашия компютър.

Моят бележник на Jupyter е достъпен за всички в директорията с данни на общността: https://tinyurl.com/lvefwb3

Какви са основните предимства на преносимите компютри Jupyter?

Скот Бранденбург:

Основното предимство, което виждам за други PI, е, че всички скриптове на вашия ученик са достъпни за всеки в проекта. Всичко, върху което студентите работят, е там за споделяне, което е по-добре, отколкото учениците да работят локално на собствения си компютър. Винаги ще има потребители, които не са склонни да приемат нова технология. Начинът, по който работи Python, е подобен на MATLAB, така че скокът не е толкова голям и нашият изследователски екип се адаптира доста лесно.

Накрая, как мислите, че тетрадките помагат за напредъка на вашите изследвания?

Скот Бранденберг:

Преносимите компютри Jupyter не предоставят директно нови изчислителни методи или скриптове, които не сме имали преди. Истинската полза е да имате едни и същи процеси заедно в един и същ работен процес, така че данните са там и скриптовете за обработка са там с тях в облака. Мисля, че това е истинската иновация. Става въпрос повече за качеството на работния процес и всичко добре документирано на едно място. Мисля, че има възможности да промени фундаментално начина, по който вършим работата си.

Например, в момента съм част от друго усилие, което използва DesignSafe за изграждане на голяма база данни с истории на случаи на място от събития на втечняване, случили се по целия свят. Ще има доста малко данни — повече данни, отколкото всеки отделен потребител би искал да изтегли и да се опита да обработи на собствения си компютър. Преносимите компютри на Jupyter ни предоставят възможността да работим с всички тези данни в DesignSafe, така че да не се налага да ги изтегляме. Има голямо влияние, когато анализираме много данни едновременно. Ще можем да използваме тези облачни ресурси, за да правим неща, които не сме можели да правим преди.

###

Latest: Бележник на Юпитер

Next: AM-Notebook Lite 6.5.4