Miksi sinun pitäisi käyttää Jupyter-kannettavia

fpfcorp 08/10/2021 5131

Koneoppiminen

Mallinnus

jupyter

lähettäjä

Daniel Gutierrez, ODSC

23. kesäkuuta 2020

Daniel Gutierrez, ODSC

jupyter

Tämä artikkeli tarjoaa korkean tason yleiskatsauksen Project Jupyterista ja laajalti suositusta Jupyter-kannettavien teknologiasta. Yleinen viesti, jonka haluaisin...

Tämä artikkeli tarjoaa korkean tason yleiskatsauksen

Projekti Jupyter

ja laajalti suosittu Jupyter-kannettavien tekniikka. Yleinen viesti, jonka haluan välittää, on se, miksi sinun pitäisi käyttää Jupyteriä datatieteen projekteissasi. Olen käyttänyt sitä kaikessa Python-koneoppimistyöhöni ja olen melko vaikuttunut ja tyytyväinen. Se on loistava ympäristö kehittää koodia ja myös viestiä tuloksista.

Projekti Jupyter

on voittoa tavoittelematon organisaatio, joka on luotu "kehittämään avoimen lähdekoodin ohjelmistoja, avoimia standardeja ja palveluita vuorovaikutteiseen laskemiseen kymmenillä ohjelmointikielillä". Toisen perustajan Fernando Pérezin vuonna 2014 IPythonista irrottama Project Jupyter tukee suoritusympäristöjä useilla kymmenillä kielillä.

Nimi Jupyter valittiin tuomaan mieleen tieteen ja tieteellisen menetelmän ideat ja perinteet. Lisäksi Jupyterin tukemat ydinohjelmointikielet ovat Julia, Python ja R. Vaikka nimi Jupyter ei ole suora lyhenne näille kielille (Julia (Ju), Python (Py) ja R), se muodostaa vakaan linjauksen niitä.

Jupyter-muistikirjat

Jupyter Notebook on avoimen lähdekoodin verkkosovellus, jonka avulla datatieteilijät voivat luoda ja jakaa asiakirjoja, jotka yhdistävät reaaliaikaisen koodin, yhtälöitä, laskennallisen tulosteen, visualisoinnin ja muut multimediaresurssit sekä selittävän tekstin yhdeksi asiakirjaksi. Voit käyttää Jupyter-muistikirjoja erilaisiin datatieteen tehtäviin, kuten tietojen puhdistamiseen ja muuntamiseen, numeeriseen simulointiin, tutkivaan data-analyysiin, tietojen visualisointiin, tilastolliseen mallinnukseen, koneoppimiseen, syväoppimiseen ja muihin.

Jupyter-muistikirja tarjoaa sinulle helppokäyttöisen, interaktiivisen datatieteen ympäristön, joka ei toimi vain integroituna kehitysympäristönä (IDE), vaan myös esittely- tai opetustyökaluna. Jupyter on tapa työskennellä Pythonin kanssa virtuaalisen "muistikirjan" sisällä, ja sen suosio kasvaa tietotieteilijöiden keskuudessa suurelta osin joustavuuden ansiosta. Se antaa sinulle tavan yhdistää koodia, kuvia, piirroksia, kommentteja jne. "datatieteen prosessin" vaiheen mukaisesti. Lisäksi se on vuorovaikutteisen laskennan muoto, ympäristö, jossa käyttäjät suorittavat koodia, näkevät mitä tapahtuu, muokkaavat ja toistavat eräänlaisessa iteratiivisessa keskustelussa datatieteilijän ja datan välillä. Tietotutkijat voivat myös käyttää muistikirjoja luodakseen opetusohjelmia tai interaktiivisia oppaita ohjelmistoilleen. Tässä lyhyt ohje

video

auttaaksesi Juypterin käytön aloittamisessa.

Jupyter-muistikirjassa on kaksi osaa. Ensin datatieteilijät syöttävät ohjelmointikoodin tai tekstin suorakaiteen muotoisiin "soluihin" etupään verkkosivulla. Selain välittää sitten koodin tausta "ytimelle", joka suorittaa koodin ja palauttaa tulokset. On luotu monia Jupyter-ytimiä, jotka tukevat kymmeniä ohjelmointikieliä. Ytimen ei tarvitse sijaita datatieteilijän tietokoneella. Muistikirjat voivat toimia myös pilvessä, kuten Googlen Colaboratory-projekti. Voit jopa käyttää Jupyteria ilman verkkoyhteyttä suoraan omalla tietokoneellasi ja suorittaa työsi paikallisesti.

Muut Jupyter-työkalut

JupyterLabia (julkaistu beetaversiona tammikuussa 2018) pidetään yleisesti Project Jupyterin seuraavan sukupolven käyttöliittymänä, joka tarjoaa kaikki klassisen Jupyter Notebookin tutut rakennuspalikat (muistikirja, pääte, tekstieditori, tiedostoselain, monipuoliset tulosteet) jne.) joustavassa ja tehokkaammassa käyttöliittymässä

Jupyter Labin perusideana on tuoda kaikki klassisen muistikirjan rakennuspalikat sekä joitain uusia asioita saman katon alle. JupyterLab laajentaa tuttua muistikirjan metaforaa vedä ja pudota -toiminnoilla sekä tiedostoselaimilla, tietojen katseluohjelmilla, tekstieditorilla ja komentokonsolilla. Tavallinen Jupyter-muistikirja määrittää kullekin muistikirjalle oman ytimen, kun taas JupyterLab luo laskentaympäristön, joka mahdollistaa näiden komponenttien jakamisen. Siten datatieteilijä voisi tarkastella muistikirjaa yhdessä ikkunassa, muokata vaadittua datatiedostoa toisessa ja kirjata kaikki suoritetut komennot kolmanteen – kaikki yhdessä verkkoselaimen käyttöliittymässä.

Esimerkki JupyterLabista

Kaksi lisätyökalua ovat parantaneet Jupyterin käytettävyyttä. Yksi on JuputerHub, palvelu, jonka avulla laitokset voivat tarjota Jupyter-kannettavia suurille käyttäjäryhmille. Toinen on Binder, avoimen lähdekoodin palvelu, jonka avulla datatieteilijät voivat käyttää GitHubissa olevia Jupyter-muistikirjoja verkkoselaimessa ilman ohjelmiston tai ohjelmointikirjastojen asentamista.

Jupyteria käyttävät alustat

Miksi sinun pitäisi käyttää Jupyter-muistikirjoja

Jupyterin suosio ylittää sen käytön erillisenä työkaluna, vaan se on myös integroitu useisiin tietotieteilijöille tuttuihin alustoihin.

Anaconda on valmiiksi pakattu Python-jakelu, joka sisältää useita Python-moduuleja ja -paketteja, mukaan lukien Jupyter. Itse asiassa Anaconda on suositeltava jakelu Jupyteria asennettaessa. Näin käytän Jupyteria, koska nautin Anaconda Navigatorin käytön tarjoamasta joustavuudesta ja mahdollisuudesta määritellä useita erilaisia "ympäristöjä" erilaisilla kehyksillä, kuten TensorFlow, erilaiset Python-versiot jne.

Kaggle-ytimet

Ovat pääosin Jupyter-kannettavia, jotka toimivat selaimessa, mikä tarkoittaa, että voit säästää paikallisen ympäristön luomisen vaivaa, kun sinulla on Jupyter-muistikirjaympäristö selaimessasi ja käytä sitä missä tahansa päin maailmaa, kun sinulla on Internet-yhteys.

Colab

muistikirjat

ovat Jupyterit

muistikirjat, joita isännöi Google Colab. Colabin avulla käyttäjät voivat tehdä yhteistyötä ja suorittaa koodia, joka hyödyntää Googlen pilviresursseja eli grafiikkasuoritteita, TPU:ita ja tallentaa asiakirjoja Google Driveen.

Amazon SageMaker

muistikirjan ilmentymä on täysin hallittu koneoppimisen EC2-laskentaesiintymä, joka suorittaa Jupyter Notebook -sovelluksen. Muistikirjan esiintymän avulla voit luoda ja hallita Jupyter-muistikirjoja, joiden avulla voit valmistella ja käsitellä tietoja sekä kouluttaa ja ottaa käyttöön koneoppimismalleja.

Lopuksi niitä on monia

esimerkkejä

GitHubissa saatavilla olevista Jupyter-muistikirjoista (niiden tarkistaminen on hyvä tapa oppia, mikä on mahdollista). Julkisia muistikirjoja on nykyään yli 3 miljoonaa, kun vuonna 2015 niitä oli noin 200 000.

Johtopäätös

Datatieteilijöille Jupyter on viime vuosina noussut de facto standardiksi. Siirtyminen alustalle on luultavasti nopein viimeaikainen muisti. Suurin osa arXiv.prg-preprint-palvelimella ilmestyvistä ML/DL-tutkimuspapereista viittaa Jupyter-kannettaviin, jotka on integroitu hyvin tutkimukseen käyttämällä syväoppimiskehyksiä, kuten TensorFlow ja PyTorch. Jupyterin kauneus on siinä, että se luo laskennallisen narratiivin, asiakirjan, jonka avulla tutkijat voivat täydentää koodiaan ja tietojaan analyysillä, hypoteesilla ja olettamuksilla. Tietojen tutkijoille tämä muoto voi edistää luovaa tutkimista. Jos et ole vielä tutustunut Jupyter-teknologiaan, on korkea aika tehdä se!

Haluatko tietää lisää koneoppimisesta? Katso nämä

Ai+ -harjoitukset

Koneoppimisen perusteet: Lineaarinen algebra

Tämä Machine Learning Foundations -sarjan ensimmäinen osa on useimpien koneoppimislähestymistapojen ydin. Yhdistelemällä teoriaa ja vuorovaikutteisia esimerkkejä kehität ymmärrystä siitä, kuinka lineaarista algebraa käytetään ratkaisemaan tuntemattomia arvoja suuriulotteisissa tiloissa, jolloin koneet voivat tunnistaa kuvioita ja tehdä ennusteita.

Valvottu koneoppimissarja

Tiedon merkintä mittakaavassa: aktiivinen ja osittain valvottu oppiminen Pythonissa

Gradient Boosting -mallien selittäminen ja tulkitseminen koneoppimisessa

ODSC West 2020: Selkeys koneoppimisen elinkaaren ajan

Jatkuvasti käytössä oleva koneoppiminen

Tietoja kirjoittajasta

Daniel Gutierrez, ODSC

Daniel D. Gutierrez on datatieteilijä, joka on työskennellyt datan parissa kauan ennen kuin ala tuli muotiin. Teknologiatoimittajana hän pitää mielellään tällä nopeatempoisella toimialalla. Daniel on myös kouluttaja, joka on opettanut yliopistotasolla datatiedettä, koneoppimista ja R-luokkia. Hän on kirjoittanut neljä tietokonealan kirjaa tietokanta- ja datatieteen teknologiasta, mukaan lukien viimeisin otsikkonsa "Machine Learning and Data Science: An Introduction to Statistical Learning Methods with R." Daniel on suorittanut matematiikan ja tietojenkäsittelytieteen BS-tutkinnon UCLA:sta.

Latest: 10 syytä, miksi datatieteilijät rakastavat Jupyter-muistikirjoja

Next: Miksi Jupyter Notebook on niin suosittu datatieteilijöiden keskuudessa

miksi jupyter muistikirja