12 dalykų, kurių tikiuosi, kad būčiau žinomas prieš pradedant dirbti duomenų duomenų žinovu

Aš buvau duomenų žinovas šiek tiek daugiau nei trejus metus. Iš studentų manęs prašo patarti dėl šios srities, todėl pateiksiu keletą mano minčių. Pirma, išvardinsiu keletą dalykų, kuriuos norėčiau žinoti, kai įžengiau į lauką, ir, antra, savo patarimus studentams, kurie baigę studijas norėtų tapti duomenų mokslininkais.

Ką norėčiau žinoti apie duomenų mokslą

Tiek daug įrankių, dėl kurių reikia nerimauti, tiek mažai, kuriuos iš tikrųjų naudosite

„Duomenų mokslas“ yra neaiškus terminas, todėl atitinkamai elkitės su juo

Duomenų mokslas gali apimti praktiškai bet kokį kiekybinį darbą. Du duomenų mokslininkai skirtingose ​​įmonėse ar net toje pačioje įmonėje galėtų atlikti visiškai skirtingus darbus. Ši sritis palaipsniui suskaidoma į konkretesnius pareigų pavadinimus, tokius kaip duomenų inžinierius, duomenų analitikas, mašinų mokymosi inžinierius ir pan. Šis specializacijos procesas ateityje tikrai paspartės. Todėl, kai jūs kalbate apie duomenų mokslą ar taikymąsi prie darbo, pabandykite išsiaiškinti, koks yra konkretus tinkamas duomenų mokslo apibrėžimas toje situacijoje, ir įsitikinkite, kad jis sutampa su jūsų. Konkrečiai naudinga sužinoti, kokie rezultatai bus atliekant konkretų duomenų mokslo vaidmenį. Ar jums reikės parašyti kodą, kuris gyvena gamybos sistemoje? Ar jums reikės kurti duomenų perdavimo vamzdynus? Ar rengsite neprisijungus pasiekiamų duomenų analizę, o jei taip, tai kokias? Apskaičiuoti, už kokius darbus jūs būsite atsakingi, dažnai yra geriau nei skaityti tikrus pareigybių aprašymus, nes pareigybių aprašymai dažniausiai būna parašyti siekiant pritraukti įvairius kandidatus į pareigas, o ne iš tikrųjų išsamiai apibūdinti, koks darbas bus.

Imposterio sindromas yra normali darbo dalis

Kiekvienas duomenų mokslininkas patiria apgavikų sindromą. Radau, kad prasminga darbo dalis yra joje naršoma. Tiesiog visada bus dalykų, kurių nežinai. Kaip minėta pirmiau, sritis yra menkai apibrėžta, todėl yra nepaprastai daug temų, kurioms gali būti priskirta „duomenų mokslo“ apibrėžtis. Jei skaitote tinklaraščius ar „Quora“, tai jaučia, kad jums reikia būti pasaulinės klasės. kiekvienas įgūdis būti duomenų mokslininku: Stanfordo daktaro statistiku, „Google“ kalibravimo inžinieriumi ir McKinsey lygio verslo ekspertu, visi suvynioti į vieną. Realybė tokia, kad niekas nėra tobulas. Net jei kažkaip stebuklingai būtumėte tobulas visais įgūdžiais, kiekvienam projektui naudosite tik dalį šių įgūdžių ir prarasite praktiką su tais, kurių nenaudojote. Viskas, ką jums reikia padaryti norint būti geru duomenų mokslininku, reikia rasti būdą, kaip naudoti duomenis naudingais. Yra daugybė skirtingų būdų tai padaryti. Puiku, jei kartkartėmis jaučiate apgaulingą sindromą. Tiesiog žinokite, kad tai normalu, ir neleiskite, kad tai jus nuvils. Vietoj to, pabandykite suvokti situacijas, kuriose turite ką nors naujo išmokti, kaip įdomias augimo galimybes, ir nepamirškite atsiminti to jausmo, kai kitą kartą susidursite su kitu, kuris nežino, ko jūs darote.

Niekada nereikės žinoti visų įrankių

„Hadoop“, „Spark“, „Verpalai“, „Julia“, „Kafka“, „Airflow“, „Scalding“, „Rededsift“, „Hive“, „TensorFlow“, „Kubernetes“ ... yra daugybė duomenų mokslo kodavimo kalbų, schemų ir įrankių. Kai anksčiau nedirbote duomenų mokslo darbo, atrodo, kad, norėdami būti tikri duomenų mokslininkai, turite juos visus žinoti. Kiekvieną kartą, kai išgirdau ką nors kalbant apie kokį nors įrankį, kurio aš nežinojau, aš tylėdavau vidinį švilpimą ir darydavau mintį, kad radau „Coursera“ klasę tema, kurią galėčiau įpūsti, stat. Laimei, galite saugiai ignoruoti 99% duomenų mokslo įrankių. Galų gale jūsų įmonė turės savo įrankių rinkinį. Visiems įmonėje bus gera naudotis šiomis priemonėmis ir bus be galo atsargus daugeliui kitų. Be to, jokia gera įmonė nesirūpins, jei anksčiau naudojote jų konkretų įrankių rinkinį. Jei nesinaudosite tikrai specializuotu vaidmeniu, jie tikėsis, kad galėsite išmokti jų krūvos darbe. Jūs tiesiog turite pakankamai žinoti, kad išlaikytumėte interviu. Pasirinkite nedidelį jums tinkančių įrankių rinkinį. Mėgaukitės jais ir nesijaudinkite dėl to, kad išsišakojate per daug, kol nedirbate.

Tačiau gerai išmokite savo pagrindinius įrankius

Jūs neprivalote žinoti kiekvieno įrankio, tačiau turėtumėte įsigilinti į pagrindinius įrankius, kuriuos naudojate kasdien. Niekada nesigailėsite išmokę nuobodžias SQL tarmės, kurią naudoja jūsų įmonė, dalis, pavyzdžiui, kaip parašyti optimizuotą užklausą. Jei naudojate R, sužinokite apie „ggplot2“ ir „dplyr“ trūkumus. Jei naudojate „Python“, pabandykite iš tikrųjų suprasti pandas, paslydusias ir skipuliškas. Aš apsimečiau, kad keletą mėnesių pažinau gitą, bet visada buvau pririšta prie git-mazgų. Galiausiai aš nutrūkau ir perskaičiau puikų įrankio vadovą. Tada aš jaučiausi nenugalimas. Jei pastebite, kad naudojate ką nors reguliariai, skirkite šiek tiek laiko tiesiog perskaitykite jo vadovą.

Esate ne tik metodų, bet ir srities ekspertas

Duomenų mokslas atsirado kaip kompromisas tarp tyrimų mokslo vaidmenų ir verslo analitikų vaidmenų. Pirmieji naudojo galingus metodus, tačiau tik netiesiogiai darė įtaką verslo sprendimams, o antrieji padarė tiesioginį poveikį verslo savininkams, tačiau turėjo tam ribotų priemonių. Duomenų mokslininkai daro didžiausią poveikį, kai sujungia abi puses, sumaišydami gilias domeno žinias su reikiamomis statistikos ir inžinerijos priemonėmis, kad būtų galima priimti geresnius sprendimus ar naudingus duomenų produktus.

Mano patirtis rodo, kad dauguma duomenų mokslininkų per daug nusileidžia tyrinėtojų krypčiai ir nepakankamai link verslo analitiko kelio. Jie mėgsta naudoti išgalvotus metodus, tačiau per mažai investuoja į savo srities išmanymą. Jie eina į mašinų mokymosi konferencijas, tačiau rečiau lankosi konferencijose, tarkime, apie rinkodarą ar riziką. Daugelis duomenų mokslininkų net nenutuokia, kad turi domeną. Bet kuri komanda, turinti sukauptų žinių apie tai, kas veikia, ir dar neturi sričių, o apie tai galite sužinoti iš savo verslo partnerių arba kalbėdami su panašiomis komandomis kitose įmonėse. Savo domeno žinojimas yra pusė kovos, todėl investuokite laiką ten, kaip ir jūs, kad atliktumėte savo „sunkius įgūdžius“.

Svarbiausias įgūdis yra kritinis mąstymas

Didelė bet kokio žinių darbo dalis yra tai, kas svarbu, o kas ne. Galite atlikti nepriekaištingą analizę, tačiau jei paaiškės, kad išsprendėte neteisingą problemą arba jei jūsų įžvalgos negalima pritaikyti, ji neturi jokios reikšmės. Verta aktyviai leisti laiką galvojant apie platesnį jūsų darbo kontekstą. Kokie yra svarbiausi jūsų komandos iššūkiai ir kodėl? Ar jūsų dabartinis planas yra geriausias būdas padėti komandai, ar turėtumėte pakeisti savo planą? Laikui bėgant atsakymai į šiuos klausimus gali keistis, todėl svarbu reguliariai registruotis. Aš mačiau daugybę duomenų, kuriuos mokslininkai per ilgai ėjo į priekį vien dėl inercijos.

Ką daryti studentui, norint tapti duomenų žinovu

Dalyvaukite atitinkamose klasėse - ne tik techninėse klasėse

Žinoma, statistiniai ir informatikos užsiėmimai bus naudingi darbe. Tačiau daug pamokų gali būti naudinga. Viskas, kas priverčia jus kritiškai mąstyti ir pateikti rašytinius argumentus, pavyzdžiui, filosofija, istorija ar anglų kalba, gali būti naudinga, nes tai yra daugybė dalykų, kuriuos darote duomenų moksle. Socialinių mokslų dalykai, tokie kaip ekonomika ar kiekybinė psichologija, gali būti puikūs norint įgyti patirties, darančios priežastines išvadas. Klasė, apie kurią dažnai atsimenu, yra įtikinanti kalbėjimo klasė, kurią vedžiau, kurią reguliariai renkuosi darbe. Dalinkitės nemaža techninių užsiėmimų dalimi, bet mokykitės plačiau ir sekite savo pomėgius. Mano strategija visada buvo eiti pas puikius dėstytojus į puikius mokymo planus. Vis tiek rekomenduočiau tai kiekvienam kolegijos studentui, duomenų mokslui ar ne.

Praktinis bendravimas - rašytinis, vaizdinis ir žodinis

Bendravimo įgūdžiai yra nepaprastai svarbūs ir chroniškai nepakankamai įvertinti duomenų moksle. Jūsų poveikis gali būti tik toks, koks yra jūsų bendravimo įgūdžiai, nes turite įtikinti kitus priimti sprendimus arba padėti kurti produktus, pagrįstus jūsų analize. Taigi daug labai techninių duomenų turinčių mokslininkų karjeros yra netiesiogiai ribotos, nes jie negali rašyti ar aiškiai kalbėti. Visų trijų formų, tiek rašytinė, tiek vaizdinė, tiek žodinė praktika daro realų skirtumą. Dalyvaukite užsiėmimuose, kuriuose daug rašoma, ypač jei manote, kad esate silpnas rašytojas, arba anglų kalba nėra jūsų pirmoji kalba. Daugelyje universiteto miestelių yra rašymo centrų, kurie padės gauti grįžtamąjį ryšį. Tai yra šaltinis, kurį turite naudoti tuo metu, kai jį turite.

Darbas su tikromis duomenų problemomis

„Kaggle“ puikiai tinka mokytis modeliavimo. Tačiau su „Kaggle“ sunkiausia dalis jau padaryta jums: surinkus, išvalius ir apibrėžus problemą, kurią reikia išspręsti su tais duomenimis. Geriausias būdas pasiruošti duomenų mokslininko darbui yra naudoti tikrus duomenis atsakant į tikrus klausimus. Priežastis paprasta: tai yra artimiausia, kurią galite pasiekti dirbdami realų darbą, o jo iš tikrųjų neturite. Raskite tai, kas jus domina, ir gaukite savo duomenis. Nuskaityti duomenis internete yra daug lengviau, nei dauguma pradedančiųjų supranta naudodami tokius paketus kaip „BeautifulSoup“, „Scrap“ ir „rvest“. „Wikipedia“ ir „Reddit“ yra geri taikiniai, jei jums reikia įkvėpimo, tačiau geriausias pasirinkimas yra tai, ko nuoširdžiai džiaugiatės tyrinėdami. Tada užduokite keletą jus dominančių klausimų ir sužinokite, kaip gerai galite į juos atsakyti. Išvalykite duomenis, padarykite keletą grafikų ir modelių, tada surašykite savo išvadas kur nors viešai. Iš pradžių bus lėtai, bet taip yra todėl, kad jūs mokotės. Jei galite, pabandykite išspręsti realias realias problemas savo bendruomenės žmonėms, pavyzdžiui, dirbdami statistinius duomenis mokyklos sporto komandai arba atlikdami mokyklos laikraščio apklausų analizę, kad taip pat įgytumėte praktikos su suinteresuotų šalių vadovybe.

Paskelbkite savo darbus ir gaukite atsiliepimų, kaip tik galite

Vienintelis būdas nieko geriau padaryti yra gauti grįžtamąjį ryšį. Duomenų darbas nėra išimtis. Šiomis dienomis taip lengva paskelbti užrašų knygas „Github“ ar asmeninėse svetainėse. Jei rašote tema, kurią domina jūsų draugai, galite daug sužinoti iš to, kaip jie reaguoja. Kas sužavėjo jūsų pristatymą? Kas buvo neaišku? Ar sugebėjote įtikinti juos savo pagrindiniu argumentu? Ar jiems pasidarė nuobodu skaityti ir nepadaryti to iki galo? Svarbiausia - padarykite savo kodą prieinamą ir pabandykite gauti kitų studentų apžvalgas, kad galėtumėte tobulinti vienas kitą. Jei naudojate techniką iš klasės, kurią lankote, netgi galite parodyti profesoriui, ką padarėte, ir gauti ekspertų atsiliepimų, tuo pačiu parodydami iniciatyvą. Ir kas žino, jei viena iš jūsų analizių yra virusinė internete, jūs netgi galite gauti darbą iš to!

Eikite į renginius - hakatonus, konferencijas, susitikimus

Jei tai leidžia jūsų geografija ir biudžetas, pabandykite bendrauti su išoriniu duomenų mokslo pasauliu dar būdami studentai. Tai leis geriau suprasti lauko realijas ir suteiks jums galimybę pradėti tinklą. Daugelyje didžiųjų miestų vyksta duomenų mokslo susitikimai ir hakatonai, ir, mano patirtimi, dauguma žmonių yra labai draugiški studentams. Konferencijose studentams dažniausiai parduodamos nuolaidos. Važiuodami su draugais kartu galėsite pasidaryti ir smagią išvyką!

Būkite lankstūs įvesdami lauką

Duomenų mokslas yra konkurencijos sritis. Yra ribotas skaičius technologijų kompanijų, turinčių puikius duomenų mokslo prekės ženklus, ir kova dėl jų vasaros stažuočių ir pradinio lygio vaidmenų yra nuožmi. Tačiau, kai jau turi net nedidelę realios duomenų mokslo srities patirtį, daug lengviau gauti antrą darbą šioje srityje. Duomenų tyrinėtojai, net kelerius metus dirbantys diržuose, net iš mažai žinomų kompanijų, dažnai turi sunkumų samdydamiesi geriausiose įmonėse. Taigi, jei norite būti duomenų žinovu ir negaunate pasiūlymo iš garsių kompanijų iš karto, apsvarstykite galimybę išplėsti darbo paiešką. Yra daugybė kompanijų, turinčių įdomių problemų, kurias reikia išspręsti.

Ačiū už skaitymą! Norėčiau išgirsti jūsų mintis - pagal aukščiau pateiktą atsiliepimų rinkimo lentelę! - todėl nedvejodami palikite komentarą žemiau.