25 įdomūs klausimai apie mašinų mokymosi pokalbį

Ar gali mašininio mokymosi interviu klausimai tuo pat metu būti juokingi ir gilūs?

Vaizdo šaltinis: https://xkcd.com/1838/

Daugelis duomenų mokslininkų studijuoja kompiuterinį mokymąsi (ML), daugiausia praktikuodami duomenis. Todėl įmanoma, kad susitelksime į kuo daugiau naujų paketų, sistemų, metodų mokymąsi ir mažiau susitelksime į gilų pagrindinių teorinių aspektų nagrinėjimą. Ir čia mano mašininio mokymosi apibrėžimas apima visą standartinį statistinį mokymąsi (t. Y. Jis nėra tik gilus mokymasis).

Tačiau išbandydami ir apmąstydami tam tikras pastangas, galite sugalvoti tiek daug nuostabių ML klausimų, kurie, atsakę ir išanalizavę, gali gražiai atskleisti gilesnius aspektus. Iš esmės šie klausimai gali padėti mums išbristi iš šios aukščiau pavaizduotos krūvos. Mes tiesiog nenorime visą dieną maišyti duomenų rinkinio, norime įsigilinti į mašininio mokymosi metodų savybes, keiksmus ir painiavą bei juos įsisavinti ...

Galų gale, internete yra daugybė straipsnių apie „standartinius interviu klausimus mašininiam mokymuisi“. Ar galime padaryti šiek tiek kitokio ir įdomaus?

Atsakomybės atsisakymas: Aš tik skelbiu klausimus galvodamas ir skatindamas diskusijas. Gautas atsakymas nepateiktas. Kai kurie klausimai turi užuominą, tačiau jie skirti daugiau diskusijoms, o ne galutiniam atsakymui. Kiekvieną klausimą verta aptarti išsamiau. Nėra nustatyto atsakymo. Kai kurie klausimai sugalvoti, kai kurie skirti tik linksmybėms. Tiesiog mėgaukitės :-) Norėdami įkrauti, aš turiu juokingą meemą, įdėtą po kiekvieno 5-ojo klausimo ...

Linksmi klausimai

  • Aš sukūriau tiesinį regresijos modelį, parodantį 95% pasikliovimo intervalą. Ar tai reiškia, kad yra 95% tikimybė, kad mano modelio koeficientai yra tikroji funkcijos, kurią bandau apytiksliai įvertinti, vertė? (Užuomina: tai iš tikrųjų reiškia 95% laiko…)
  • Koks yra „Hadoop“ failų sistemos ir k-artimiausio kaimyno algoritmo panašumas? (Užuomina: „tingus“)
  • Kuri struktūra yra galingesnė ekspresyvumo atžvilgiu (t. Y. Ji gali tiksliai atspindėti nurodytą loginę funkciją) - vieno sluoksnio perceptroną ar 2 sluoksnių sprendimų medį? (Užuomina: XOR)
  • O kuris iš jų yra galingesnis - 2 sluoksnių sprendimų medis arba 2 sluoksnių neuroninis tinklas be jokios aktyvinimo funkcijos? (Užuomina: netiesiškumas?)
  • Ar neuroninis tinklas gali būti naudojamas kaip dimensijos mažinimo įrankis? Paaiškinkite kaip.
  • Visi piktybiškai ir nesutikimai perima terminą pagal tiesinės regresijos modelį. Papasakok man vieną iš jos komunalinių paslaugų. (Užuomina: triukšmo / šiukšlių rinkėjas)
  • LASSO reguliavimas sumažina koeficientus iki nulio. Kraigo regresija sumažina juos iki labai mažos, bet ne nulinės vertės. Ar galite intuityviai paaiškinti skirtumą nuo dviejų paprastų funkcijų | x | ir x²? (Užuomina: Tie aštrūs kampai | x | sklype)
  • Tarkime, kad jūs nieko nežinote apie paskirstymą, iš kurio kilo duomenų rinkinys (nuolat vertinami skaičiai), ir jums draudžiama manyti, kad tai yra normalus Gauso kalba. Parodykite kuo paprastesnius argumentus, kad ir koks būtų tikras paskirstymas, galite garantuoti, kad ~ 89% duomenų bus +/- 3 standartinių nuokrypių nuo vidurkio (Patarimas: Markovo patarėjas dr.)
  • Dauguma mašininio mokymosi algoritmų yra susiję su tam tikru matricos manipuliavimu, pavyzdžiui, daugyba ar inversija. Pateikite paprastą matematinį argumentą, kodėl tokio ML algoritmo mažo paketo versija gali būti skaičiavimo požiūriu efektyvesnė nei mokymas su pilnu duomenų rinkiniu. (Užuomina: Matricos daugybos laiko sudėtingumas ...)
  • Ar nemanote, kad laiko eilutė yra tikrai paprasta tiesinės regresijos problema, turinti tik vieną atsako kintamąjį ir vieną numatiklį - laiką? Kokia yra tiesinės regresijos atitikimo (nebūtinai vieno linijinio termino, bet net ir daugianario laipsnio terminų) metodo problema laiko eilučių duomenų atveju? (Užuomina: praeitis yra ateities rodiklis ...)
  • Paprastu matematiniu argumentu parodykite, kad optimalių sprendimų medžių suradimas pagal klasifikavimo problemą tarp visų galimų medžių struktūrų gali būti eksponentiškai sunki. (Patarimas: Bet kokiu atveju medžių yra džiunglėse?)
  • Tiek sprendimų medžiai, tiek gilieji neuroniniai tinklai yra netiesinis klasifikatorius, t. Y. Jie atskiria erdvę sudėtinga sprendimo riba. Kodėl mums taip lengviau intuityviai vadovautis sprendimo medžio modeliu, palyginti su giliu nervų tinklu?
  • Atgalinis skleidimas yra gilaus mokymosi darbas. Įvardykite keletą galimų alternatyvių būdų, kaip treniruoti neuroninį tinklą nenaudojant atbulinio sklidimo. (Užuomina: Atsitiktinė paieška ...)
  • Tarkime, kad turite dvi problemas - tiesinę regresiją ir logistinę regresiją (klasifikacija). Kuriam iš jų labiau tikėtina naudos naujai atrastas ypač greitas didelių matricų daugybos algoritmas? Kodėl? (Užuomina: kuris labiau linkęs naudoti manipuliavimą matrica?)
  • Koks yra prognozuojamųjų koreliacijos poveikis pagrindinių komponentų analizei? Kaip jūs galite tai išspręsti?
  • Jūsų bus paprašyta sukurti klasifikavimo modelį apie meteoritų poveikį Žemei (svarbus žmogaus civilizacijos projektas). Atlikę išankstinę analizę, gausite 99% tikslumą. Ar turėtum būti laimingas? Kodėl gi ne? Ką tu gali padaryti? (Užuomina: retas įvykis ...)
  • Ar įmanoma nustatyti koreliaciją tarp tęstinio ir kategorinio kintamojo? Jei taip, kaip?
  • Jei dirbate su genų ekspresijos duomenimis, dažnai yra milijonai prognozuojamųjų kintamųjų ir tik šimtai pavyzdžių. Pateikite paprastą matematinį argumentą, kodėl paprastas mažiausias kvadratas nėra tinkamas pasirinkimas tokiai situacijai, jei norite sukurti regresijos modelį. (Užuomina: Kai kuri matricos algebra ...)
  • Paaiškinkite, kodėl kryžminis kryžminis patvirtinimas neveikia laiko eilučių modelio. Ką tu gali padaryti? (Užuomina: artimiausia praeitis yra artimas ateities rodiklis ...)
  • Paprastas atsitiktinis treniruočių duomenų rinkinys į mokymo ir patvirtinimo rinkinį gerai tinka regresijos problemai. Bet kas gali nutikti dėl tokio požiūrio į klasifikavimo problemą? Ką galima padaryti dėl to? (Užuomina: Ar visos klasės vyrauja vienodai?)
  • Kas jums svarbiau - modelio tikslumas ar modelio našumas?
  • Jei galėtumėte pasinaudoti kelių procesoriaus branduolių pranašumu, ar jums labiau patiktų padidinto medžio algoritmas, o ne atsitiktinis miškas? Kodėl? (Užuomina: jei turite 10 rankų atlikti užduotį, ja pasinaudojate)
  • Įsivaizduokite, kad jūsų duomenų rinkinys yra tiesiškai atskirtas ir jūs turite garantuoti savo algoritmo konvergenciją ir maksimalų pakartojimų / žingsnių skaičių (dėl skaičiavimo išteklių priežasties). Ar tokiu atveju pasirinktumėte nuolydį? Ką galite pasirinkti? (Užuomina: kuris paprastas algoritmas garantuoja sprendimo suradimą?)
  • Tarkime, kad turite labai mažą atmintį / saugyklą. Koks algoritmas jums būtų priimtinesnis - logistinė regresija ar artimiausias kaimynas? Kodėl? (Užuomina: Erdvės sudėtingumas)
  • Norėdami sukurti mašininio mokymosi modelį, iš pradžių turėjote 100 duomenų taškų ir 5 funkcijas. Norėdami sumažinti šališkumą, dvigubai padidinote funkcijas, kad apimtumėte dar 5 kintamuosius ir surinktumėte dar 100 duomenų taškų. Paaiškinkite, ar tai teisingas požiūris? (Užuomina: mašinų mokymasis yra prakeikimas. Ar girdėjai apie tai?)

Jei turite kokių nors kitų įdomių ML klausimų ar idėjų, kuriomis norite pasidalinti, susisiekite su autoriumi čia. Gerus klausimus sunku sukurti ir jie sukelia smalsumą ir verčia giliai pagalvoti. Užduodami juokingą ir įdomų klausimą, jūs kartu padarote mokymosi patirtį malonią ir turtingą. Tikiuosi, kad jums patiko šis bandymas tai padaryti.