Kategória: Adattudomány R-ben
|
Table of Contents
|
Adattudomány specializáció (Coursera)
https://www.coursera.org/specializations/jhu-data-science
Ez egy ingyen elvégezhető 10 részes adattudomány specializáció a Coursera oldalon, a Johns Hopkins University oktatóinak jóvoltából. A tananyag szabadon elérhető ezeken az oldalakon:
- https://datasciencespecialization.github.io/
- https://github.com/DataScienceSpecialization/courses
- https://github.com/bcaffo/courses/
Az adattudós eszköztára
https://www.coursera.org/learn/data-scientists-tools/
Ez a képzés azokat az eszközöket mutatja be, amelyekre szükség van a képzés elvégzéséhez: R, R Studio, R tools, Git, GitHub.
Az adattudomány kérdéseinek típusai:
- Leíró (descriptive): egy adathalmaz leírása.
- Felderítő (exploratory): korábban nem ismert kapcsolat felderítése.
- Következtető (inferential): állítás megfogalmazása nagyobb adatmennyiségről viszonylag kis minta felhasználásával.
- Előrejelző (predictive): valamilyen dologgal kapcsolatos adatok felhasználása más dologgal kapcsolatos értékek előrejelzésére.
- Okozati (casual): annak a kiderítése, hogy mi történik egy változóval ha egy másikat megváltoztatunk.
- Mechanisztikus (mechanistic): egy változó megváltozásának megértése, amely más dolgok változóinak a megváltozásához vezetnek.
Az adattudományban a legfontosabb a kérdés, a második legfontosabb az adat.
R programozás
https://www.coursera.org/learn/r-programming
Az R programozási nyelv a Python mellett az adattudomány meghatározó nyelve, és különösen az volt a képzés készítésekor.
Erről a témáról az R programozási nyelv oldalon olvashatunk.
Az adatok beszerzése és tisztítása
Kurzus: https://www.coursera.org/learn/data-cleaning/
Ez a kurzus azt a témát boncolgatja, hogy hogyan lesz a nyers adatból tiszta adat, és hogy mit értünk tiszta adat alatt. Tiszta adat alatt a táblázatos adatot értjük, ahol minden mért változó egy oszlopot, és mindegyik mérés egy sort jelent. Az adatokról célszerű egy leírást készíteni, ami tartalmazza a mértékegységeket is. A folyamatot érdemes script segítségével végrehajtani.
Erről a témáról az Adatkezelés R-ben oldalon olvashatunk.
Feltáró adatelemzés
https://www.coursera.org/learn/exploratory-data-analysis/
Ez a tanfolyam diagramok készítésével foglalkozik, ami kiválóan alkalmas az adatok bemutatására. Bemutatja a 3 nagy rendszert: Base-R, Lattice és ggplot.
A témáról a Diagramok R-ben oldalon olvashatunk.
Reprodukálható kutatás
https://www.coursera.org/learn/reproducible-research/
A reprodukálhatóság a tudományos kutatásban alapvető fontosságú. A folyamat minden lépését pontosan dokumentálni kell. A véletlenítést is reprodukálhatóvá kell tenni, azaz a véletlenszám generátorok magját (seed) is be kell állítani, hogy a későbbi futáskor pontosan ugyanaz legyen az eredmény.
A tanfolyam olyan technológiákat említ mint a Markdown és az RPubs. ami megtalálható az R adattermékek oldalon.
Statisztikai következtetés
https://www.coursera.org/learn/statistical-inference/
Ez a tanfolyam olyan valószínűségszámítási és statisztikai témákat boncolgat, mint várható érték, szórás, különféle eloszlások, statisztikai próbák.
A Statisztika R-ben oldal foglalkozik ezekkel a témákkal.
Regressziós modellek
https://www.coursera.org/learn/regression-models/
Ez a tanfolyam a regresszióval, azaz a szám adatok kapcsolatával foglalkozik. Érinti a lineáris és logisztikus regresszió, az egy- és többváltozós regresszió és a különböző hibaszámítások területét.
A témát érinti a Gépi tanulás R-ben oldal.
Gyakorlati gépi tanulás
https://www.coursera.org/learn/practical-machine-learning/
Gépi tanulási módszereket mutat be, ami többféle osztályozási és regressziós módszert érint, valamint ismereti a caret csomagot is.
A témáról összefoglalót a Gépi tanulás R-ben oldalon találunk.
Adattermékek fejlesztése
https://www.coursera.org/learn/data-products/
Ez a kurzus arról szól, hogy hogyan tudunk statisztikai alkalmazásokat, elsősorban webalkalmazásokat készíteni.
Az anyag az R adattermékek oldalon érhető el.
Adattudomány záró projekt
https://www.coursera.org/learn/data-science-project
Egy nagy méretű szöveget (korpuszt) kellett elemezni, és ennek segítéségével egy olyan alkalmazást írni, ami egy üzenet írásakor javaslatot tesz a következő szóra.
Online tananyagok
A neten számos R tutorial található. A jelentősebb tutorial oldalak szinte mindegyike tartalmaz R-t, ahogy vannak saját tananyagok is, valamint komplett könyveket is le lehet tölteni:
- https://cran.r-project.org/doc/manuals/r-release/R-intro.html
- https://education.rstudio.com/learn/beginner/
- https://www.w3schools.com/r/
- https://www.tutorialspoint.com/r/
- https://www.geeksforgeeks.org/r-language/r-tutorial/
- http://r-tutorials.com/
- http://r-tutorial.nl/
- https://cran.r-project.org/doc/manuals/R-intro.pdf
- https://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
- https://ds.dfci.harvard.edu/~aedin/courses/R/CDC/Intro2R.pdf
- https://www.stat.purdue.edu/scs/docs/R_Tutorial.pdf






