Text Mining, 6 hp (732A92)

Text Mining, 6 credits

Kursbeskrivning

A large part of the so called big data explosion comes in the form of text. Some examples of textual data are short social media messages, movie recommendations, blog posts, medical journals and official documents in electronic form. The course aims to give an introduction to quantitative methods for analysing text, with a focus on prediction and decision making from textual data. Students will learn the major steps in analysing text: retrieving the text from the original source, pre-processing the text using linguistic rules and structure, and statistical modelling for inference and prediction.

Huvudområde

Statistik

Nivå

Avancerad nivå

Kurstyp

Fristående och programkurs

Examinator

Marco Kuhlmann

Kursansvarig

Marco Kuhlmann

Studierektor eller motsvarande

Peter Dalenius

Tillgänglig för utbytesstudenter

Ja

Kontaktinformation

Kostas Mitropoulos, international coordinator

Kursen ges för Termin Veckor Språk Ort VOF
Fristående kurs (Halvfart, Dagtid) HT 2021 v202144-202202 Engelska Linköping
Fristående kurs (Halvfart, Dagtid) HT 2021 v202144-202202 Engelska Linköping
F7MSL Statistics and Machine Learning, Master´s Programme - First and main admission round 3 (HT 2021) v202144-202202 Engelska Linköping v
F7MSL Statistics and Machine Learning, Master´s Programme - Second admission round (open only for Swedish/EU students) 3 (HT 2021) v202144-202202 Engelska Linköping v
VOF = Valbar / Obligatorisk / Frivillig

Huvudområde

Statistik

Utbildningsnivå

Avancerad nivå

Fördjupningsnivå

A1N

Kursen ges för

  • Master's Programme in Statistics and Machine Learning

Förkunskapskrav

  • Kandidatexamen om 180hp (eller motsvarande) inom något av följande ämnen:
    • statistik
    • matematik
    • tillämpad matematik
    • datavetenskap
    • teknik
  • Godkända kurser i:
    • kalkyl
    • linjär algebra
    • statistik
    • programmering
  • Engelska 6/B
    (Undantag för svenska)

Lärandemål

Efter avslutad kurs skall den studerande på en avancerad nivå kunna:
- använda standardmetoder för informationssökning och informationsutvinning,
- tillämpa textbehandlingsmetoder för att förbereda dokument för statistisk modellering,
- tillämpa relevanta statistiska modeller för analys av textinformation och tolka resultat på ett korrekt sätt,
- använda statistiska modeller för prediktion av textinformation,
- utvärdera prestanda av statistiska modeller för textmaterialet.

Kursinnehåll

Kursen behandlar hur textinformation kan utvinnas, lingvistiskt bearbetas och därefter analyseras kvantitativt med formella statistiska metoder och modeller. Kursen utnyttjar expertkunskaper från databashantering, beräkningslingvistik och statistik.
Följande ämnen är inkluderade:
Introduktion till och överblick av kvantitativ textanalys och dess tillämpningar; Informationsutvinning; Webbcrawling; Informationssökning; Tf-idf; Vektorrymdsmodeller; Textbehandling; Bag of Words modellen; N-grams; Gleshet och utjämning för text; Dokumentklassificering; Sentimentanalys; Modellutvärdering; Topic modeller.

Undervisnings- och arbetsformer

Kursen består av föreläsningar, datorövningar och ett projekt. Föreläsningarna ägnas åt genomgång av koncept och metodik. Datorövningarna ägnas åt praktisk tillämpning av Text Mining redskapen. Projektarbetet ger praktisk erfarenhet av lösning av ett specifikt Text Mining problem. Utöver detta ska den studerande utöva självstudier. 
Undervisningsspråk: engelska.

Examination

Skriftlig redovisning av projektarbetet. Skriftliga laborationsuppgifter. Detaljerad information återfinns i studiehandledningen.

Om LiU:s koordinator för studenter med funktionsnedsättning har beviljat en student rätt till anpassad examination vid salstentamen har studenten rätt till det. Om koordinatorn istället har gett studenten en rekommendation om anpassad examination eller alternativ examinationsform, får examinator besluta om detta om examinator bedömer det möjligt utifrån kursens mål.

Studerande, vars examination underkänts två gånger på kursen eller del av kursen, har rätt att begära en annan examinator vid förnyat examinationstillfälle.

Den som godkänts i prov får ej delta i förnyat prov för högre betyg.

Betygsskala

ECTS, EC

Övrig information

Planering och genomförande av kurs ska utgå från kursplanens formuleringar. Den kursvärdering som ska ingå i varje kurs ska därför behandla frågan om hur kursen överensstämmer med kursplanen.

Kursen bedrivs på ett sådant sätt att både mäns och kvinnors erfarenhet och kunskaper synliggörs och utvecklas.

Institution

Institutionen för datavetenskap
Det finns ingen kurslitteratur tillgänglig för den här kursen.
PRA1 Examination EC 3 hp
LAB1 Laboration EC 3 hp

Denna flik innehåller det material som är publikt i Lisam. Den information som publiceras här är inte juridiskt bindande, sådant material hittar du under övriga flikar på denna sida. Det finns inga filer att visa.

Sidansvarig: Infocenter, infocenter@liu.se