Un po’ di gergo del Machine Learning
- By : Marco Tibaldeschi
- Category : Teoria

Proprio oggi mi sono imbattuto in un interessantissimo articolo su Linkedin Pulse che aveva come argomento il gergo che viene solitamente utilizzato nell’ambito del machine learning.
Trovo necessario che, chiunque decida di avvicinarsi a questa branca interessantissima della matematica/informatica, debba necessariamente avere padronanza del linguaggio tecnico per poter comprendere a fondo la vastità del materiale disponibile in rete. Mi permetto, dunque, di prendere spunto da quell’articolo e “farlo mio”, traducendo in italiano la prima parte di vocabolario che l’autore, Karthik Guruswamy, ha deciso di illustrare. Iniziamo!
Distribuzione (Distribution): un modo per spiegare come i dati sono distribuiti in funzione del tempo, dei clienti, altro…
Modello (Model): una struttura matematica che possiede informazioni su ciò che è contenuto in un insieme di dati storici e come sono correlati fra di loro. Un algoritmo si occupa di creare questo modello analizzando questo insieme di dati storici.
Addestramento (Training): il processo di creazione di un modello, a partire da un insieme di dati storici.
Predizione (Prediction): gli algoritmi valutano i dati nuovi facendo uso del modello precedentemente addestrato e generano un “punteggio”/”valore” o una “categoria” (es. cane, gatto). Questo punteggio/valore/categoria è la predizione effettuata sulla base dei nuovi dati.
Classificazione (Classification): il processo che si occupa di associare ai dati in ingresso una fra 2 o più categorie utilizzando del modello addestrato.
Classificatore (Classifier): un algoritmo che effettua una classificazione
Regressione (Regression): l’operazione che cerca di associare una funzione matematica (tipicamente una retta) a partire da un insieme di dati.
Sequenza (Sequence): dati ordinati temporalmente come, ad esempio, log temporali, transazioni economiche ecc. Potrebbero essere importanti, oltre al contenuto, anche la sequenza degli eventi!
Lista di parole (Bag of words): dati non ordinati, ovvero dati il cui ordine non ha importanza.
Caratteristiche (Features): colonne di dati, come “età”, “altezza”, “codice postale”, ecc.
Categorica / Numerica / Testuale / Booleana: tipo di dato contenuto in una determinata caratteristica. Se è categorica, la caratteristica può assumere un valore in un determinato insieme (es. la caratteristica “giorno della settimana” può assumere uno fra i valori “Lunedì”, “Martedì”, “Mercoledì”, “Giovedì”, “Venerdì”, “Sabato” e “Domenica”), se è numerica può assumere un numero reale, intero o altro, se è testuale può essere una sequenza qualunque di caratteri, mentre se è booleana può assumere valore “vero” o “falso”.
Riduzione della dimenzione (Dimension reduction): processo di rimozione di caratteristiche che non accrescono il valore del nostro modello. Tale processo permette di ottenere un addestramento e previsioni più rapide e, magari, addirittura migliori!
No Comments