Un po’ di gergo del Machine Learning

Teoria

Proprio oggi mi sono imbattuto in un interessantissimo articolo su Linkedin Pulse che aveva come argomento il gergo che viene solitamente utilizzato nell’ambito del machine learning.

Trovo necessario che, chiunque decida di avvicinarsi a questa branca interessantissima della matematica/informatica, debba necessariamente avere padronanza del linguaggio tecnico per poter comprendere a fondo la vastità del materiale disponibile in rete. Mi permetto, dunque, di prendere spunto da quell’articolo e “farlo mio”, traducendo in italiano la prima parte di vocabolario che l’autore, , ha deciso di illustrare. Iniziamo!

Distribuzione (Distribution): un modo per spiegare come i dati sono distribuiti in funzione del tempo, dei clienti, altro…

Modello (Model): una struttura matematica che possiede informazioni su ciò che è contenuto in un insieme di dati storici e come sono correlati fra di loro. Un algoritmo si occupa di creare questo modello analizzando questo insieme di dati storici.

Addestramento (Training): il processo di creazione di un modello, a partire da un insieme di dati storici.

Predizione (Prediction): gli algoritmi valutano i dati nuovi facendo uso del modello precedentemente addestrato e generano un “punteggio”/”valore” o una “categoria” (es. cane, gatto). Questo punteggio/valore/categoria è la predizione effettuata sulla base dei nuovi dati.

Classificazione (Classification): il processo che si occupa di associare ai dati in ingresso una fra 2 o più categorie utilizzando del modello addestrato.

Classificatore (Classifier): un algoritmo che effettua una classificazione

Regressione (Regression): l’operazione che cerca di associare una funzione matematica (tipicamente una retta) a partire da un insieme di dati.

Sequenza (Sequence): dati ordinati temporalmente come, ad esempio, log temporali, transazioni economiche ecc. Potrebbero essere importanti, oltre al contenuto, anche la sequenza degli eventi!

Lista di parole (Bag of words): dati non ordinati, ovvero dati il cui ordine non ha importanza.

Caratteristiche (Features): colonne di dati, come “età”, “altezza”, “codice postale”, ecc.

Categorica / Numerica / Testuale / Booleana: tipo di dato contenuto in una determinata caratteristica. Se è categorica, la caratteristica può assumere un valore in un determinato insieme (es. la caratteristica “giorno della settimana” può assumere uno fra i valori “Lunedì”, “Martedì”, “Mercoledì”, “Giovedì”, “Venerdì”, “Sabato” e “Domenica”), se è numerica può assumere un numero reale, intero o altro, se è testuale può essere una sequenza qualunque di caratteri, mentre se è booleana può assumere valore “vero” o “falso”.

Riduzione della dimenzione (Dimension reduction): processo di rimozione di caratteristiche che non accrescono il valore del nostro modello. Tale processo permette di ottenere un addestramento e previsioni più rapide e, magari, addirittura migliori!

 

Please follow and like us:
No Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

Teoria
I 5 algoritmi di Machine Learning più utilizzati

Prendendo spunto da un recente articolo, elenco in rassegna i 5 algoritmi più utilizzati nell’ambito del machine learning, secondo l’autore. È importante conoscere e “sporcarsi le mani” con questi algoritmi, poiché si presume che nel prossimo futuro, oltre il 25% degli attuali lavori sarà soppiantato da algoritmi di machine learning. Eccoli, riassunti …

Teoria
Reti neurali: cosa sono?

Abbiamo visto come alcuni problemi di machine learning non siano tanto volti a trovare come soluzione una funzione (es. stima del prezzo di una casa), ma ad associare una fra un insieme di classi. Questi problemi vengono genericamente detti problemi di classificazione. Supponiamo, ad esempio, di voler scrivere un software in grado di …

Teoria
Classificazione: come perdere il lavoro in 5 minuti usando la regressione lineare

Gli algoritmi di classificazione non hanno come obiettivo quello di individuare una funzione che ci permetta di stimare un valore continuo di una variabile dipendente da n altre variabili indipendenti, ma quello di stimare un valore di verità (vero / falso) o di appartenenza ad una determinata classe. Alcuni esempi di problemi …

Social media & sharing icons powered by UltimatelySocial