Data Skeptic

Data Skeptic

Categories

metadata
miniepisode
advertising
medicine
general
wikipedia
art
financial
gaming
statistics
skepticism
data science
socialweb
love
econometrics
deep neural networks, image recognition
data viz
privacy
open data
psychology
audio
data philanthropy
measurement
gmo
civic data science

Archives

April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May

Syndication

Fri, 22 July 2016

Predictive Models on Random Data

This week is an insightful discussion with Claudia Perlich about some situations in machine learning where models can be built, perhaps by well-intentioned practitioners, to appear to be highly predictive despite being trained on random data. Our discussion covers some novel observations about ROC and AUC, as well as an informative discussion of leakage.

Much of our discussion is inspired by two excellent papers Claudia authored: Leakage in Data Mining: Formulation, Detection, and Avoidance and On Cross Validation and Stacking: Building Seemingly Predictive Models on Random Data. Both are highly recommended reading!

Direct download: Predictive_Models_on_Random_Data.mp3
Category:general -- posted at: 8:00am PDT