Data Skeptic

Data Skeptic

Categories

metadata
miniepisode
advertising
medicine
general
wikipedia
art
financial
gaming
statistics
skepticism
data science
socialweb
love
econometrics
deep neural networks, image recognition
data viz
privacy
open data
psychology
audio
data philanthropy
measurement
gmo
civic data science

Archives

April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May
April
March
February
January

December
November
October
September
August
July
June
May

Syndication

Mon, 19 August 2019

Building the howto100m Video Corpus

Video annotation is an expensive and time-consuming process. As a consequence, the available video datasets are useful but small. The availability of machine transcribed explainer videos offers a unique opportunity to rapidly develop a useful, if dirty, corpus of videos that are "self annotating", as hosts explain the actions they are taking on the screen.

This episode is a discussion of the HowTo100m dataset - a project which has assembled a video corpus of 136M video clips with captions covering 23k activities.

Related Links

The paper will be presented at ICCV 2019

Antoine on Github

Antoine's homepage

Direct download: building-the-howto100m-video-corpus.mp3
Category:general -- posted at: 1:12pm PDT