proběhne 23. února 2017
v posluchárně E-107, FEL ČVUT
Karlovo nám. 13, Praha 2
Na programu je Tomáš Skopal: Podobnostní vyhledávání v nestrukturovaných datech
V dnešní době velkých dat ("Big Data") se stále častěji setkáváme s daty, která pocházejí ze senzorů digitalizujících "signály přírody" a jejichž technická datová struktura slouží pouze k manipulaci a reprodukci. Nejčastěji mezi tato nestrukturovaná data řadíme multimédia (obraz, zvuk), ale senzorová data mohou být daleko rozmanitější. Pro vyhledávání v nestrukturovaných datech se používají abstraktní podobnostní modely, kde jsou datové entity reprezentovány doménově specifickými deskriptory (např. vysokodimenzionálními vektory, časovými řadami nebo řetězci). Podobnost entit se pak měří jako vzdálenost jejich deskriptorů a celý problém je tak geometrizován jako vyhledávání nejbližších deskriptorů k deskriptoru dotazového objektu.
Geometrie podobnostních prostorů je velmi důležitá pro indexování, tj. pro databázovou techniku urychlující vyhledávání, ale také pro samotné modelování podobnosti a deskriptorů. V přednášce ukážeme, že obvyklé euklidovské vnímání prostoru není zdaleka jedinou možností reprezentace, velmi používaný je obecnější metrický model. Lze dokonce vyrobit unikátní vzdálenostní prostory, jejichž topologické vlastnosti jsou přímo odvozeny z dat. Budeme také diskutovat otázky spojené s modelováním podobnosti, zejména problematiku sémantických deskriptorů vs. chytrých podobností.
Bližší informace najdete na webové stránce PIS.
Žádné komentáře:
Okomentovat