Нови формати подготвят документите за изкуствения интелект
Светът на документите се променя бавно, но вече се появяват инструменти и стандарти, които да ги направят по-разбираеми за машините. Те обещават да улеснят редактори и издатели, но не могат да заменят човешката преценка.
Светът на документите се променя по-бавно от света на изкуствения интелект.
Докато моделите стават все по-способни, бизнесът продължава да живее в познати формати – текстови файлове, оформени документи, презентации.
Именно тук се появяват нови софтуерни решения, които обещават да направят документите „по-разбираеми“ за машините.
Две от тях вече привличат внимание: инструмент с отворен код, който подготвя документи за работа с изкуствен интелект, и нов стандарт, който цели да се превърне в общ език за готови за изкуствен интелект документи.
Те идват от среда на големи технологични компании и отворени общности, но реалният въпрос е друг: какво означават за хората, които всеки ден редактират, коригират и странират текстове? И могат ли да облекчат работата на редактори, преводачи и издатели, или остават по-скоро инфраструктура за бъдещи системи? В продължение на десетилетия форматите за текст и документи са създавани за хора, а не за машини.
Те са удобни за четене, печат и визуално оформление, но не и за алгоритми.
Един поглед към произволен ръкопис, доклад или книга показва защо: заглавия, подзаглавия, бележки под линия, таблици, включени изображения, различни стилове, сложни структури на абзаци.
Човекът лесно различава кое е заглавие, кое е цитат, кое е таблица с данни и кое е бележка на автора.
За една система, обучена да работи с текст, това не е естествено.
Тя получава „плоска“ последователност от думи и символи и трябва да „отгатва“ структурата.
Това усложнява задачите за резюмиране, проверка на фактите, корекция, извличане на данни.
Тук се появяват нови решения, които се опитват да поставят ред между света на оформените документи и света на езиковите модели.
Едното е инструмент, който конвертира класически документи в структурирано представяне.
Другото – нов, предложен стандарт за това как да изглежда един документ, когато трябва да бъде „смилаем“ за изкуствен интелект.
Коментари (0)