Зашто обрађујемо речнике у XML-у?

Формат лексичких података утиче у великој мери на функционалност електронских речника.

(CC) by kanaka

Речници који ће бити објављени на нашој платформи анотирају се у тзв. проширивом језику за означавање (Extensible Markup Language, XML) и у потпуној сагласности са смерницама Иницијативе за кодирање текста (Text Encoding Intiative, TEI) — међународно прихваћеног научног стандарда за обраду текста у дигиталној форми. Отворени формат у коме се припремају речници за потребе пројекта Расковник од суштинског је значаја за дугорочну расположивост и доступност дигиталних података.

TEI представља прецизан метајезик којим се за рачунаре иначе недокучиви елементи или функције текста експлицитно обележавају тако да могу да буду поуздано и доследно машински обрађени. Када је обележавање текста у питању, свеједно је да ли се ради о семиотички значајним елементима форматирања текста, као што су нпр. употреба курзива или подела на одељке; о морфосинтаксичкој анализи текста, ономастичким елементима или тумачењу реторичких или поетских фигура.

Маркери (ознаке) текста су све информације садржане у рачунарској датотеци које нису сам текст. Другим речима, обележавање текста је интерпретативна пракса којом се експлицитном чини било која имплицитна вредност текста. Обележени текст је тако надограђен текст: текст који садржи више од себе самог.

Како изгледа речничка одредница у XML-у?

Узмимо нпр. одредницу абаџијнски/абаџијски из Вуковог Српског рјечника. У штампаном издању, она изгледа овако:

абаџијски

Једна од могућих репрезентација ове одреднице у XML-у изгледа овако:

<entryFree xml:id="VSK.SR.абаџијски" sortKey="абаџијски">
    <form type="lemma"><orth>а̏баџи̑јнски̑</orth> и <orth>а̏баџи̑јски̑</orth></form>
    <pc>,</pc>
    <form type="ending">
        <orth>ка̑</orth>
    </form>
    <pc>,</pc>
    <form type="ending">
        <orth>ко̑</orth>
    </form>
    <pc>,</pc>
    <gramGrp source="#digitalEd">
        <pos>adj.</pos>
    </gramGrp>
    <sense xml:id="d1e700">
        <cit type="translation">
            <quote xml:lang="de">der <w xml:lang="sr">абаџије</w></quote>
        </cit>
        <pc>,</pc>
        <cit type="translation">
            <quote xml:lang="la">
                <w xml:lang="he">τῶν</w>
                <w xml:lang="sr">абаџије</w>
            </quote>
        </cit>
        <pc>.</pc>
    </sense>
</entryFree>

Анотирање текста у ХМЛ-у није само начин на који се може избећи зависност од комерцијалних, заштићених формата и обезбедити одрживост података; него и основа за развој структурисаног претраживања преко свих параметара експлицитно обележених у тексту.

Да ли ће крајњи корисници морати да науче ХМЛ?

Дефинитивно не! XML је за нас метајезик за моделирање података, а TEI - нормативни вокабулар за описивање речничких одредница.

Крајњи корисници, међутим, претраживаће и користити речнике на начин на који су то навикли да чине и у другим онлајн окружењима: преко поља за претрагу, падајућих менија и сл.