Uniform Resource Identifier
URI (celým názvem Uniform Resource Identifier – „jednotný identifikátor zdroje“) je textový řetězec s definovanou strukturou, který slouží k přesné specifikaci zdroje informací (ve smyslu dokument nebo služba), hlavně za účelem jejich použití pomocí počítačové sítě, zejména Internetu.
Užití, vztah k URL a URN
URI je nejobecnější z několika příbuzných typů identifikátorů. URI může popisovat zdroj jak čistě z hlediska jeho identity (a neurčovat, kde je možno zdroj získat), tak čistě z hlediska toho, jak je možno zdroj nalézt (a nepopisovat jeho identitu), tak i obojí současně – přesnou identitu zdroje i jak je možno ho dosáhnout.
Oproti URI popisuje URL primárně způsob, jakým se lze ke zdroji dostat, naopak URN specifikuje zdroj jako takový a nesnaží se o návod k jeho dosažení. Hranice mezi těmito typy je však mírně mlhavá a zejména místo URL se často uvádí obecnější termín URI.
Formát
Jelikož je URI velmi obecný koncept, jeho základní formát je velmi volný: v principu se jedná o název takzvaného schématu, následovaný dvojtečkou a dále prakticky libovolným řetězcem, jehož význam a formátování už závisí právě na použitém schématu. Standard URI specifikuje pouze základní syntax, která popisuje, které znaky je dovoleno v URI použít apod. URI tedy má následující tvar:
schéma:hierarchická část?dotaz#fragment
přičemž části ?dotaz
a #fragment
jsou nepovinné.
- schéma
- Musí začínat písmenem a obsahovat jen písmena, číslice a znaky plus (
+
), minus (-
) a tečku (.
). Určuje, o jaký druh URI se jedná a jaký význam a syntaxe platí pro zbytek URI. U schématu nezáleží na velikosti písmen, ale za základní se považuje podoba se všemi písmeny malými. - hierarchická část
- Obsahuje identifikátor zdroje v rámci nějaké hierarchické struktury. Standard URI dovoluje, aby tato část byla formátována prakticky libovolně, ale předepisuje také několik předdefinovaných syntaxí užitečných pro obvyklé situace. Jednou z nich je formát, kde po dvojtečce oddělující název schématu následují dvě lomítka (
//
), po kterých následuje označení tzv. autority, které je tvořeno jménem či IP adresou počítače, před kterým smí být informace o uživateli oddělená zavináčem (@
), za ním smí být číslo portu oddělené dvojtečkou. Za označením autority následuje cesta: posloupnost segmentů oddělených lomítky (/
) – značení obdobné adresářům, ale nemusí se jednat přímo o ně, ale obecně o jakýkoli hierarchický systém. - dotaz
- Popisuje nehierarchickou část identifikátoru, která slouží k bližšímu určení požadovaného zdroje. Tato část nemá žádnou standardizovanou syntaxi, ovšem v praxi se velmi často používá posloupnost dvojic
klíč=hodnota
oddělená ampersandy (např.kdo=Josef&okres=Brno
). - fragment
- Nepřímo popisuje sekundární zdroj na základě primárního zdroje určeného předešlými částmi URI. Může popisovat nějakou konkrétní část (např. kapitolu knihy) tohoto zdroje, nějaký jinou reprezentaci příslušného zdroje apod.
Reference
- STD 0066 (RFC 3986) – Uniform Resource Identifier (URI): Generic Syntax