ISO-Latin-1-merkistöstä

Sisältö

Tätä dokumenttia huomattavasti laajempi kuvaus ISO-Latin-1-merkkien käytöstä on kirjoittamani The ISO Latin 1 character repertoire - a description with usage notes.

Ks. myös suositusta Eurooppalaisen merkistön merkkien suomenkieliset nimet.

Johdanto

Tietokoneissa käytetään hyvin suurta määrää erilaisia merkistöjä, ja erilaisuus aiheuttaa huomattavia ongelmia etenkin siirrettäessä tietoja, varsinkin tekstejä, tietokoneesta toiseen. Yksi kirjavuuden syy on se, että tietokoneiden alkuaikoina pyrittiin selviämään varsin suppeilla merkistöillä, jopa sellaisilla, joissa ei ollut edes pieniä kirjaimia. Tämän syynä puolestaan oli mm. se, että tietokoneita käytettiin aluksi vain numeeriseen laskentaan. Käyttöalueen laajentuessa eri valmistajat laajensivat merkistöjä kukin omalla tavallaan.

Tilannetta on pyritty korjaamaan standardoinnilla, mutta asiaa vaikeuttaa se, että yleensä on rajoituttu sellaisiin merkistöihin, joissa erilaisia merkkejä on 128 tai 256, joista vielä osa on varattu ns. kontrollimerkeille. Lukumäärä on tietysti aivan liian pieni kaikissa eri kielissä käytettyjen merkkien esittämiseen. Niinpä standardeista yleensä onkin kansallisia muunnelmia, mikä on vastoin standardoinnin perusajatusta.

Seuraavassa käsitellään ns. ISO-Latin-1-merkistöä, joka tunnetaan myös koodinimellä ISO 8859-1. Sen virallinen suomenkielinen nimi on "latinalaisaakkosto 1". ISO-Latin-1 sisältää osajoukkonaan Ascii-merkistön näkyvät merkit. Se on osa laajempaa standardikokonaisuutta ISO 8859 ja tarkoitettu erityisesti länsi- ja pohjoiseurooppalaisia kieliä varten. Tämä selittää sen, että mukana on sellaisten käyttäjämääriltään pienten kielten kuin islannin erikoismerkkejä mutta ei läheskään kaikkia sellaisten eurooppalaisten kielten merkkejä, joita käyttävät miljoonat ihmiset (esimerkiksi unkarin, puolan ja tshekin). Korostettakoon, että kyseessä on eri merkistö kuin esim. PC- ja Mac-mikrotietokoneissa tavalliset merkistöt, joskin merkistöjen välillä on yhtäläisyyksiä. ISO-Latin-1-merkistö on yleistynyt mm. Unix-tietokoneissa.

ISO-Latin-1-merkistö sisältyy osajoukkona (Basic Latin ynnä Latin-1 Supplement) Unicode-merkistöön, joka on riittävä maailman kaikkien kielten tarpeisiin. Sen yleistyminen kestänee kuitenkin vielä vuosia.

Tämän pikku tekstin tarkoitus on havainnollistaa ISO-Latin-1-merkistön tarjoamia mahdollisuuksia. Lisäksi kuvataan kyseisen merkistön erikoismerkit aiheenmukaisesti ryhmiteltyinä. Teknisempiin tarkoituksiin olen laatinut erillisen dokumentin, joka sisältää ISO-Latin-1-merkit suomen- ja englanninkielisine nimineen merkkikoodin mukaisessa järjestyksessä.

Tämä teksti kirjoitettiin alun perin käyttäen varsin alkeellista tapaa tuottaa ISO-Latin-1-merkkejä:

Vaikka tämä tapa on alkeellinen, se voi silti olla käyttökelpoinen haluttaessa tuottaa tekstiä, joka tavallisten tekstien lisäksi sisältää vain muutamia erikoisia merkkejä, vaikkapa nimen Zürich, Rhône tai Lindén taikka mittayksikön tunnuksen µm oikein kirjoitettuna. Niitä varten, jotka haluavat käyttää samaa tapaa, ja miksei muillekin, jotka tarvitsevat merkkien koodeja, esitän seuraavassa erikoismerkkien oktaalikoodit suluissa. Jos Emacsin käyttäjällä esiintyy usein edellä mainitun kaltaista tarvetta, kannattaa tutustua Emacsin iso-accents-moodiin.

Useissa tilanteissa kätevämpiä menetelmiä kyseisten merkkien tuottamiseen käsittelee dokumentti Erikoismerkkien kirjoittaminen suomalaisella PC-näppäimistöllä.

ISO-Latin-1-merkistöä erityisesti WWW:n (HTML-kielen) kannalta käsittelee A. J. Flavellin kokoelma kirjoituksia ISO 8859-1:stä. Symboliset merkinnät ISO-Latin-1-merkeille HTML 3.2:ssa on kuvattu HTML 3.2 -oppaani liitteessä Table of Character Entities for ISO Latin-1. Joitakin tähän aiheeseen liittyviä ongelmia, lähinnä merkistömuunnosten aiheuttamia, käsittelee kirjoitukseni Mikrojen merkistöjen aiheuttamista ongelmista Webissä.

Skandinaaviset kirjaimet

Suomessa useimmiten tarvittavia sellaisia ISO-Latin-1-koodin merkkejä, jotka eivät kuulu Ascii-koodiin, ovat skandinaaviset kirjaimet å (345), ä (344) ja ö (366) sekä vastaavat isot kirjaimet Å (305), Ä (304) ja Ö (326).

Koska skandinaavisilla kirjaimilla siis on omat koodinsa eikä niitä esitetä Ascii-koodin haka- ja aaltosulkujen ja muiden erikoismerkkien koodeilla, voidaan samassa tekstissä mainiosti käyttää sekä "skandeja" että em. merkkejä. Tästä on etua mm. ohjelmoinnissa. Esimerkiksi C-ohjelmarivi

	
        a[i] = 0;  /* Tässä on fiksu kommentti. */
näyttää ISO-Latin-1:tä käytettäessä luonnolliselta mutta Asciissa oudolta, koska se näyttäisi jommaltakummalta seuraavista sen mukaan, onko käytettävässä laitteessa kansainvälinen vai skandinaavinen muunnelma Ascii-koodista:
	a[i] = 0;  /* T{ss{ on fiksu kommentti. */
	aÄiÅ = 0;  /* Tässä on fiksu kommentti. */
Mainittakoon tässä yhteydessä niiden merkkien koodit, jotka suomalaistetussa Asciissa on korvattu skandinaavisilla kirjaimilla mutta jotka ISO-Latin-1:ssä ovat samat kuin alkuperäisessä Asciissa: Skandinaavisia kirjaimia käsitteen laajassa merkityksessä ovat myös norjassa ja tanskassa käytetyt æ (346) ja ø (370) sekä vastaavat isot kirjaimet Æ (306) ja Ø (330) samoin kuin islannin ð (360), þ (376), Ð (320) ja Þ (336). Näistä osaa käytetään myös kielitieteessä foneettisessa kirjoituksessa.

Muut kansalliset kirjaimet

ISO-Latin-1:ssä on suuri joskaan ei kattava valikoima muitakin kansallisia kirjaimia eli sellaisissa kielissä käytettyjä kirjaimia, joiden aakkosto pohjautuu latinalaiseen aakkostoon, jota on täydennetty lisämerkeillä. Useimmat tällaiset lisämerkit ovat latinalaisten kirjainten muunnelmia, joissa kirjaimeen on liitetty jokin ns. diakriittinen merkki kuten aksentti. Huomattakoon, että ISO-Latin-1 on perusluonteeltaan "latinalainen" eikä siihen kuulu esimerkiksi kreikkalaisen tai kyrillisen kirjaimiston merkkejä. Poikkeusta ei muodosta edes merkki µ (265); vaikka se perustuukin kreikan myy-kirjaimeen, sitä pidetään itsenäisenä merkkinä, joka on mikro-etuliitteen tunnus.

Latinalaisen aakkoston vokaaleista ovat käytettävissä muunnelmat, joissa kirjaimen päällä on akuutti, graavi (gravis), sirkumfleksi tai treema. Nämä diakriittiset merkit ovat mukana myös itsenäisinä merkkeinä: ´ (264), ` (140), ^ (136) ja ¨ (250). (Näistä graavi ` ja sirkumfleksi ^ kuuluvat myös Asciihin. Huomaa, että aksentti ´ on eri merkki kuin Asciin heittomerkki eli apostrofi ', joskin niiden näkyvä esitys voi olla hyvin samanlainen.) Poikkeuksellisesti y:stä ei ole graavilla eikä sirkumfleksillä varustettua muunnelmaa ja treemalla varustettukin on vain pienenä. Mainitut vokaalien muunnelmat ovat:

á (341) é (351) í (355) ó (363) ú (372) ý (375)

à (340) è (350) ì (354) ò (362) ù (371)

â (342) ê (352) î (356) ô (364) û (373)

ä (344) ë (353) ï (357) ö (366) ü (374) ÿ (377)

Á (301) É (311) Í (315) Ó (323) Ú (332) Ý (335)

À (300) È (310) Ì (314) Ò (322) Ù (331)

 (302) Ê (312) Î (316) Ô (324) Û (333)

Ä (304) Ë (313) Ï (317) Ö (326) Ü (334)
Näistä tietysti treemallinen u on sama kuin saksalainen y eli ü, ja treemalliset a ja o ovat tutut vokaalimme ä ja ö.

Näiden kirjainten käytöstä huomattakoon mm. seuraavat seikat:

Lisäksi ISO-Latin-1:een kuuluvat seuraavat kansalliset merkit: Suomen kielen kannalta pahin puute ISO-Latin-1:ssä on se, että siitä puuttuvat hattu-s ja hattu-z, jotka ovat suhuäänteiden suositelluimpia merkintätapoja kielessämme. Ne on siis edelleenkin korvattava merkkipareilla sh ja zh. Suhuäänteiden merkkejä tosin käytetään vain vierasperäisissä sanoissa kuten slaavilaisten nimien translitteroinnissa ja joissakin uusissa lainasanoissa. Lisäksi suhu-s on virallisten suositusten mukaankin yhä yleisemmin korvattu tavallisella s:llä myös kirjoituksessa (esim. plantaasi, sakaali).

Rahayksiköiden symbolit

Asciissa on rahayksiköiden symboleista käytössä vain dollarinmerkki, joka on käytännössä usein korvattu jollakin muulla merkillä, eri maissa ja eri laitteilla eri tavoin. ISO-Latin-1:ssä ovat seuraavat rahayksiköiden symbolit:

¤ (244) kansainvälinen rahayksikön symboli (international currency symbol)
$ (044) dollarin symboli
¢ (242) sentin (cent) symboli
£ (243) punnan symboli
¥ (245) jenin ja juanin symboli.

Rahayksiköiden symbolien käyttöä normaalissa suomenkielisessä tekstissä ei voi suositella, vaan on selvintä käyttää sanoja, esim. "1000 dollaria" tai selvyyden vaatiessa "1000 Yhdysvaltain dollaria". Jos niitä käytetään englanninkielisessä tekstissä, olisi noudatettava kyseisen kielen sääntöjä eli kirjoitettava esimerkiksi "$1000" eikä "1000 $".

Välimerkit

Ascii-koodin mukaisten huuto- ja kysymysmerkkien lisäksi ovat käytössä käännetyt huuto- ja kysymysmerkit ¡ (241) ja ¿ (277). Niitä käytetään espanjassa siten, että huudahdus- tai kysymyslauseen alkuun tulee käännetty huuto- tai kysymysmerkki ja loppuun normaali huuto- tai kysymysmerkki, esim.: ¡Buenos días, señor! ¿Cómo está usted?

Lainausmerkeistä ovat käytössä seuraavat Ascii-koodin mukaiset merkit:
" (042) tavallinen eli kaksinkertainen lainausmerkki
' (047) yksinkertainen eli puolilainausmerkki eli heittomerkki (apostrofi), jonka ulkoasu voi vaihdella.
Näitä käytettäessä alku- ja loppulainausmerkki ovat keskenään samanlaiset, toisin kuin usein kirjapainotekstissä. Lainausmerkkien käytön säännöt ovat eri kielissä erilaiset, jopa brittiläisenglannissa erilaiset kuin amerikanenglannissa, joten täysin korrektiin käyttöön pyrittäessä on oltava tarkkana ja perehdyttävä kyseisen kielen omiin sääntöihin.

ISO-Latin-1:een kuuluvat myös lainausmerkit « (253) ja » (273), joita käytettäessä siis lainauksen aloitusmerkki voi olla erilainen kuin lopetusmerkki, esim. «Totuus ei pala tulessakaan», sanoi entinen mies, kun yritti käyttää Pravdaa sytykkeenä. Näitä merkkejä ei pidä sotkea matematiikassa ja tekniikassa käytettyihin symboleihin, jotka tarkoittavat 'paljon pienempi kuin' ja 'paljon suurempi kuin' ja jotka täytyy esittää samoin kuin Asciissa eli merkkipareilla << ja >>.

Ajatusviivaa ei ISO-Latin-1:een kuulu. Suomalaisen normin mukaan ajatusviiva korvataan konekirjoitustekstissä yhdysviivalla, jonka molemmin puolin on välilyönti, esim. 3 - 5 (kun painotekstissä on kolmonen, ajatusviiva ja viitonen ilman välilyöntejä), ja tämä soveltunee myös Ascii- ja ISO-Latin-1-teksteihin.

Välimerkkinä voidaan pitää myös rivinkeskistä pistettä (middle dot) ·, jolla on useita erilaisia käyttöjä esim. eräissä kemian kaavoissa. Huomattakoon, että kertolaskun merkiksi sopii paremmin kertomerkki × (327). Rivinkeskisen pisteen näköistä merkintää esiintyy myös desimaalipisteen tai -pilkun tilalla etenkin hintamerkinnöissä. Esimerkiksi Englannissa saattaa merkintä 123·50 tarkoittaa 123 puntaa 50 pennyä. Tällainen käyttö ei ole Unicode-standardin mukaan suotavaa, vaan tilalla olisi käytettävä pistettä, mahdollisesti "ylennettynä".

Matemaattiset merkit

Ascii-koodin matemaattisten merkkien kuten + ja - lisäksi ovat käytössä seuraavat matematiikassa ja tekniikassa käytetyt symbolit:

Muut merkit

Vielä muutamia muita merkkejä kuuluu ISO-Latin-1:een:

¯ (257) viiva-aksentti (macron), jolle on erittäin vähän käyttöä (paitsi ehkä APL-kielessä) ¦ (246) katkonainen pystyviiva (broken bar), joka siis on eri merkki kuin yhtenäinen pystyviiva | (174)

§ (247) pykälämerkki, jota kielitoimiston suosituksen mukaan tulisi käyttää vain numeroin ilmaistujen lukujen yhteydessä, siis esim. "3. §" (lakitekstissä luku on kuitenkin pisteetön, siis "3 §") mutta "kolmas pykälä"

© (251) tekijänoikeusmerkki (copyright sign); mainittakoon, että Suomen lain mukaan tekijänoikeus syntyy tekijyydestä eikä tämän tai minkään muunkaan symbolin käytöstä, toisin kuin joskus luullaan

® (256) rekisteröidyn tavaramerkin (registered trade mark) symboli

¶ (266) kappaleen lopun merkki (paragraph marker).