Tekstintunnistus tekstiä sisältävistä skannauksista, valokuvista ym.

Eräässä aiemmassa vaiheessa tekstintunnistuksessa kuvaskannauksista aiottiin käyttää ABBYY Cloud OCR SDK:ta, joka toimi niin luotettavan oloisesti kaikkiin lähinnä tekstiä sisältäviin kuviin, että se ehdittiin jo ottaa ns. production-käyttöön, mutta jossain vaiheessa se vain poistui ABBYYn tarjonnasta, vaikka se edelleen aiempien asiakkaiden käytössä onkin.

Monien vaihtoehtojen koettelun jälkeen on päädytty käyttämään kahta erilaista, joista ensinnä pyritään käyttämään Googlen Vision APIa ja jos se ei ole käytettävissä (esim. apikey puuttuu), käytetään OCRSpacea. Google on ilmainen 1000 käyttökertaan asti per kuukausi. OCRSpace on ilmainen jatkuvasti, mutta kuvatiedostojen koossa on rajoituksena yksi megatavu, ellei sitten hanki kuukausitilausta. Googlen Vision APIn käyttö vaatii luottokortin käyttöä, mutta siltä ei veloiteta mitään, jos käyttö ei ylitä tiettyä tasoa. Googlen apikeylle voi asettaa rajoituksia kuten esim., että se on käytettävissä vain Vision API:n käytössä ja vain tietyn verkkosivuston käytön rajoissa.

Googlen Vision API:lla saa helposti ja nopeasti luettua tekstimuotoon esim. ikivanhat kuitit. Kirjojen, lehtien ja verkkosivujen tekstit ym. tulevat myös hyvin todennäköisesti kelpoisasti tunnistetuksi.

Muina vaihtoehtoina on kokeiltu mm. Amazonin ja Microsoftin vastaavia, sekä api4ai:tä, mutta mm. hinnoitteluun ja käyttöönottoon liittyvät seikat tekivät Googlen Vision API:sta parhaimman tuntuisen vaihtoehdon. Microsoft olisi muuten voinut hyväkin vaihtoehto, mutta käytettäessä sitä Eden AI:n kautta, se saattoi usein esim. olla näkemättä mitään siinä, missä "kaikki muut" tunnistivat tekstin ihan hyvin. Toisaalta, saa mm. ABBYY OCR SDK:nkin tuottamaa ylimääräisiä kirjainmerkkisiä artefakteja (eng. "anomalies apparent during visual representation"). Kokeiltaessa käyttää Microsoftin Azure AI Visionia suoraan, kiinnostus terminoitui siihen, että se alkoi vaatimaan organisaatiotason hyväksyntää käyttäjätunnuksien käytölle tjs.

OCR-toiminto on käytössä "particular browsing"- ja "image assorting"-näkymissä, kun kuva on tarkastelussa "Large preview" -modaali-ikkunassa. Tunnistetun tekstin saa helposti leikepöydälle klikkaamalla sitä tai painamalla Ctrl-näppäintä pohjaan, jolloin voi valita tekstistä alueen, jolle voi sitten tehdä jotain kuten kopioida vain sen tai hakea sillä tietoa netistä. Toisessa tapauksessa saatu teksti sijoitetaan automaattisesti osaksi muistiinpanomaisen tekstin loppupuolta. Tekstin tunnistus kuvasta on jokseenkin nopea toimenpide käytettäessä Google Vision APIa, sillä siinä kestää noin sekunnin verran. OCR-painikkeet ovat näkyvissä vain, jos oleellisista apikeystä edes jompikumpi on asetettu.

Tekstintunnistus tekstiä sisältävistä skannauksista (aiempaa kokeilua)

ABBYY:n tekstintunnistamisesta ei oikeastaan ole muuta kuin hyvää sanottavaa, sillä kaikki skannattua tekstiä esittävät kuvat (ja myös esim. screenshotit verkkosivuista), mitä sillä kokeili, tuottivat kelpo tuloksia. Sen tekstintunnistukselle voi antaa parametreinä, minkä kielisiä tekstejä kuvasta pyritään etsimään.

444 VIL THE MECHANISM OF TIME-BINDING of it can be found by analysis practically everywhere. Our problem is to analyse the general case. Let us follow up roughly the process. We assume, for instance, an hypothetical case of an ideal observer who observes correctly and gives an impersonal, unbiased account of what he has observed. Let us assume that the happenings he has observed appeared as: O, and then a new happening ( occurred. At this level of observation, no speaking can be done, and, therefore, I use various fanciful symbols, and not words. The observer then gives a description of the above happenings, let us say a, b, c, d, . . . , x; then he makes an inference from these descriptions and reaches a con- clusion or forms a judgement A about these facts. Wc assume that facts unknown to him, which always exist, are not important in this case. Let us assume, also, that his conclusion seems correct and that the action A" which this conclusion motivates is appropriate. Obviously, we deal with at least three different levels of abstractions: the seen, experienced ., lower order abstractions (un-spcakable) ; then the descriptive level, and, finally, the inferential levels. Let us assume now another individual, Smiths ignorant of struc- ture or the orders of abstractions, of consciousness of abstracting, of s.r.; a politician or a preacher, let us say, a person who habitually iden- tifies, confuses his orders, uses inferential language for descriptions, and rather makes a business out of it. Let us assume that Smith, observes the 'same happenings’. He would witness the happenings O, |, ..... and the happening would appear new to him. The happenings O, be would describe in the form a, b, c, d, . . . , from which fewer descriptions he would form a judgement, reach a conclu- sion, B; which means that he would pass to another order of abstrac- tions. When the new happening occurs, he handles it with an already formed opinion B, and so his description of the happening ( is coloured by his older s.r and no longer the x of the ideal observer, but B(x) --- y. His description of ‘facts’ would not appear as the a, b, c, d, . . . , x, of the ideal observer but a, b, c, d,..., B(x) = y. Next he would abstract on a higher level, form a new judgement, about ‘facts’ a, b, c, d, . . . , B(x) =y, let us say, C. We see how the semantic error was produced. The happenings appeared the ‘same’, yet the unconscious identification of levels brought finally an entirely different conclusion to motivate a quite different action, A diagram will make this structurally clearer, as it is very difficult to explain this by words alone. On the Structural Differential it is shown without difficulty.

HIGHER ORDER ABSTRACTIONS 445 Seen happenings (un- IDEAL OBSERVER SMITH] speakable) (First order abstrac- tions) ............. Ik-5 .X Description III! I I I! I ( Second order abstrac- tions) ............. a, b, c, d, ... x a, b, c, d,... B(x)=y Inferences, conclusions, iqB and what not. I (Third order abstrac- tions) ............. A c Creeds and other se- I I mantic reactions.... A' c I Action A9 e Let us illustrate the foregoing with two clinical examples. In one case, a young boy persistently did not get up in the morning. In another case, a boy persistently took money from his mother’s pocketbook. In both cases, the actions were undesirable. In both cases, the parents unconsciously identified the levels, x was identified with B(x), and con- fused their orders of abstractions. In the first case, they concluded that the boy was lazy; in the second, that the boy was a thief. The parents, through semantic identification, read these inferences into every new ‘description’ of forthcoming facts, so that the parents’ new ‘facts’ became more and more semantically distorted and coloured in evaluation, and their actions more and more detrimental to all concerned. The general conditions in both families became continually worse, until the reading of inferences into descriptions by the ignorant parents produced a semantic background in the boys of driving them to murderous intents. A psychiatrist dealt with the problem as shown in the diagram of the ideal observer. The net result was that the one boy was not ‘lazy’, nor the other a ‘thief’, but that both were ill. After medical attention, of which the first step was to clarify the symbolic semantic situation, though not in such a general way as given here, all went smoothly. Two families were saved from crime and wreck. I may give another example out of a long list which it is unnecessary for our purpose to analyse, because as soon as the ‘consciousness of abstracting’ is acquired, the avoidance of these inherent semantic dif- ficulties becomes automatic. In a common fallacy of 'Petitio

Tekstintunnistus valokuvista (aiempaa kokeilua)

Kukaan ei pidä siitä, että menneisyydessä kenties hyvinkin merkittäviä sijainteja tuodaan valokuvitse näytille netin kaupunkikohtaisessa keskusteluryhmässä ihmisiä sillä tapaa yllättävästi, etteivät he ehdi suhteuttamaan tuntumaansa nykyhetkestä ja muistojaan menneisyydestä tavallaan tunkeileviin valokuviin, joiden sisältö ja herättelemät tuntemukset eivät ehkä ollenkaan täsmää havainnoijaan persoonana. Sen sijaan selityksissä, jossa pääpaino ei ole ollenkaan sijainneissa tai ajallisuudessa, vaste ei todennäköisesti ole niin vastentahtoinen. Täten, näitä pari vuosikymmentä sitten otettua valokuvaa voinee hyvinkin käyttää esittelemään tekstintunnistuksen onnistumista valokuviin kohdistettuna.

Kävipä kuitenkin niin, että käyttökelpoisuus tekstintunnistamiseen valokuvista aiheutti tuntuman, että tekstintunnistamiseen tarvitaan erikseen jonkin tekoälyn harjoituttamisesta algoritmeineen ja malleineen. Tässä on käytetty Cloudinaryn OCR-lisäosaa, joka käyttää varsinaisesti Googlen Vision API:a, eikä sille sen dokumentaation mukaan voi antaa kummoisempia parametrejä tekstintunnistamisen ohjaamiseksi, jos tekstit koostuvat pelkästään latinalaisista aakkosista eli analyysin tulokset ovat parasta, mitä on saatavilla. Alkuperäiset, analyysissä käytetyt kuvat ovat kooltaan 2015 x 1512 pikseliä. Googlen Vision API palauttaa analyysin tuloksena myös tiedot siitä, mistä kohdin kuvaa mikäkin teksti on löytynyt, mitä Cloudinary hyödyntää korostaakseen kuvista automaattisesti ne kohdat, missä tekstiä analyysin perusteella esiintyy.

BAR & CAFE, NESS, Billy, KID, PUB, matkavekka, FINN, Veld, verka, MATKATOIMISTO, Malsta, sites, GidenApala, Vedka

HELIOS, LAPPENANNAN KAIHDIN, MARKIISI, Tjärebor, Puh. 4150 405, Lomat meilta, KAIED MARKI, AVONNA, RKIISI mattin

PI, Maksuilinen Alueella, lippuautomaatti, KANGAS-KULMA, + HELIOS, DIE HOU, P., KAMERAY-DIGIKAMERAT-ART-TAR, KANGAS-KU, MARKISE, HELIOS, FUDW DENUR S

KAUPPAKESKO, RMAD, OMEGA, SUNINEN, HLAT S 685 ANTIT, COFFEE HOUSE

Tukip, saile, NISSEN, CO ECA, ©HairStore, SUOMALAINEN

Billy JOKA PAIVA, -03, OMALAINEN KIRJAKAUPPA, Hemter, Z-SSEN, elisa •HairStore, OMALAINEN, DZAIAISS

PUB, matkavekka Vekka, Matkahuolto, FINNRIR, opRa, POCICE