Komputer uczy się na błędach (językowych)

Opublikowano: sobota, 22, październik 2016

 

https://pixabay.com/pl/klawiatura-komputer-zielony-klucze-191805/

 

Aby sprawić, żeby komputery i smartfony rozumiały, gdy zwracamy się do nich w obcym dla nas języku, grupa naukowców z USA postanowiła zapoznać je z ...błędami, jakie mogą popełniać obcokrajowcy.

Ośmioletni Staszek od czasu do czasu bawi się smartfonem taty zadając pytania Cortanie, a ściślej mówiąc angielskojęzycznej wersji tej aplikacji, która posiadła umiejętność „rozumienia” mowy ludzkiej.

 

Niestety w większości przypadków Cortana nie rozumie tych pytań, gdyż nie do końca poprawna angielszczyzna stanowi dla komputera problem (Staszek chodzi do amerykańskiej szkoły, mówi płynnie w tym języku, ale wciąż popełnia sporo błędów). W podobnej sytuacji, co Staszek jest prawdopodobnie wiele spośród 603 milionów (ethnologue.com) osób znających angielski, ale nie będących rodzimymi użytkownikami tego języka. Błędy gramatyczne, jakie popełniają oni mówiąc w języku Szekspira, utrudniają im – a w niektórych przypadkach wręcz uniemożliwiają – głosowe porozumiewanie się z komputerem. Jednak wkrótce może się to zmienić dzięki projektowi badawczemu realizowanemu na Massachussetts Institute of Technology (MIT).

 Jak tłumaczy Jewgienij Berzak – doktorant na wydziale inżynierii elektrycznej i nauk komputerowych MIT i główny autor projektu – większość aplikacji przetwarzających języki naturalne (a co za tym idzie umożliwiających smartfonom i komputerom wykonywać polecenia sformułowane w języku potocznym) jest opartych na zasadach uczenia się maszyn. W ramach tego „uczenia”, komputer szuka prawidłowości wśród olbrzymiej liczby danych, a następnie je analizuje i  przyswaja. Dotychczas dostarczano komputerom tylko dane zawierające materiał językowy pochodzący od rodzimych użytkowników języka angielskiego, czyli złożony ze zdań, które są w olbrzymiej większości poprawne. Tymczasem systemy, które powstałyby w oparciu o niestandardowy angielski, mogłyby lepiej wyczuwać typowe błędy nierodzimych użytkowników języka angielskiego, np. tendencje do opuszczania lub nadużywania przysłówków, mylenia czasów, zastępowania czasowników posiłkowych innymi itp.

Baza danych, którą stworzyli w ramach projektu badacze z MIT, zawiera 5 124 zdania zaczerpnięte z wypracowań napisanych przez osoby uczące się języka angielskiego. Grupa autorów wypracowań składała się – w równych proporcjach – z rodzimych użytkowników 10 najpopularniejszych języków świata (poza angielskim), którymi włada mniej więcej 40 proc. ludzkości. Każde ze zdań przetwarzanych przez komputer zawierało co najmniej jeden błąd gramatyczny i zostało opisane przez grupę studentów według szczegółowej instrukcji opracowanej przez Berzaka i współpracujących z nim językoznawców. Anotacje zawierały informacje nt. każdego słowa – jego formy gramatycznej (liczby, rodzaju, osoby, stopnia itp.), a także związków z innymi wyrazami w ramach danego zdania. Ten szczegółowy sposób opisu miał komputerowi pomóc w analizie dostarczonego materiału. Opracowanie wytycznych, jak tworzyć anotacje wymagało sporego wysiłku koncepcyjnego z tego względu, że błędy gramatyczne mogą sprawić, że funkcje poszczególnych słów w ramach zdania są trudne do interpretacji. Kluczowa była tu także jednolitość opisu, bowiem komputer nie jest w stanie poprawnie zanalizować materiału, jeśli dostarczone mu dane zostaną opisane na różne sposoby. 

Nie jest to jednak pierwszy projekt realizowany przez Jewgienija Berzaka na MIT, w ramach którego na warsztat zostały wzięte błędy popełniane przez nierodzimych użytkowników języka angielskiego. Wcześniej pochodzący z Rosji doktorant analizował błędy użytkowników różnych języków piszących po angielsku. Prawidłowości w ten sposób odkryte pozwoliły wysnuć cały szereg bardzo ciekawych wniosków, o których pisaliśmy w innym miejscu (por. Językoznawstwo z komputera).

 

Karol Chlipalski

 

Serwis Wszystko o dwujęzyczności jest dostępny na licencji Creative Commons Uznanie autorstwa 3.0 Polska. Pewne prawa zastrzeżone na rzecz Uniwersytetu Warszawskiego. Utwór powstał w ramach zlecania przez Kancelarię Senatu zadań w zakresie opieki nad Polonią i Polakami za granicą w 2016 roku. Zezwala się na dowolne wykorzystanie utworu, pod warunkiem zachowania ww. informacji, w tym informacji o stosowanej licencji, o posiadaczach praw oraz o zleceniu zadania publicznego przez Kancelarię Senatu oraz przyznaniu dotacji na jego wykonanie w 2016 r.”. 

 

Mojabancarella 22/10/2016

Dodaj komentarz


Kod antyspamowy
Odśwież

O nas

MOJABANCERELLA.com to portal o charakterze informacyjnym, gdzie staram się na bieżąco przekazywać Państwu informacje dotyczące Polonii włoskiej i nie tylko.

„Mojabancarella” – moja -, czyli nasza, każdego z osobna i - bancarella – słowo które stało się naszym spolszczonym tłumaczeniem słowa stragan, gdzie można znaleźć wszelkie dobro. 

ZAPRASZAM NA MOJABANCARELLA

Najnowsze artykuły

Nowa płyta Dominiki Zamara już w sprzedaży

 

 

W tym roku, we Włoszech ukazała się nowa płyta Dominiki Zamara z pieśniami Fryderyka Chopina, zatytułowana „Chopin LIEDER OP. 74”, której na fortepianie towarzyszy Maestro Franco Moro.

Dominika Zamara, polska sopranistka koncertująca na całym świecie jest bardzo dobrze znana włoskiej publiczności, to we Włoszech Dominika szkoliła swój warsztat wokalny i to właśnie z Włoch pofrunęła w świat.

 

9 Warszawskie Tragi Książki

 

 

Od 17- 20 maja 2018 roku podczas, 9 Warszawskich Targów Książki, udział weźmie Zespól Twórców ART pod auspicjami MS AADP Virtualia ART 201/V *Belgia. 

 

Lista uczestników tego Wydarzenia jest imponująca.

Czytając nazwy Wydawnictw można stwierdzić, że będzie to prawdziwe święto literatury. Wśród wielu wystawców krajowych swój dorobek przedstawią także Polacy piszący poza granicami kraju. 

Zapraszamy na stoisko zorganizowane przez:

Międzynarodowe Stowarzyszenie Artystów Artystów Autorów Dziennikarzy Prawników Virtualia ART 

 

Polskim samochodem po Włoszech

 

 

Studio Frangella Massafra        

Ambasada RP w Rzymie oraz Polizia Locale zapraszają na konferencję, która odbędzie się 11 maja 2018 roku, w Kościele św. Stanisława w Rzymie, via delle Botteghe Oscure 15, o godz. 16.00

Podczas konferencji zostaną poruszone następujące tematy:

- poruszanie się po Włoszech pojazdami z polskimi tablicami rejestracyjnymi: szanuj prawo i poznaj swoje prawa

- wypadki drogowe: nowe sposoby i metody zapewniające uzyskanie właściwej pomocy i odszkodowania.

Bezpłatna konferencja skierowana do obywateli polskich, którzy chcą poznać włoskie regulacje prawne w zakresie ruchu pojazdów zarejestrowanych na terenie Polski.

 

Duszniki Zdrój – uzdrowiskowy punkt w „Polska level wyżej”

 

 

Kolejne niezwykłe miejsce, którym Polacy na całym świecie mogą się zainspirować w podróżach po Polsce, zostało odkryte! Tym razem projekt „Polska level wyżej” wyruszył na Dolny Śląsk, a dokładniej do Dusznik-Zdroju – miejscowości słynącej z wód o właściwościach uzdrowiskowych. W czasie pobytu, w tym malowniczym miasteczku można zwiedzić m.in Muzeum Papiernictwa i wziąć udział w pokazie tradycji ręcznego czerpania papieru. Duszniki to również miejsce w Polsce silnie związane z Fryderykiem Chopinem. Wizyta w miasteczku jest świetną okazją do poszerzenia wiedzy o Ziemi Kłodzkiej i zapoznania się z niezwykłą historią regionu.

 

Polska level wyżej: Tajemnice Dusznik-Zdroju odcinek:

 

https://www.youtube.com/watch?v=_2vz3Vln_WQ