Aktualności Ciekawostki

Naukowcy z Krakowa odkryli sposób niemal pewnego ustalania autorstwa dowolnego tekstu

Każ­dy z nas cechu­je się wła­sną indy­wi­du­al­no­ścią języ­ko­wą, co ozna­cza, że każ­dy na swój spo­sób wypo­wia­da się czy pisze – cho­dzi tu zarów­no o dobór słow­nic­twa, jego zasób, pozy­cjo­no­wa­nie wyra­zów w zda­niach, jak i o egze­kwo­wa­nie bądź nie zasad inter­punk­cji. Wycho­dząc z tego zało­że­nia, dało­by się usta­lić auto­ra nie­pod­pi­sa­ne­go tek­stu albo takie­go ozna­czo­ne­go tyl­ko ini­cja­ła­mi. Oczy­wi­ście dys­po­nu­jąc wcze­śniej prób­ka­mi prac dane­go człowieka.

Fizy­cy z kra­kow­skie­go Insty­tu­tu Fizy­ki Jądro­wej PAN opra­co­wa­li naj­sku­tecz­niej­szą jak dotych­czas meto­dę usta­la­nia autor­stwa, a przy oka­zji udo­wod­ni­li, że wystar­czy zale­d­wie kil­ka­na­ście wyra­zów, żeby powią­zać tekst z autorem.

Sty­lo­me­tria to nauka zaj­mu­ją­ca się opi­sy­wa­niem sty­lu języ­ka przy pomo­cy narzę­dzi sta­ty­stycz­nych. Naj­czę­ściej bada się czę­sto­tli­wość wystę­po­wa­nia poszcze­gól­nych wyra­zów, igno­ro­wa­na nato­miast zupeł­nie jest zazwy­czaj inter­punk­cja. A to wła­śnie na niej zasa­dza się suk­ces kra­kow­skich naukow­ców. I na wyko­rzy­sta­niu grafów.

My zapro­po­no­wa­li­śmy, żeby cha­rak­te­ry­stycz­nych cech sty­lu szu­kać w sie­cio­wej repre­zen­ta­cji tek­stu, za pomo­cą gra­fów. Graf to zbiór punk­tów, czy­li wierz­choł­ków gra­fu, połą­czo­nych linia­mi, czy­li kra­wę­dzia­mi gra­fu. W naj­prost­szym przy­pad­ku – w tak zwa­nej sie­ci nie­wa­żo­nej – wierz­choł­ki odpo­wia­da­ją poszcze­gól­nym wyra­zom i są połą­czo­ne kra­wę­dzia­mi wte­dy i tyl­ko wte­dy, gdy w tek­ście dane dwa wyra­zy przy­naj­mniej raz wystą­pi­ły obok sie­bie. Na przy­kład dla zda­nia ‘Ala ma kota’ graf miał­by trzy wierz­choł­ki, po jed­nym dla każ­de­go wyra­zu, ale kra­wę­dzie były­by tyl­ko dwie, jed­na mię­dzy ‘Ala’ a ‘ma’, dru­ga mię­dzy ‘ma’ a ‘kota’, wyja­śnił Tomasz Sta­nisz, dok­to­rant IFJ PAN.

Zapro­po­no­wa­na meto­da sty­lo­me­trycz­na opie­ra się na wyko­rzy­sta­niu dokład­niej­szej wer­sji gra­fów, tzw. gra­fów ważo­nych, w któ­rych bra­na jest pod uwa­gę licz­ba wystą­pień połą­czeń mię­dzy kon­kret­ny­mi wyra­za­mi. Nie bez zna­cze­nia oka­za­ła się rów­nież inter­punk­cja. Naj­wyż­szą sku­tecz­ność mia­ło zapew­nić trak­to­wa­nie zna­ków inter­punk­cyj­nych jako osob­nych wyra­zów i w takiej posta­ci zamiesz­cza­nie ich na grafach.

Naukow­cy prze­te­sto­wa­li swo­je narzę­dzia na 96 książ­kach. Wzię­li pod uwa­gę po sześć tytu­łów ośmiu anglo­ję­zycz­nych pisa­rzy i ośmiu naszych rodzi­mych. Oka­za­ło się, że angiel­skich auto­rów uda­wa­ło się im iden­ty­fi­ko­wać z 90% sku­tecz­no­ścią na pod­sta­wie prób­ki tek­stu liczą­cej 10–12 wyra­zów. W przy­pad­ku pol­skich auto­rów wyglą­da to jesz­cze lepiej. 95% sku­tecz­ność zapew­nia prze­ana­li­zo­wa­nie prób­ki liczą­cej zale­d­wie 5–6 wyrazów.

W porów­na­niu z języ­kiem angiel­skim język pol­ski wyda­je się dawać więk­sze moż­li­wo­ści ujaw­nia­nia się sty­lu auto­ra. Sądzi­my, że podob­ną cechą cha­rak­te­ry­zu­ją się rów­nież pozo­sta­łe języ­ki sło­wiań­skie. Angiel­ski jest bowiem języ­kiem pozy­cyj­nym, co ozna­cza, że istot­na jest w nim kolej­ność wyra­zów w zda­niu. Taki język pozo­sta­wia mniej miej­sca na indy­wi­du­al­ny styl wypo­wie­dzi niż języ­ki sło­wiań­skie, w któ­rych o roli sło­wa czy wyra­zu w zda­niu decy­du­je flek­sja, czy­li odmia­na. Dopusz­cza ona bowiem więk­szą swo­bo­dę orga­ni­za­cji kolej­no­ści wyra­zów w zda­niu przy nie­zmie­nio­nym jego zna­cze­niu, pod­su­mo­wał prof. dr hab. Sta­ni­sław Drożdż, kie­row­nik gru­py badaw­czej z IFJ PAN.

źró­dło: https://press.ifj.edu.pl/news/2019/04/11/

Przy­go­to­wał Oskar Grzelak

Reklama

Może też zainteresują cię te tematy