MTA-SZTE-DE Elméleti Nyelvészeti és Informatikai Kutatócsoport

Kutatócsoportvezető:
Németh T. Enikő
egyetemi tanár, az MTA doktora, akadémikus
Szegedi Tudományegyetem, Általános Nyelvészeti Tanszék

A kutatócsoport honlapja

Az interneten szinte korlátlanul és a valódi híreknél tízszer nagyobb eléréssel terjednek az ál-hírek és az áltudományos szövegek. Hatalmas veszélyt jelent ez arra a több mint 5 milliárd emberre, aki használja az internetet, és különösen arra a 4,7 milliárdra, aki a közösségi médiát is. A COVID–19 járványhoz kapcsolódóan is megmutatkozott, hogy milyen súlyos károkat okoznak az álhírek. A WHO 2021. április 27-i jelentése szerint 2020 első 3 hónapjában mintegy 6000 fő került kórházba és 800-an meghaltak az álhírek miatt a világon; az USA-ban a tömeges dezinformáció hatására megnövekedtek a fertőzésszámok és a halálozások. A járvánnyal kapcsolatos álhírek gazdasági károkat is okoztak (l. 5G rendszer tornyai elleni támadások Nyugat-Európában). Az orosz-ukrán háborúban is példátlan mennyiségű álhír ömlik a világra, aminek a következményei jelenleg még beláthatatlanok. Mivel álhírek, áltudományos nézetek számos területen megjelennek, nyilvánvaló, hogy azonosításuk társadalmi és gazdasági szempontból is nagy jelentőségű. Az online dezinformáció terjedé-sének–terjesztésének fenyegetését és az okozott károk nagyságát felismerve az Európai Unió Tanácsa 2015-től kezdve folyamatosan küzd a dezinformálás és annak következményei ellen különböző cselekvési tervek, riasztási rendszerek, obszervatóriumok, tényellenőrző szolgáltatások, kutatási projektek stb. létrehozásával és működésének támogatásával (SOLTÉSZ 2023). A tagországok ezen jellegű tevékenységeinek és szervezeteinek koordinálására hozta létre az Európai Bizottság 2020-ban az Európai Digitális Média Obszervatóriumot (European Digital Media Observatory, EDMO), amelyhez 2023-ban csatlakozott a Magyar Digitális Média Obszervatórium (Hungarian Digital Media Observatory, HDMO) kibővített formában, hat autonóm szervezet részvételével. A hat szervezet közül a Lakmusz és az AFP hírügynökség tényellenőrzést végez.

Az eddigi álhírfelismerő eszközök vagy szolgáltatások az általuk használt módszerek alapján három csoportra oszthatók:

  1. Álhírmegosztó oldalak listázása (pl. a HVG átverős oldalakról készített listája, az Urban Legends weboldal átverős oldalakról készített listája.
  2. Tényellenőrzés (pl. Oigetit Fake News Filter; PolitiFact; Lakmusz).
  3. NLP (Natural Language Processing ’természetesnyelv-feldolgozás’) alapú szövegosztályozási módszerek.

Az előbbi két módszer humán döntési folyamatokat igényel, ezért alkalmazásuk rendkívül költségigényes és lassú, így csak egy-egy konkrét szöveg vagy weboldal megítélésére használják. A harmadik módszer, azaz az NLP alapú szövegosztályozás automatikus eszközök alkalmazásával viszont akár hosszú szöveg valós idejű elemzését is lehetővé teszi a szavak gyakorisági jellemzőit felhasználva (l. pl. a TF-IDF (term frequency-inverse document frequency) módszer). Ugyanakkor, ha csak a szöveg tematikus szókészletét vesszük figyelembe, akkor a tartalom alapján minősítünk egy szöveget álhírnek, ami téves is lehet: pl. a covid, vakcina és chip szavak együttes előfordulása nem feltétlenül álhírt jelez, lehet az álhír cáfolata is.

Felmerül tehát a kérdés, hogyan ismerhetők fel megbízhatóan az álhírek és az áltudományos szövegek, továbbá vannak-e olyan jellemzőik, amelyek alapján azonosíthatók?

Kutatócsoportunk ezen kérdések megválaszolását tűzte ki célul a kutatást egy tágabb, tudományelméleti, nyelvészeti alap- és alkalmazott kutatási, valamint innovációs perspektívába helyezve. A kiinduló hipotézisünk az, hogy az álhírekben és az áltudományos szövegekben találhatók a szókészlet mellett olyan nyelvi és nyelvhasználati jegyek és stratégiák, amelyek alapján vagy amelyek kombinációi alapján egy szövegről gyanítható, hogy az álhír vagy áltudományos szöveg.

A kutatásnak három fő célkitűzése van:

  • Az álhírek és az áltudományos szövegek vizsgálatának tudományelméleti megalapozása.
  • Az egészségügy tématerületére tartozó álhírek és áltudományos szövegek nyelvi jegyeinek és nyelvhasználati stratégiáinak megállapítása a nyelvtan és a pragmatika interakciójában.
  • Az egészségügy tématerületére tartozó álhírek és áltudományos szövegek automatikus azonosítása, innovatív eszközfejlesztés.

A kutatócsoport tagjai:

  • Bibok Károly
    egyetemi docens, a nyelvtudomány kandidátusa
    Szegedi Tudományegyetem, Orosz Filológiai Tanszék
    MTA-DE-SZTE Elméleti Nyelvészeti Kutatócsoport, Szegedi Munkacsoport
  • Nagy C. Katalin
    tudományos segédmunkatárs
    MTA–SZTE–DE Elméleti Nyelvészeti és Informatikai Kutatócsoport
  • Németh T. Enikő
    egyetemi tanár, az MTA doktora, akadémikus
    Szegedi Tudományegyetem, Általános Nyelvészeti Tanszék
    MTA-DE-SZTE Elméleti Nyelvészeti Kutatócsoport, Szegedi Munkacsoport
    HuComTech Kutatócsoport
  • Németh Zsuzsanna
    tudományos munkatárs
    MTA–SZTE–DE Elméleti Nyelvészeti és Informatikai Kutatócsoport
  • Rákosi Csilla
    tudományos főmunkatárs
    MTA–SZTE–DE Elméleti Nyelvészeti és Informatikai Kutatócsoport
  • Vecsey Zoltán
    tudományos munkatárs, PhD
    MTA–SZTE–DE Elméleti Nyelvészeti és Informatikai Kutatócsoport