
Miliony prac naukowych rocznie. Ale coraz mniej treści. Witajcie w erze AI
“Skomplikowany język generowany przez LLM często maskuje słaby poziom merytoryczny prac” – ostrzegają autorzy przełomowego badania opublikowanego właśnie w Science, jednym z najbardziej prestiżowych czasopism naukowych na świecie. To stwierdzenie brzmi jak wyrok dla współczesnej nauki, która coraz bardziej opiera się na sztucznej inteligencji.
Science, wydawane od 1880 roku przez Amerykańskie Stowarzyszenie Rozwoju Nauki (AAAS), to jedno z dwóch najważniejszych czasopism naukowych świata obok Nature. Publikacje w Science są oznaką najwyższej jakości badań i często wyznaczają kierunki rozwoju całych dyscyplin. Tym razem to właśnie na łamach Science ukazało się badanie, które może zmienić sposób, w jaki patrzymy na przyszłość produkcji naukowej.
✅ Eksplozja produktywności, która nikogo nie cieszy
Keigo Kusumegi, Xinyu Yang, Paul Ginsparg, Mathijs de Vaan, Toby Stuart i Yian Yin z Cornell University i UC Berkeley przeanalizowali ponad dwa miliony preprintów naukowych z trzech głównych repozytoriów: arXiv (matematyka, fizyka, informatyka), bioRxiv (nauki biologiczne) i SSRN (nauki społeczne). Okres badania obejmował lata 2018-2024, czyli czas przed i po rewolucji ChatGPT.
Wyniki są oszałamiające. Autorzy stwierdzają, że “zastosowanie LLM wiąże się z dużym wzrostem naukowej produktywności badaczy”. Konkretnie: naukowcy, którzy zaczęli używać dużych modeli językowych, zwiększyli swoją produktywność o 36,2 proc. w przypadku arXiv, o 52,9 proc. dla bioRxiv i aż o 59,8 proc. dla SSRN. To nie są błędy zaokrągleń. To jest podwojenie tempa pracy naukowej w niektórych dziedzinach.
Czy to dobra wiadomość? Niekoniecznie. Badacze użyli wyrafinowanego algorytmu detekcji, który porównywał rozkład słów w tekstach pisanych przez ludzi z tymi przepisanymi przez GPT-3.5. “Aby zidentyfikować użycie LLM w tworzeniu artykułów naukowych, zastosowaliśmy tekstowy algorytm detekcji AI do wszystkich abstraktów w naszych danych”, wyjaśniają autorzy metodologię. Wykorzystali abstrakt jako wskaźnik, bo to właśnie tam naukowcy najczęściej używają AI do poprawy języka.
✅ Azja dogania Zachód, ale po co?
Najbardziej fascynującym odkryciem jest jednak to, kto najwięcej zyskuje na rewolucji AI. Badacze sprawdzili, jak korzyści z używania LLM rozkładają się według pochodzenia naukowców. Wykorzystali do tego algorytmy rozpoznawania pochodzenia na podstawie nazwisk oraz afiliacji instytucjonalnych.
“Naukowcy z azjatyckimi nazwiskami doświadczyli największego wzrostu produktywności po zastosowaniu LLM”, piszą autorzy. W przypadku bioRxiv i SSRN efekty były jeszcze bardziej wyraźne dla badaczy z azjatyckimi nazwiskami i afiliacjami w Azji. Dla tej grupy szacowany wzrost produktywności związany z LLM wynosił od 43,0 proc. w arXiv do 89,3 proc. dla bioRxiv i 88,9 proc. dla SSRN.
Dla porównania, badacze pochodzenia europejskiego, afiliowani z instytucjami w krajach anglojęzycznych, doświadczyli bardziej umiarkowanych, choć wciąż znaczących wzrostów produktywności: 23,7 proc. (arXiv) do 46,2 proc. (SSRN).
Co to oznacza? Według autorów “LLM mogą łagodzić wpływ różnic w umiejętnościach, w tym przypadku poprzez redukcję kosztów pisania w drugim języku”. To brzmi jak sukces demokratyzacji nauki. W końcu większość prestiżowych czasopism naukowych wymaga publikacji po angielsku, co stawia osoby nieposługujące się tym językiem w niekorzystnej pozycji startowej. “Pisanie wysokiej jakości tekstów naukowych jest szczególnie czasochłonne dla badaczy komunikujących się w języku nierodzimym”, podkreślają autorzy.
✅ Gdy piękna forma staje się pułapką
Ale jest haczyk. Wielki haczyk. Tradycyjne wyznaczniki jakości naukowej, takie jak złożoność języka, “stają się niewiarygodnymi wskaźnikami wartości naukowej w momencie, gdy doświadczamy wzrostu liczby prac naukowych”. To jest problem, który może zmienić całą strukturę nauki.
Badacze zmierzyli złożoność pisania używając odwróconej skali Flesch Reading Ease Score, która uwzględnia długość zdań i liczbę sylab na słowo. Odkryli trzy kluczowe wzorce.
Po pierwsze, prace wspierane przez LLM miały znacząco wyższą złożoność pisania w porównaniu z pracami pisanymi w naturalnym języku we wszystkich trzech archiwach. Po drugie, w pracach niewspieranych przez LLM złożoność pisania była pozytywnie skorelowana z jakością pracy, mierzoną prawdopodobieństwem publikacji w recenzowanym czasopiśmie.
Po trzecie, i to jest najbardziej niepokojące, “znaleźliśmy odwrócenie relacji między złożonością pisania a wynikami recenzji dla prac wspieranych przez LLM”. Dla tych dokumentów wzrost złożoności pisania był związany z niższymi ocenami jakości naukowej.
Innymi słowy: im bardziej skomplikowanie brzmi praca napisana z pomocą AI, tym prawdopodobniej jest słaba merytorycznie. To kompletne odwrócenie tradycyjnej heurystyki.
✅ Recenzenci gubią się w morzu pięknych słów
Aby to zweryfikować, badacze przeanalizowali także 7243 zgłoszenia do konferencji ICLR-2024 (International Conference on Learning Representation), wiodącej konferencji w dziedzinie uczenia maszynowego. ICLR jako jedna z nielicznych konferencji udostępnia publicznie raporty recenzentów dla wszystkich zgłoszeń, niezależnie od ich końcowego statusu akceptacji.
Dysponowali więc 28 tysiącami recenzji eksperckich jako alternatywną miarą wartości naukowej. Kluczowe odkrycia zostały powtórzone “z remarkowną konsekwencją”, jak piszą autorzy.
“Ostra różnica w ocenach jakości w zależności od złożoności języka w dwóch grupach (prac pisanych przez ludzi i wspieranych przez LLM) potwierdza, że złożony język generowany przez LLM często maskuje słaby poziom merytoryczny prac”, konkludują badacze.
Dlaczego tak się dzieje? Autorzy wyjaśniają: “im mniej wysiłku wymaga napisanie eleganckiego tekstu, tym mniej mówi on o rzeczywistym opanowaniu tematu przez autora”. To jak z dyplomami z pseudouczelni. Gdy każdy może mieć pięknie brzmiącą pracę, styl pisania przestaje być wyróżnikiem jakości.
✅ Zalew miernej nauki w pięknym opakowaniu
Konsekwencje są potencjalnie katastrofalne. “To tworzy ryzyko dla przedsięwzięcia naukowego, ponieważ zalew powierzchownie przekonujących, ale naukowo słabych badań może nasycić literaturę”, ostrzegają autorzy. Gdyby to się stało, “spowoduje to, że społeczność zmarnuje cenny czas na separowanie prawdziwych odkryć od gąszczu nieważnych i potencjalnie wprowadzających w błąd prac”.
Wyobraźmy sobie: tysiące, dziesiątki tysięcy prac, które brzmią genialnie, są perfekcyjnie sformatowane, nie mają błędów gramatycznych, używają zaawansowanego słownictwa naukowego. I jednocześnie wnoszą do nauki… nic. Albo niewiele. Jak w takim świecie znaleźć te naprawdę wartościowe odkrycia?
Autorzy przestrzegają, że gdy tradycyjne sposoby oceny jakości przestają działać, “redaktorzy i recenzenci mogą coraz bardziej polegać na renomie autora i prestiżu jego uczelni jako wskaźnikach jakości pracy”. To paradoks: narzędzie, które miało zdemokratyzować naukę, może “ironicznie wzmocnić elitaryzm i pogłębić nierówności w produkcji naukowej”, zauważają badacze.
Innymi słowy: AI miało wyrównać szanse między badaczami z prestiżowych uniwersytetów a tymi z peryferii nauki. Może jednak doprowadzić do jeszcze większego elitaryzmu, bo jedynym sposobem na ocenę wartości pracy stanie się to, skąd pochodzi autor.
✅ Ale jest też dobra wiadomość
Nie wszystko jednak jest złe w tym obrazie. Badacze odkryli także pozytywny aspekt używania LLM w nauce: poszerzenie horyzontu badawczego.
Przeanalizowali 246 milionów dostępów do preprintów arXiv oraz 101,6 miliona cytowań prac z wszystkich trzech repozytoriów. Wykorzystali naturalne eksperymenty: wprowadzenie Bing Chat (napędzanego przez GPT-4) w lutym 2023 roku oraz porównanie zachowań autorów przed i po zastosowaniu LLM.
“Przedstawiamy spójne dowody, że wsparcie AI kieruje uczonych do szerszej bazy wiedzy”, piszą autorzy. Konkretnie: użytkownicy Bing po wprowadzeniu Bing Chat zaczęli sięgać do książek o 26,3 proc. częściej. Także badacze używający LLM cytowali książki o 11,9 proc. częściej po zastosowaniu tej technologii.
Co więcej, “zastosowanie LLM wiąże się z cytowaniem dokumentów, które są średnio o 0,379 roku młodsze”. Użytkownicy Bing po wprowadzeniu Chat dostępowali prace, które były średnio o 2,1 miesiąca nowsze. To sugeruje, że LLM pomagają badaczom przebić się przez informacyjny szum i znaleźć najświeższe, najbardziej aktualne źródła.
✅ Algorytmy jako nowi bibliotekarze
“Badacze stoją przed ograniczeniami czasu i uwagi, które limitują ich zdolność do przetwarzania rozszerzającego się wszechświata badań”, piszą autorzy. LLM wydają się pomagać w przezwyciężaniu tych przeszkód w odkrywaniu istotnej literatury.
Wspólną obawą było to, że wyszukiwanie wspierane przez AI może wzmacniać istniejące kanony naukowe, prowadząc do jeszcze większej koncentracji uwagi na już znanych pracach. “Znaleźliśmy jednak, że zastosowanie LLM miało przeciwny efekt”, zaznaczają badacze.
Zarówno zachowania wyszukiwania wspierane przez AI, jak i wzorce cytowań autorów pokazują istotny zwrot w kierunku bardziej zróżnicowanej bazy wiedzy, obejmującej więcej książek oraz młodsze i mniej cytowane badania. “To poszerzenie uwagi sugeruje, że LLM pomagają badaczom przezwyciężać poznawcze ograniczenia, które limitowały ich zdolność do angażowania się z ciągle rozszerzającym się wszechświatem literatury naukowej”, konkludują autorzy.
✅ Co dalej z nauką?
Badanie ma swoje ograniczenia, które autorzy szczerze przyznają. Ich algorytm detekcji AI działa na abstraktach, nie pełnych tekstach. “Powinniśmy spodziewać się fałszywie negatywnych wyników dla preprintów, w których LLM są głównie używane w innych sekcjach pracy”, przyznają.
Poza tym “w miarę jak nowe modele są wprowadzane, może występować dryfowanie w czasie w dokładności detektora”. Nie można też jednoznacznie określić, który konkretny współautor w zespole używał LLM. A naukowcy przecież coraz częściej pracują w zespołach.
Co najważniejsze, badanie to “fotografia szybko ewoluującej technologii”. Analizowane dane pochodzą sprzed pojawienia się bardziej zaawansowanych modeli rozumowania i możliwości głębokiego research. “W miarę ulepszania się modeli i odkrywania przez naukowców nowych sposobów integrowania ich w swoją pracę, przyszły wpływ tych technologii prawdopodobnie przyćmi efekty, które tutaj podkreśliliśmy”, przewidują autorzy.
✅ Nauka na rozdrożu
Autorzy wskazują na kilka kierunków przyszłych badań. Jedną z hipotez jest to, że “LLM mogą zastąpić nieformalną wiedzę przekazywaną między naukowcami, oferując wskazówki we wszystkim: od projektowania eksperymentów po poznanie niepisanych reguł funkcjonowania w danej dziedzinie, tym samym wyrównując szanse młodych badaczy”.
Innym interesującym kierunkiem jest potencjał LLM do przekraczania granic dyscyplinowych. “W miarę upływu czasu dyscypliny akademickie rozwinęły głębokie bazy wiedzy, które są często komunikowane przez specyficzny dla dyscypliny żargon”. Jeśli LLM pomogą osobom z zewnątrz przezwyciężyć tę przeszkodę, “odizolowane dyscypliny mogą bardziej produktywnie angażować się ze sobą”.
“Nasze odkrycia pokazują, że LLM zaczęły przekształcać produkcję naukową”, podsumowują badacze. Te zmiany zapowiadają ewoluujący krajobraz badawczy, w którym “wartość płynności w języku angielskim będzie się zmniejszać, ale znaczenie solidnych ram oceny jakości i głębokiej analizy metodologicznej jest najważniejsze”.
Dla recenzentów, redaktorów czasopism i szerszej społeczności, która tworzy, konsumuje i aplikuje tę pracę, “to reprezentuje główny problem”. W miarę jak tradycyjne heurystyki się załamują, “redaktorzy i recenzenci mogą coraz bardziej polegać na wskaźnikach statusu jako oznakach jakości”.
✅ Czy AI oceni AI?
Jedną z potencjalnych odpowiedzi jest wykorzystanie tej samej technologii do pomocy w ewaluacji prac. “Wyspecjalizowani agenci-recenzenci mogliby flagować metodologiczne niespójności, weryfikować twierdzenia, a nawet oceniać nowość”, sugerują autorzy.
Czy to skalowalne podejście pomoże redaktorom i recenzentom skupić się na substancji zamiast powierzchownych sygnałów, czy też wprowadzi nowe i nieprzewidziane wyzwania do procesu naukowego, “jest krytyczną niewiadomą”.
A może czeka nas coś zupełnie innego? Jeśli AI będzie pisać prace, a AI będzie je recenzować, to gdzie w tym wszystkim będzie człowiek? Czy nauka stanie się grą algorytmów, gdzie ludzie są tylko obserwatorami? A może przeciwnie: zwolnienie się od żmudnego pisania pozwoli naukowcom skupić się na tym, co naprawdę ważne (na myśleniu, eksperymentowaniu, odkrywaniu)?
Jedno jest pewne: nauka stoi przed fundamentalną transformacją. “W miarę postępu systemów AI będą one kwestionować nasze fundamentalne założenia o jakości badań, komunikacji naukowej i naturze pracy intelektualnej”, ostrzegają autorzy. Decydenci polityki naukowej muszą rozważyć, jak zmieniać instytucje naukowe, aby dostosować się do coraz bardziej dynamicznego procesu produkcji naukowej.
Nauczyliśmy maszyny pisać jak naukowcy, zanim sami nauczyliśmy się odróżniać dobry artykuł od złego. Czy chcemy nauki, w której każdy brzmi jak noblista, ale mało kto ma coś do powiedzenia? Teraz mamy miliony prac, które brzmią świetnie i nic nie znaczą. Albo nauczymy się oddzielać ziarno od plewów, albo utoniemy w morzu pięknych, pustych słów. Wybór należy do nas. Zegar tyka, a AI pisze coraz szybciej i coraz więcej.
Link do artykułu w PDF: https://drive.google.com/file/d/1Jyyr9ZgjB72YINl8VKYHKxj7_oyoSLhL/view?usp=sharing
Tag:ai w nauce



