Ta technika rozwiązuje problem ograniczonej wielkości okien kontekstowych obsługujących modele językowe LLM

Problem z dużymi modelami językowymi (LLM) polega na tym, że ich okna kontekstowe mają ograniczoną pojemność. Google twierdzi iż rozwiązało to ograniczenie, opracowując technikę noszącą nazwę Infini-attention.

Grafika: Jack Moreh/freerangestock

Nowa technika wykorzystuje tyle samo zasobów systemu obliczeniowego (chodzi o wielkość pamięci oraz moc obliczeniową), jakie angażują standardowe modele językowe. Obecnie okna kontekstowe wspierane przez wszystkie popularne modele sztucznej inteligencji mają ograniczoną pojemność. I tak okno kontekstowe aplikacji GPT-4 może zawierać maksymalnie 128 tys. tokenów, czyli znaków alfanumerycznych zawartych w zapytaniu.

A trzeba wiedzieć, że w przypadku modeli LLM wielkość okna kontekstowego ma bardzo duże znaczenie. Dlatego twórcom takich modeli zależy na tym, aby obsługujące je okna kontekstowe miały jak największą pojemność. A nie jest to łatwe, ponieważ dwukrotne zwiększenie pojemności okna kontekstowego skutkuje tym, że musi ono mieć do dyspozycji cztery razy więcej pamięci.

Zobacz również:

Twórcom nowej techniki udało się rozwiązać ten problem przenosząc dane z aktywnej pamięci do tak zwanej „pamięci kompresyjnej”. Model jest wtedy w stanie sparować pamięć kompresyjną ze wszystkimi danymi wejściowymi znajdującymi się w pamięci aktywnej, generując w ten sposób finalną odpowiedź.

Technika taka ma tę zaletę, że aplikacja akceptuje okno kontekstowe o dowolnej długości, redagując najpierw pierwszą wersję odpowiedzi, aby następnie dzięki technice Infini-attention realizować kolejne podejścia, doprecyzowując za każdym razem coraz bardziej wiarygodną i satysfakcjonującą użytkownika odpowiedź.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200