Очередной вопрос, ответ на который нужно начинать с уточнения: в каком именно сборщике мусора? Понятие сборщика мусора вводится в
спецификации JVM, но внутренности зависят от реализации. Одна JVM может содержать несколько сборщиков, один сборщик
может применять разные алгоритмы в разных случаях. Вообще говоря, в теории
GC может делать ничего. Метод
System.gc()
обещает, что сборщик сделает «лучшую попытку» освободить память, то есть по факту не дает никаких гарантий.
GC (garbage collector) – центральная тема шуток про «джава тормозит». Это
необходимая плата за стабильное автоматическое управление памятью. Поэтому это одна из самых бурлящих и меняющихся областей мира Java.
Основные подходы к сборке мусора –
подсчет ссылок (reference counting) и обход графа достижимых объектов (mark-and-sweep, copying collection). Первый подход испытывает трудности с циклическими ссылками, в Java
в основном используется второй.
Большинство сборщиков опирается на слабую гипотезу о поколениях. Гипотеза предполагает, что молодые объекты умирают чаще. Для этого куча делится на регионы по времени жизни объектов – поколения. Сборка мусора в них выполняется раздельно.
Общий для большинства сборщиков алгоритм описан во множестве статей, например, в
этой. Суть его в том, что достижимые объекты помечаются и группируются, а недостижимые удаляются.
GC Roots – то, с чего начинается обход графа объектов на вопрос достижимости. Множество корневых объектов (root set) считается достижимым безусловно. Часто на интервью просят
их перечислить.
Важное понятие для сборщиков мусора –
Stop The World пауза. Это полная остановка потоков программы для безопасной сборки мусора и других системных операций. Происходит в специальных местах программы, которые называются
safepoint.
Конкретный сборщик в HotSpot указывается в параметре запуска JVM. Каждый сборщик имеет
много специфичных для него настроек. В Java 10 HotSpot доступно 4 сборщика:
🔘 Serial – однопоточный, с поколениями. Дает большой
throughput (маленькая сумма задержек);
🔘 Parallel – многопоточный вариант Serial;
🔘 CMS (Concurrent Mark-Sweep) – дает меньшую
latency (маленькие отдельные паузы), выполняя часть сборки вне Stop The World. Плата за это – меньший throughput. Способ сборки примерно как в предыдущих, работает с поколениями. В Java 9 уже
объявлен deprecated;
🔘 G1 (Garbage First) – тоже направлен на уменьшение latency. Вместо поколений оперирует регионами;
🔘 Скоро будет добавлен новый сборщик
Shenandoah;
Настоятельно рекомендуется к изучению очередной
доклад Шипилёва (
с продолжением) и
цикл статей на хабре.