Учитывая
многочисленные вопросы и жалобы на нестабильность игры в последнее время, думаю
стоит прояснить реальное положение дел.
Дело в том, что
в О
причинах
Cлучилось непредвиденное, что в принципе случается
чрезвычайно редко (шанс примерно один на 500.000):
Используются свитчи Cisco,
3 уровня, это очень надежное оборудование и считается самым
стабильным в мире для этого класса. Так вот, 30 ноября ночью
внезапно один из портов свитча (на рисунке сверху) сменил свою скорость – со
стандартного 1 Gbit/sec на 10 Mbit/sec! Как видно из диаграммы,
трафик ходит между серверами и центральным хранилищем сразу по 2 link'ам,
периодически он попадал и на второй link. А это означает, что сервера с городами
пытаюся обработать трафик в 1.000 Mbit/sec через всего-навсего 10
Mbit/sec. Говоря обычным языком –
это всё равно что попытаться опустошить целиком весь мешок зерна через кольцо от
брелка, желая сделать это за секунду.
Естественно, образуется очередь,
сервера с городами ждут пока "зернышки” пройдут по очереди к серверу хранилища,
и используют они в этом случае всегда тот же самый линк, по которому от них уже
шел трафик к этому хранилищу. Ждут, ждут, ждут....и в результате сервер
хранилища, который занят в это время получением трафика от другого сервера,
считает что "не вижу остальных, значит они померли, я очищаю свою статистику и
не воспринимаю больше трафик от них в ближайшие 2 минуты. Посмотрим поднимутся
они или нет через 2 минуты”. Если в течение 2 минут сервер города всё-таки
"достучится” до хранилища, коннект восстанавливается, и делается новая попытка
передачи данных. Проблема в том, что за 2 минуты сам сервер города посчитает
хранилище тоже мертвым, и остановит поток данных т.к. их как бы некуда
посылать.
В результате имеем неполноценные файлы, и если это файлы с
данными игроков, такие файлы были длиной 0, т.е. пустые. Вот почему в последнее
время происходили массовые "потери” персонажей. Естественно, команда support
старалась в максимально короткие сроки их восстанавливать, но время шло над
исправлением происходяшего.
А оказалось всё просто – дефект одного из
портов свитча Cisco, и
этот дефект был "плавающим”, то появлялся, то исчезал, и отследить его было
практически невозможно.
Как только мы отключили второй линк с хранилища, все
симптомы этих проблем исчезли.
Статус на данный момент
Сейчас идет восстановление остатков по
пропавшим персонажам, если у кого-то исчезли персонажи – сообщите персонажу
Rand [11]
или оставьте заявку в
support.
О положительном
Для того, чтобы избежать ситуации по
зависимости от проходимости сетевых контактов /интерфейсов и загрузки их
трафиком (оно уже достаточно скоро достигнет гигабитных скоростей), принято
решение перевести все соединения между серверами и центральными хранилищами на
технологию Infiniband
QDR, что должно дать существенный прирост мощи в плане скорости
работы с дисковой системой по всем серверам/городам/хранилищам. В данный момент
эта скорость ограничивается скоростью проходимости портов Cisco свитча и равна 1 GBit/sec, после обновления
оборудования (ориентировочно через 2 недели, ждем заказанное оборудование)
скорость составит 40 Gbit/sec.
Технология Infinibandдостаточно сильно отличается от традиционной сетевой коммуникации, и
используется зачастую в построении супер-компьютеров и кластеров.