Допустим, возникла задача перевести excel файл 180тыс строк через google translate. При этом каждая строка содержит большой объем значений. Если использовать апи нет возможности, пользуемся веб интерфейсом - https://translate.google.ru/?sl=de&tl=en&op=docs

Вначале сохраним большой excel в csv файл с ; и utf-8. 

Далее разбиваю его на куски по 2тыс строк с помощью Text File Splitter.

Так как google translate не принимает csv, то конвертирую это в xls с помощью Total CSV Converter.

В нашем случае в каждой строке была схлопнута большая верстка таблицы характеристик товаров с тегами - https://ardoz.ru/screen/?s=/2024-06-29_193911.jpg

Вначале очищаем от классов, оставляя только теги. Т.к. каждый символ влияет на лимит запроса, то преобразуем теги в теги-цифры. Например:

<table> = <1>
<tr> = <2>
<td> = <3>
<tbody> = <4>
<ul> = <5>
<li> = <6>
<br /> = <7>
<strong> = <8>
<p> = <9>
<sub> = <10>
<sup> = <11>
<thead> = <12>

В итоге остается такая верстка - https://ardoz.ru/screen/?s=/2024-06-29_194554.jpg

ВАЖНО. При использовании перевода google translate файлов excel, будьте внимательны может заменять "," на ";". А также убирать пробел в значениях вида "16 mm" -> "16mm"


ВАЖНО. При пакетном переводе excel файлов через гугл важно дополнительно контролировать чтобы кол-во символов полученных было не сильно меньше переданных. Т.е. ячейка может оборваться в произвольном месте - https://ardoz.ru/screen/?s=/2024-07-01_111055.jpg. Проверял данные на месте обрыва ничего подозрительного не обнаружил. Может гарантированно успешно переводить ячейки 5000-8000 символов, а может оборвать ячейку на 861 символ. В моем случае оказалось 500 неполных ячеек из 200тыс - 0.25% ошибок

Мои экспериментальные отборки ошибок перевода ячеек с описанием:

1) кол-во символов в исходной НЕМЕЦКОЙ ячейке от 300

2) кол-во символов в переведенной АНГЛИЙСКОЙ ячейки на 25% меньше. Если значений совсем мало, то можете для верности сделать заново перевод при 15% и больше.

При переводе немецкий->английский, если на английском оказалось на 20% меньше символов это норма. Реальные проблемные ячейки начинаются примерно если символов на английском языке на 25%  меньше (с учетом объема исходной ячейки на немецком от 300 символов).

При повторном переобходе кривых ячеек все переводится хорошо, т.е. проблема не в ячейках.

Также зафиксировал ошибку, если часть текста на немецком, часть на английском, то в результатах перевода останется только исходный кусок на английском языке. Часть пропадает.

Сравнение немецкого и английского

На 88 283 546 немецких символов получается 86 953 412 английских символов.  Т.е. на английском контент на 1.5% символов меньше. 

Сколько символов\строк гарантированно переводит google translate при загрузке xls

Заявленное ограничение не более 10мб excel файл, но по факту на июль 2024 гарантированное переводит:

45000 строк с 3.3млн символов (наименования товаров)

10000 строк с 4.8 млн символов (описания товаров)

2000 строк с 2.6 млн символов (таблица характеристик с версткой)

Экспериментировал не очень долго, но похоже около 5млн символов условное ограничение, либо будете десятки раз закачивать файл и получать ошибки.

ВАЖНО. При пакетном переводе будьте внимательны с переводом одинаковых значений. Допустим если подать 2 строки одинаковым значений характеристик, то перевести он может одинаковые слова по-разному. 

Скорость загрузки 180тыс товаров

Разбивал на 2 партии равные партии:

1 партия база была пустая - 07 ч 37 мин 28 сек

2 партия - 14 ч 19 мин 34 сек

Итого: 21 час, 57 минут, 2 секунды

импорт 1 товар в среднем - 0,43 сек

Скорость загрузки отдельно фоток по урл товара и коду артикула(сами фотки на хостинге):

100 тыс товаров, 100тыс фото.

57 минут.