google翻译中文文本大量翻译成英文

阅读量：

如题，我遇到了一下情况，需要将大量wiki百科的中文文本翻译成英文

面对这个问题，有以下几点困难

google 翻译的API 已经开始收费了。不在提供免费的API服务。
纯手工在google翻译的网页上翻译，对程序猿来说，你是认真的吗？
在使用github上的开源项目时，发现即使通过web脚本调用google网页翻译的免费服务时，依然存在着字符串长度限制，已经会发生长度超出，翻译失败。

在我解决了这个问题之后，我想还是在这里和大家分享一下吧。

首先，先介绍下使用的开源项目：googletrans
具体如下下载就请参考项目的介绍文档。

假如你就是简单翻译几句短文本，
查看样例就完全可以了。

复制代码

    >>> from googletrans import Translator
    >>> translator = Translator()
    >>> translator.translate('안녕하세요.')
    # <Translated src=ko dest=en text=Good evening. pronunciation=Good evening.>
    >>> translator.translate('안녕하세요.', dest='ja')
    # <Translated src=ko dest=ja text=こんにちは。 pronunciation=Kon'nichiwa.>
    >>> translator.translate('veritas lux mea', src='la')
    # <Translated src=la dest=en text=The truth is my light pronunciation=The truth is my light>

如果你和我一样需要翻译大量的文本，那么请看下面?

（以下代码处理几百个文件依然没有被禁IP，请自己酌情改小sleep时间，以加快翻译速度）

复制代码

    #首先导入需要的包
    from googletrans import Translator
    from tqdm import tqdm
    import os
    import random
    import time
    import re
    
    #声明源文件目录 和 生成文件的放置目录
    home = os.environ['HOME']
    path = home + "/study/project/chineseSegment/artifical/test"
    dest = home + "/study/project/chineseSegment/artifical/en"
    files = os.listdir(path)
    s = []
    
    # 把长文本切分成短文本，当时google担心会检查文本长度，所以随机了长度，应该没这么严格，想写成固定的也可以
    def getText(string):
    list = []
    randline = random.random() * 500 
    while len(string) > 1500:
        index = string.find("\n",int(randline)+1000)
        if index is not None:
            list.append(string[0:index])
            string = string[index:]
    list.append(string)
    return list
    #保存翻译完后的文件
    def save2file(title,result):
    with open(dest+"/"+title,'w') as d:
        for en in result:
            d.write(en)
        d.close
    # 在文本中无法识别的表情包会使得翻译产生错误，对文本过滤
    emoji_pattern = re.compile(
    u"(\ud83d[\ude00-\ude4f])|"  # emoticons
    u"(\ud83c[\udf00-\uffff])|"  # symbols & pictographs (1 of 2)
    u"(\ud83d[\u0000-\uddff])|"  # symbols & pictographs (2 of 2)
    u"(\ud83d[\ude80-\udeff])|"  # transport & map symbols
    u"(\ud83c[\udde0-\uddff])|"  # flags (iOS)
    u"((-{0,1}[{}]-{0,1}))|"     # 我的项目逻辑需要，可删除
    u"([R efn]|)"				 # 我的项目逻辑需要，可删除
    "+", flags=re.UNICODE)
    
    def remove_emoji(text):
    return emoji_pattern.sub(r'', text)
    
    # 打印单个文本分段后的翻译进度
    def printProcess(cnt,txt_len,tatal_size,error):
    content = "file completed "+str(cnt)+"/"+str(txt_len)
    print(content,end="\r")
    
    # 在短文本翻译出错后，用二分法找到错误地方，并舍去无法翻译的句子
    def binarySearch(text):
    mid = (int) (len(text) *1.0/2)
    result = []
    splitIndex = text.find("。",mid)
    if splitIndex == -1 or splitIndex == 0:
        return result
    
    pre = text[0:splitIndex]
    after = text[splitIndex+1:]
    try:
        result = result+append(pre)
    except:
        result = result+binarySearch(pre)
    
    try:
        result = result+append(after)
    except:
        result = result+binarySearch(after)
        
    return result 
    
    # 翻译文本
    def getTranslateTextList(txt):
    result = []
    time.sleep(1)
    cnt = 0
    txtsize = 0
      
    for text in txt:
        try:
            cnt += 1
            text = remove_emoji(text)
            txtsize += len(text)
            translate = Translator()
            en = translate.translate(text=text, dest='en').text 
            result.append(en)
            printProcess(cnt,len(txt),txtsize,error)
            slptimes = random.random()  #我可能想太多，怕固定的sleep还是会被google检查出来，所以随机了一个时间
            time.sleep(1.2 + slptimes) 
        except Exception as e:
            result = result + binarySearch(text)
    return result
    
    ## 正式开始 mian()
    for file in tqdm(files):
    if not os.path.isdir(file):
        title = Translator().translate(text=file, dest='en').text 
        try:
            with open(path+"/"+file,'r') as f:
                string = f.read()
                f.close()
            txt = getText(string)
            print("analysis:"+title)
            result = getTranslateTextList(txt)
            save2file(title,result)
        except Exception as e:
                print(str(e))
                continue
    time.sleep(30) #为了保证不被google屏蔽IP，不得已设置了一个超长时间的sleep，可以按情况改小

如果在这过程中遇到问题，可以去github的项目issue中找一下，我记得我当时运行这个项目的时候遇到了问题，通过issue的方法解决了，但是这会儿想不起来当时的问题是什么了。

全部评论 (0)

还没有任何评论哟~

google翻译中文文本大量翻译成英文

如题，我遇到了一下情况，需要将大量wiki百科的中文文本翻译成英文面对这个问题，有以下几点困难 google翻译的API已经开始收费了。不在提供免费的API服务。

英文翻译成中文脚本

importos fromgoogletransimportTranslator importshutil ifname=='main': translate=Translator 1.输入要翻译成中...

python将英文翻译为中文_Python中英文翻译工具

fromtkinterimportfromtkinterimportmessageboximportrequests root=Tkroot.title‘中英互译’root.geometry‘370x...

英文翻译_首发：2020中国GCP英文翻译版

图片来自网络免费获取《药物临床试验质量管理规范2020中英文对照版》及《GoodClinicalPracticeGCP2020EnglishVersion》的步骤如下自愿原则： 1，敬请将本文转发至...

VS_QT_8_Qt中英文翻译

目录一、概述二、中英文创建 1、QtLinguist 创建.ts文件翻译.ts文件发布.qm文件三、中英文切换一、概述中英文翻译是一种很普遍的功能，比如我们常用的浏览器网页等，会提供多语...

html 中英文翻译

<!doctypehtml <head <metacharset=utf8/ <style </style </head <body <divclass=main <buttonclass=btn点击...

python中英文翻译

importjson importrequests 翻译函数，word需要翻译的内容 deftranslateword: 有道词典api url=‘http://fanyi.youdao.com/tr...

python 英语翻译_Python 实现中英文翻译

好久不见呀，双十一，相信大家都忙着剁手吧，唉，小编没钱，只好靠敲代码来满足自己的手感，这次给大家分享的不是数据结构那个烦人的家伙了，这次用Python实现了一个中英文翻译的小程序，虽然现在的翻译软件有...

python调用谷歌翻译英文文献pdf_Python 调用 Google Translate API 批量翻译文章

有时候批量翻译中文文章，批量变成各个小语种的语言，手动的粘贴复制是非常慢的。需要调用翻译API接口，综合对比市面上的各个翻译API，个人觉得Google的翻译API最为好用和准确。

google 文档翻译 html,快速将整篇中文文档翻译成全英文（史上最全总结）

对于一篇中文Word文档，怎么才能快速翻译成纯英文的呢？有同学说可以将里面的文字全部复制到谷歌翻译或者有道，然后将翻译后的英文再拷贝出来，但是对于一个几十页的word文档而言，这样操作显然不是很高效。

是否确定退出登录?

google翻译 中文文本大量翻译成英文

如题，我遇到了一下情况，需要将大量wiki百科的中文文本翻译成英文

如果你和我一样需要翻译大量的文本，那么请看下面?

全部评论 (0)

相关文章推荐

google翻译 中文文本大量翻译成英文

英文翻译成中文脚本

python将英文翻译为中文_Python中英文翻译工具

英文翻译_首发：2020中国GCP英文翻译版

VS_QT_8_Qt中英文翻译

html 中英文翻译

python中英文翻译

python 英语翻译_Python 实现中英文翻译

python调用谷歌翻译英文文献pdf_Python 调用 Google Translate API 批量翻译文章

google 文档翻译 html,快速将整篇中文文档翻译成全英文（史上最全总结）

google翻译中文文本大量翻译成英文

google翻译中文文本大量翻译成英文