今日看点

今日头条新闻评论翻译

发表于话题:头条今日头条新闻
发布时间:2021-05-07


本文 发表于我的博客:

https://willisfusu.github.io/post/jin-ri-tou-tiao-2/


上一篇文章我说到了由于老婆博士课题的原因,需要爬取今日头条的新闻评论,并且需要翻译成英文。我把评论的获取写成了文章,可以见[此处](https://willisfusu.github.io/post/jin-ri-tou-tiao-1/)。今天我准备把如何使用 python 将中文翻译成英文总结一下,以备参考与之后复习之用。

## *1 为什么会有这篇文章

从老婆那边拿到的项目,她要求将今日头条的新闻评论翻译为英文,以为其博士课题服务。刚开始她是想着自己翻译,后来我我她大概需要多少评论翻译成英文,告诉我说大概800条…… 于是我就问她需不需要我先给她「机翻」一下,这样后期做较对要比自己翻译快很多。于是我就成功拿到了这个项目????。

## ?️2 项目过程

### 2.1 确定思路

因为我自己也没有「根红苗正」的 python 学习经历,学习 python 完全是为了老婆的博士课题服务。因此这里讲到的思路可能并不是正统的程序员思路,姑且看之。

1. 读取评论内容。从我们之前存入的数据库中读取评论内容。

2. 找到谷歌翻译[^1]的 API 接口,将评论传入。

3. 处理返回的翻译结果。

### 2.2 谷歌翻译 API 的配置与使用

这一部分内容建议阅读谷歌官方给出的指南,非常详细。分为了 Basic 与 Advanced 两个版本,选择任何一个指南进行都可以完成我们翻译文本的目标。

谷歌翻译 API 可以[点击这里阅读](https://cloud.google.com/translate/docs/)。简单说分为以下四步:

1. 创建 Cloud Console project,并获得 Private Key (一个 json 文件)

2. 将第1步得到的 private key 添加到环境变量中

3. 配置 Google Cloud SDK (此步骤又包含了许多小步骤)

4. 安装 google-cloud-translate==2.0.1 python 库。

```

pip3 install google-cloud-translate==2.0.1

```

### 2.3 代码实现

其实分析到这里,整个项目也差不多完成了。剩下的代码部分比较简单。可以分为两步:1.引入 google-cloud-translate 库。 2. 传入评论。

1. 引入 google-cloud-translate 库

```python

from google.cloud import translate_v2 as translate

# 引入 google.cloud 库,并重命名

translate_client=translate.Client()

# 创建translate对象

```

2. 传入评论内容,并处理返回结果 

```python

def translate_comment(col):

    print('开始%s翻译'% col)

    collection = mydb[col]

    collection.update_many({}, {'$set': {'Comment_English': 'none'}})

    # 获取评论 collection, 并且增加'Comment_English' 字段。

    querry = {"Comment_English": 'none'}

    comment_array = collection.find({}, {'comment_text': 1})

    print('已获取所有评论,准备开始翻译')

    for i in comment_array:

        ch_comment = emojis.decode(i['comment_text'])

        # 由于很多评论中使用了 emoji 谷歌翻译不能正确识别 emoji,所以需要使用 emoji 库将 emoji 转换为 unicode 编码。 emoji 就是 ?️?️☺️ 这种。

        result=translate_client.translate(ch_comment,target_language='en')

        collection.update_one(querry, {'$set': {'Comment_English': result['translatedText']}})

        # 提交评论到谷歌翻译,并将返回的翻译结果更新 'Comment_English' 字段。 [^2]

```

3. 因为有多条新闻,所以有很多组评论,需要再写一个 for 循环。

```python

collectionarray = mydb.list_collection_names()

i = 1

for col in collectionarray:

    translate_comment(col)

    print('已经完成%d个库评论数据翻译' % i)

    i += 1

```

### 2.4 说明


如果是在像 pycharm 这样的 IDE 中执行上面的程序,很大概率(之所以说很大概率是因为我只在 pycharm 中运行过)遇到报错,提示谷歌凭证配置错误。不要担心,只要你是[按照上面](#google)指南配置,那应该不会有错。之所以出现这个报错是因为只能在 cmd 或者 terminal 中运行。到命令终端中运行刚刚写的 py 文件,看看是不是正常执行。如果还不正常,就按照上面的指南再配置一遍。

## ?️3 总结

### 3.1 使用到库

1. pymongo 数据库

2. emojis 处理评论中的 emoji,防止谷歌翻译报错

3. google.cloud 谷歌翻译库

### 3.2 pymongo 修改/新增字段

[update/update_many/update_one](https://www.runoob.com/python3/python-mongodb-update-document.html)

[^1]: 这里选择谷歌翻译是因为人在英国,并且个人感觉谷歌翻译可能会比较准确一点?

[^2]: 再次说一下,这个项目中不一定非得使用数据库来存储,增加新字段,并更新字段浪费了我不少时间去学习???。


标签组:[谷歌] [emoji

本文来源:https://www.kandian5.com/articles/1036.html

相关阅读

曹无伤左司马职务解析:汉朝中央官制中的重要角色

在中国古代历史的长河中,汉朝以其完备的官制和繁荣的文化著称于世。其中,左司马这一职务在汉朝中央官制中占据着重要的地位。而曹无伤,作为秦汉之际刘邦麾下的一位将领,就曾担任过左司马这一职务。 一、汉朝中...

2025-04-03

汉明帝刘庄并未被杀:一位英明君主的传奇一生

在中国历史上,汉明帝刘庄是一位备受赞誉的君主。然而,关于“汉明帝刘庄为什么被杀”的疑问,实际上是一个基于误解的问题。根据真实的历史资料,汉明帝刘庄并未被杀,他是一位在位期间政治清明、经济繁荣、文化昌盛...

2025-04-03

三国第一毒士之争:李儒与贾诩的较量

在三国时期,谋士辈出,他们以其卓越的智谋和深邃的算计,在历史的舞台上留下了浓墨重彩的一笔。其中,李儒与贾诩两位谋士,因其毒辣的手段和深沉的心机,被后人并称为“三国第一毒士”。然而,关于这一称号究竟应归...

2025-04-03

孙恩与孙权:血缘关系的探寻

在中国历史上,孙恩与孙权都是极具影响力的人物。他们分别活跃在不同的历史时期,各自在各自的时代留下了深刻的印记。然而,近年来,关于孙恩是否是孙权后代的问题,引起了人们的广泛关注和讨论。 一、孙恩与孙权...

2025-04-03

澶渊惊雷:寇准力挽狂澜的孤勇与智慧

公元1004年的深秋,北风裹挟着辽军铁蹄的震颤,黄河岸边的澶州城笼罩在战争的阴云之下。北宋朝廷内,主和派大臣们如惊弓之鸟,或主张南迁金陵,或建议西逃蜀地。在这历史抉择的十字路口,一位目光如炬的政治家挺...

2025-04-03

杜甫的代表作:千年传颂的文学瑰宝

在中国古代文学的璀璨星河中,杜甫无疑是最耀眼的星辰之一。作为唐代伟大的现实主义诗人,杜甫以其深沉的情感、卓越的艺术成就和广泛的社会关怀,被后世尊称为“诗圣”。他的代表作不仅在当时广为流传,历经千年仍被...

2025-04-03

寒门诗魂:鲍照诗歌的刚健风骨与形式突围

在南朝绮靡文风中,鲍照如同一把淬火而出的利剑,以寒门之躯劈开时代的脂粉气。他的诗歌既是对门阀制度的血性呐喊,更是中国古典诗歌美学的一次惊险飞跃。这位被杜甫赞为"俊逸鲍参军"的诗人,用充满棱角的文字构建...

2025-04-03

盛彦师之死:李渊的权谋棋局与功臣末路

在唐朝开国功臣的星空中,盛彦师的名字曾如流星般划过,留下短暂而耀眼的光芒。他斩李密、平王世充、拒降徐圆朗,以骁勇善战著称,最终却落得被唐高祖李渊赐死的结局。这场看似悖理的历史悲剧,实则暗含李渊巩固皇权...

2025-04-03

唐朝统一战争:十年烽火铸就大一统伟业

唐朝,作为中国历史上最为辉煌灿烂的王朝之一,其统一之路却并非一帆风顺。在隋末天下大乱、群雄并起的背景下,唐高祖李渊于公元618年建立唐朝,但此时的新王朝仅占据关中、河东一隅,天下仍处于四分五裂之中。为...

2025-04-03

刘唐:梁山泊中的赤发鬼杰

在《水浒传》这部描绘北宋末年农民起义的鸿篇巨制中,刘唐以其独特的形象和鲜明的性格,成为了梁山泊一百零八将中不可忽视的一员。他绰号“赤发鬼”,紫黑阔脸,鬓边一搭朱砂记,上生一片黑黄毛,形象威猛而独特。那...

2025-04-03