数据分析 | 最适合学习英语的Netflix电影和电视剧有哪些?
译者:AI研习社(、、)
双语原文链接:
截至2020年,上约有3712部电影和1845部电视节目。如果你正在学习英语,可供选择的内容很多学习英语的好电影,但你可能没那么多时间去看完。因此,我用数据科学技能来分析上前1500部电影和电视节目的剧本。经过大量的处理,我找到了上最好的英语学习内容。这样做的目的是为了给你提供很多好的选择,让你可以找到你喜欢的电影或电视节目,同时对学习英语也有好处,而不是强迫你看不喜欢的电视节目,因为你的老师和朋友坚持’它有助于大家学习英语’。
为了找到上最好的电影和电视节目,我比较了台本对话中使用的词汇。让我们找到哪些是最好的电视节目和电影。
上词汇最简单的电视节目
上的美国和英国电视节目都是为母语为英语的人制作的。这就是为什么如果英语不是你的母语,你在理解某些场景中的对话时可能会遇到一些困难。我根据词汇量的难易程度对目录上的500个一流电视节目(223部原创节目)进行了排名。
《老友记》词汇简单,被认为是学习英语最好的电视节目之一。然而,这部电视剧在目录中只排在第78位,这意味着还有77部电视剧和《老友记》一样好——甚至更好!-可以在上学习英语并享受乐趣。例如,根据我的调查结果,电视剧《去他*的世界》(排名13)或《13个原因》(排名40)在其剧集中的词汇量甚至更简单。
你可以在下面的框中搜索电视节目名。你会发现他们的排名和词汇覆盖率。排名前十的电视节目在整个剧集列表中词汇最简单。
如果你正在寻找适合你英语水平的电视节目学习英语的好电影,那么我有一个好消息要告诉你, 我对所有节目的英语词汇量水平进行了排名(初级、中级、高级)。最靠右的节目在每个级别上使用的词汇量更多。覆盖率越高,你就越容易理解电视剧中的情节。
按词汇覆盖率排名的剧集
每个级别代表1000个最常见的英语单词。所有的电影都有所有级别的排名。1级代表 “初级水平”,3级代表 “中级水平”。一集的覆盖率越高,越容易理解其词汇量。
黄色代表Lvl 1
红色代表Lvl 1+2
蓝色代表Lvl 1+2+3
图: 来源: 用创建的。
这些是在目录中发现的电视节目。可能有些你喜欢的电视节目不在上,但不要担心,我已经分析了其中一些电视节目,如或。此外,目录在你的国家可能略有不同。这就是为什么我只列出了一个最有可能在全球范围内提供的原著。
with Game of : The Best
以下是学习英语的十大原创节目
妖灵(Jinn) 爱情起床号(Good Call) 鱼妖怪谈() Easy 黑色夏天( ) 夏日时光 () Baby 上层男孩(Top Boy) 血统() 去他*的世界(The End Of The F*ing )
按词汇覆盖率排名的电影
如果你比较喜欢看电影,那么也有很好的电影来学习英语。我把上最受欢迎的950部电影(173部原创电影)按照词汇量的难度进行了排名。排名前100的热门电影有《蒙上你的眼 》(30)、《蜘蛛侠:平行宇宙》(84)和《当幸福来敲门》(81)。
通过下面的方框播放,看看还有哪些电影排在前100名。你还可以发现你喜欢的电影的排名和词汇覆盖率。
你可以在下面找到适合你英语水平的电影。最右边的电影有更多的初级、中级和高级词汇。但这些都是在 目录中找到的排名靠前的电影,你不会在 上找到像《哈利波特》、《阿凡达》、《玩具总动员》这样的电影,但如果你还想看这类电影,你应该看看我的另一篇文章,我分析了3000部最受欢迎的电影。你可以在这里找到它。
的电影排行榜(根据词汇量)
每一级代表 1000 个最常见的英语单词。所有的电影都按等级排列。第 1 级代表“初级水平”,第 3 级代表“中级水平”。一集节目的收视率越高,词汇就越容易理解。
我还列出了 在世界范围内最可能提供的原创电影列表,以防 的目录在你的国家不一样。
以下是十大最适合学英语的原创电影:
In The Tall (2019)-在高草中 A Love (2020)-隐秘的爱 The Sun (2020) Lies (2020)-危险的谎言 Bird Box (2018)-蒙上你的眼 Who You Take To A (2019) Bird (2019) Love (2020) (2019) 6 (2018)-六个气球
在向英语学习者展示 上最好的内容之前,让我们比较一下最好的和可能最差的内容,仅针对词汇量难度来说。
词汇最易懂和最难懂的原创剧
以下图片显示了排名前十和后十的网飞原创电影在英语词汇难度上的差别。正如你所看到的,在过去的 10 年中,使用的词汇更加困难。例如,你只需要知道最常见的 1000 个英语单词就能理解电影《 蒙上你的眼 》中 94,5% 的单词,但你需要至少3000个单词来涵盖电影《 The 》中 94.5% 的对话。这额外的 2000 个单词可能就是你不懂的原因——即使你的英语水平已经很高了!
数据集
为了进行分析,我使用了 3 个主要数据集,它们由文本、 目录和 原创列表组成。我在谷歌上搜索,直到我找到了大量用于分析的转录本。我用目录来匹配 上的字幕。你可以在 上找到 的目录数据集。从 2019 年开始, 上就可以看到它的内容,所以可能有些电影或电视节目现在还不能在 上看到。最后,我在这里找到了一份截至 2020 年的 原创剧集列表,这对分析很有帮助。
方法
我用 做了所有这些分析,这是我准备数据的方式:
:为了分析文字记录中的词汇,我将字符说的所有单词标记化。中有许多用于标记化的工具,但是我使用 ,因为它将收集的转录本转换为标记计数的数据格式,从而简化了分析。在分析了 3000 部电影的文章中,我进一步解释了 是如何工作的。
词形还原():在标记化之后,我必须找到每个标记的基本形式。您可以通过使用象 这样的技术来实现这一点,您可以在 NLTK 库中找到这些技术。不过,我使用了类似的单词族列表,而且还根据单词出现的频率给出了每个单词的难度水平。到 2020 年,有 29 个单词家族列表,你可以在这里找到。这些列表是对与语言学和英语作为第二语言学习相关的研究论文进行评估的。
数据清理:我删除了在电影或片段中听不到的单词,比如场景描述和讲话者的名字。我还排除了对话中超过 3.5% 的单词与单词家族列表不匹配的抄本(它们可能是异常值或被破坏的数据)。
所有的代码都可以在 上找到!
关于分析和结果
我用来对电视节目中的词汇进行分类的单词表,大部分都来自语料库。词汇水平是根据一个词在语料库中被发现的频率来确定的,即这些文本中最常见的词被标注为 1 级。尽管之前的研究已经证明了该列表是可靠的,但对于具有多种含义的单词,它并不那么准确。例如,单词 “draw” 在列表中被标记为第 1 级。之所以会出现这种情况,是因为这个词通常指“拍照”,但如果它的意思是“拿出武器来攻击某人”或“得出结论”,那么它就不属于第一级。
我花了几个星期的时间寻找、清理、处理数据,然后弄清楚得到的结果。然而,研究结果并不完美。关于电影的研究结果可能比电视节目更准确。电影的文字记录是独一无二的,但电视节目播出的剧集不同,这增加了每部电视节目的文字记录数量。这就是为什么我收集了每个节目 3 到 10 集的样本,以获得该电视节目平均每集涵盖的词汇。
总的来说,调查结果揭示了很多适合每个词汇水平的内容,但其中一些还是让我吃惊。比如,《行尸走肉》排在第 62 位,这让我很吃惊。我不是那个电视节目的粉丝,但我不认为一个有僵尸的虚构节目在对话中使用简单的词汇。在查看了文字记录后,我证实了《行尸走肉》中对词汇的需求在整集都有很多起伏。也就是说,有些情节可能比其他情节更难理解。
AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。