
Korean: 
MATLAB의 데이터 사이언스 동영상 시리즈에 돌아오신 것을 환영합니다.
이 동영상에서는
데이터 사이언스 워크플로에서
매우 중요한 단계인 데이터의 전처리에 대해 중점적으로 알아보겠습니다.
이미 데이터를 가져왔고
데이터의 서브셋도 가져왔으므로
이제 전처리를 수행하고자 합니다.
이 과제에 접근할 수 있는
방법은 여러 가지가 있습니다.
데이터 사이언스에서는 보통 다양한 전처리를 다뤄야 하기 때문에
데이터 전처리에 관해 모두 다루고자 합니다.
사실, 데이터는 정리가 되어 있지 않으며 
데이터 유형도 매우 다양합니다.
그래서 데이터에 액세스하는 방법,
다양한 유형의 데이터 전처리 등과 같은
작업에 가장 적절한 MATLAB 데이터 유형을
사용하는 것에 관해 간단하게 말씀드리고자 합니다.
일반적으로 가장 까다로운 점 중 하나는
누락된 데이터를 처리하는 것입니다.
이에 대해 잠시 언급한 후
이상값, 데이터 병합, 리샘플링과 같은
보편적인 상황과 살펴보아야 할
기타 모든 작업을 알아보겠습니다.
여기서는 폭풍 이벤트 데이터를 사용할 것입니다.

Chinese: 
欢迎回到MATLAB数据科学系列视频
本视频将着重介绍数据的预处理
这是数据科学工作流程中非常重要的一步
我们已经导入数据了的一个子集
我们现在要做一些预处理
我们有很多方法来解决这个问题
我会把这些方法都讲一遍
因为这就是我们在数据科学遇到的常见情况
数据本身就是杂乱的
它们的数据类型各不相同
我们会谈一谈
如何找到MATLAB中对这个数据最合适的数据类型
如何访问数据
如何对不同的数据类型进行预处理
最让包括我之内的很多人人头疼的事
就是处理缺失数据
我们将花一些时间讨论这个问题
我们也会讨论其他常见的情况
比如离群值 合并数据 重新采样等等
这些我们都会深入探讨
我们会继续使用我们的处理风暴事件数据

English: 
welcome back to the data science with
MATLAB video series this video will
focus on pre-processing the data which
is a really important step in the data
science workflow now that we've brought
in the data brought in a subset of the
data we want to do some pre-processing
and so there are lots and lots of ways
that we want to approach this problem
and or I'm actually just going to go
through all of them because this is what
we work with in data science data are
just messy they're all different types
so we're gonna talk a little bit about
using the best MATLAB data type for the
job how to access the data
pre-processing with different kinds of
data types and then one of the biggest
headaches for me and many of us are
working with missing data and so you
know we'll spend some time talking about
that and then other common situations
like outliers merging data resampling
and all those kinds of things that will
we'll dig into
so we're gonna work with our storm event
data and then we're also going to merge
this in with some current weather data

English: 
just to explore a little bit and make
sure that our weather data are on the
right times so let's start by examining
our data and so just to kind of remind
us what we're dealing with and sure
enough we've got numeric data we've got
our categorical data like our state
event types we've got times so the
beginning and end time of each storm
then we have our damage costs and these
are currently actually strings so you
know it says 2k and so that's
representing thousands so we'll have to
figure out how to deal with that we also
have the source so you know where the
data were recorded from the latitude
longitude which we'll also need to
convert to numeric and then we have this
event narrative which is really
interesting it's a text a free text
field that someone just described the
storm
and so in our case also access data in
more complicated ways so for example if

Korean: 
또한 이 데이터를 현재 기상 데이터와 병합하여
좀 더 자세히 탐색하고
기상 데이터가 올바른 시간으로 표시되는지 확인하겠습니다.
먼저, 데이터부터 살펴보도록 하겠습니다.
이러한 데이터를 다룰 것입니다.
숫자 데이터
주(state)와 같은 범주별 데이터, 이벤트 유형,
각 폭풍의 시작 시간 및 종료 시간,
피해 비용 등의 데이터가 있습니다.
이러한 데이터는 실제로 문자열이고
현재 2K로 표시되어 있습니다.
여기서 K는 1,000 단위를 나타냅니다.
따라서 이러한 데이터 문자열을 처리하는 방법을 파악해야 합니다.
또한 출처가 있으므로
데이터가 어디에서 기록되었는지 알 수 있으며
위도 및 경도도 표시되어 있습니다.
이러한 요소도 숫자로 변환해야 합니다.
그리고 흥미로운 이벤트 서술이 있습니다.
이벤트 서술은 텍스트로 표시되어 있습니다.
누군가가 폭풍에 대해 설명한 자유 텍스트 필드입니다.
여기서는 보다 복잡한 방법으로
데이터에 액세스합니다.
예를 들어
한 위치에서 데이터를 선택하려는 경우

Chinese: 
然后将它和当前的一些天气数据合并起来进行探索
并确保我们的天气数据处于正确的时间
首先 让我们检查一下数据
明确我们在处理的数据
我们有数值数据
分类数据 比如州名和事件类型
时间数据：每个风暴的开始和结束时间
还有损失成本
这些现在是字符串
上面写着2K K代表千
我们得想办法解决这个问题
我们还有数据源
告诉你数据是从哪里记录的
我们还有经纬度 我们也需要把他们也转换成数值型
此外 我们还有一个非常有趣的事件叙述字段
这是一个用来描述风暴的文本字段
在本例中 我们也将用更复杂的方式访问数据

Korean: 
논리를 사용하여 수행할 수 있습니다.
알래스카에 얼마나 많은 데이터 포인트가 있는지만
확인하려는 경우
화면에서와 같이 ‘data.state == ALASKA'라고 입력하면 됩니다.
또한 산출된 결과를 사용하여 데이터에 액세스할 수 있습니다.
데이터 세트에서 가져오려는
행을 나타내기 위해
논리 식을 사용할 수 있습니다.
특정 주(state)에 대해 수행할 수 있는 방법을 보여드렸습니다.
저는 여기서 미국 정부라는 특정 출처에서 
제공된 데이터를 사용하려고 합니다.
또한 방금 보여드렸던
논리 식에서 행을 나타내는 데 사용했던 방법과
매우 유사한 방법으로 데이터를 선택할 수 있습니다.
그런 다음 데이터의 모든 열을 선택합니다.
이러한 항목은
테이블에도 있으므로
몇 가지 유용한 함수를 사용하여
적절하게 데이터를 다시 정렬하고 다시 구성할 수 있습니다.
또는 ‘source’의 ‘event Id’와 같이

Chinese: 
例如 如果我们只想选择一个地点的数据
我们可以使用逻辑来实现
如果我们想看看有多少数据点来自阿拉斯加
我们可以写 data.state == “ALASKA”
我们也可以这样访问数据
我可以使用该逻辑表达式
来表示要从数据集中提取的行
这就是我对一个州要做的事
在这里我只想使用来自美国政府的数据源
我也可以选择与刚才类似的方法
用逻辑表达式选择行
然后选择数据的所有列
因为这些数据在表 (table) 中
我有一些很好的函数可以用来根据需要重新排序和组织数据
我还可以删除不再需要的变量

English: 
we want to just select data from one
location we can do that by using logic
so if we want to just see how many data
points are from Alaska
we can just say data state equals Alaska
and so we can also use this to access
the data so I can use that logical
expression to represent the rows that I
want to bring from the data set
okay so that's how I would do this for
one state say in this case I just want
to use data from certain sources from
the US government and so I can also
select that very similarly to how we
just did by representing the rows as our
logical expression and then selecting
all of the columns of data and so since
these are also in tables I have some
nice functions I can use to reorder and
reorganize the data as I see fit
or remove the variables I don't need

Korean: 
더 이상 필요하지 않은 변수를 제거할 수도 있습니다.
저는 시간 변수를
다른 항목(이 경우 주(state)) 앞으로 이동시켰습니다.
지금까지 테이블에 대해 자세히 살펴보았습니다.
그러면 일반적으로 MATLAB에서
데이터를 나타내는 방법에 대해 말씀드리겠습니다.
전통적인 데이터 유형이 있습니다.
‘numeric’, ‘char’와 같은
하위 수준의 데이터 유형이 바로 그것입니다.
지난 몇 년 동안 MathWorks는
데이터 사이언스 환경에 적합한 유용한 데이터 유형
여러 개를 내놓았습니다.
예로
‘categorical’, ‘datetime’, ‘duration’,
 ‘table’ 및 ‘timetable’ 등을 들 수 있으며
이러한 모든 변수를 포함할 수 있습니다.
지금까지 우리가 사용해 오고 있는 
테이블과의 다른 점은
테이블에 여러 가지 다른 데이터 유형을 
포함할 수 있다는 것입니다. 
이는 스프레드시트와 유사합니다.
이러한 모든 작업은 ’tall’을 사용하여 수행할 수 있습니다.
이에 대해서는 나중에 말씀드리겠습니다.

Chinese: 
比如数据源里的event_id
我把时间变量移到其他变量前面
我已经讲了很多关于表的内容
现在我们来讨论通常情况下如何在MATLAB中表示数据
我们有一些传统的数据类型
如数值型 字符型等
它们属于低级的数据类型
在过去的几年里
我们为数据科学的场景引入了很多非常好的数据类型
你在示例中可以看到它们
如类别 日期/时间 持续时间等
我们的表 (table) 和时间表 (timetable)
实际上可以包含这些变量中的任何一个
是我们目前所用表的不同之处
你可以在该表中包含许多不同的数据类型
类似于电子表格
这些都可以创建为 tall 数组
 我们稍后也会讨论

English: 
anymore like the event ID in a source
and so I moved the variables the time
variables in front of the other ones so
I've been talking about tables quite a
lot let's actually talk a bit more about
how to represent data in MATLAB
generally speaking there are sort of our
traditional data types which are numeric
char data sort of your low-level kind of
data types and then over the past couple
of years we've introduced a lot of
really nice data types for data science
kind of situations so you'll see these
in the example like categoricals date
times durations our table and time table
can actually contain any of these
variables and so that's what what's
different about the tables that we've
been using so far you can contain a
number of different data types in that
table similar to a spreadsheet and so
all these also could be made tall and so

Chinese: 
你可以用它来像处理其他变量一样
处理大于内存存储空间的数据变量
以上我们简要介绍了不同的数据类型
现在我们来谈谈使用这些数据类型的一些优势
我们首先进行时间序列数据的预处理
让我们再看看我们的表
我们有开始和结束的时间
如果我们想对这些时间进行预处理
比如我们想更改日期
我们可以使用日期/时间变量来完成所有操作
让我们看一下我们的开始时间戳
这是我们的年份 然后是日期
在本例中 它并没有真正指出哪一个是年
它应该不是未来数据

English: 
we'll talk about that a little bit later
to where you can you know treat the data
it's actually out of memory just as a
typical MATLAB variable and so that kind
of gives us you know the overview of the
different data types let's actually now
talk about some of the benefits of using
these data types so we'll start by doing
our time series pre-processing all right
so let's take another look at our table
again and so again we have our begin
times and end times and if we wanted to
do you know pre-processing with those
times maybe we want to change the dates
we can do all
that using D time variables so for
example if we take a look at our
beginning timestamp this is our you know
time of year and then time of day and in
this case it's not doesn't really
indicate which one is the year its I
probably can assume it's not the future

Korean: 
이 ’tall’을 사용하면
실제로 메모리를 벗어나는 데이터를
일반적인 MATLAB 변수로 처리할 수 있습니다.
따라서 다양한 데이터 유형을 다룰 수 있습니다.
지금부터는
이러한 데이터 유형의 사용으로 얻을 수 있는
이점 몇 가지에 대해 말씀드리겠습니다.
먼저 시계열 데이터 전처리부터 살펴보겠습니다.
그러면 테이블을 다시 한 번 보도록 하겠습니다.
시작 시간과 종료 시간이 있습니다.
표시된 시간에 대해
전처리를 수행하고자 하는 경우
날짜를 변경할 수 있습니다.
이 모든 작업을
‘datetime’ 변수를 사용하여 수행할 수 있습니다.
예를 들어
시작 시간 스탬프를 보면
연도, 날짜, 시간이 표시되어 있습니다.
이 경우 어느 숫자가
연도를 가리키는지 불명확합니다.
미래를 나타내는 것은 아니라고 가정할 수는 있습니다.

Korean: 
그렇기 때문에 다른 형식으로 업데이트하고자 합니다.
파일의 기본값을 사용하지만
원하는 대로 조정할 수 있습니다.
이제 읽기 쉽게 표시되었습니다.
그리고 각 폭풍이
지속된 시간을 확인할 수 있습니다.
폭풍으로 인한 피해 비용이나 
영향을 예측하려고 하는 경우를 가정해 보겠습니다.
3시간 동안 지속되는 토네이도는
10분 동안 지속되는 토네이도보다
훨씬 심각한 피해를 초래합니다.
이러한 사항은
데이터 탐색에서 매우 중요한 변수입니다.
폭풍 지속 시간을 살펴보겠습니다.
화면에서와 같이 간단하게 확인할 수 있습니다.
시간을 검토하기 위해 ‘max’, ‘mean’ 등과 같은
일반적인 통계 함수를 사용할 수 있습니다.
최대 지속 시간은 743시간이며
이 수치는 약 1개월에 해당합니다.
평균은 약 17시간입니다.
히스토그램에서는
분포를 보다 효과적으로 파악할 수 있습니다.

Chinese: 
不过我们想根据个人喜好更新格式
这些时间使用文件中的默认格式
但是我们可以根据需要调整
现在它的可读性提高了一点
我现在可以确定每一场风暴的持续时间
请想象一下
如果我们试图预测这些风暴的损失成本或影响
一个持续3小时的龙卷风
应该比10分钟的的龙卷风造成更多损失
这对我们的探索来说是一个非常重要的变量
现在我有了灾害持续时间
我们可以快速看一下
我们可以使用典型的统计函数
比如最大值（max) 和平均值 (mean) 来探索时间
比如最长持续时间是743小时
大约是一个月
平均时间大约17小时
如果我们去看直方图
我们会更好地了解它的分布

English: 
but we might want to just update the
format to our liking so it uses the
default from the file but we can adjust
this as we like and so now it's a little
bit more readable and now I can actually
determine the duration of each storm and
so if you imagine if we're trying to
predict the damage costs or the impact
of these storms a very long tornado that
lasts for three hours is likely more
costly than a ten minute tornado so this
is a very important variable for us in
our exploration and so now I've got the
storm duration and we can take a quick
look at this we can just use our typical
stats functions like Max mean those
kinds of things to explore the time so
for example the max duration was 743
hours which turns out to be about a
month and you know the mean is about 17
hours if we look at a histogram this
gives us a better idea of the

English: 
distribution and you know sure enough
these are all sort of pretty low but
then we have a couple out here that are
you know around a month but let's
actually look at some of the top it's
about the top 10 so we were looking at
the longest storms lasting for a whole
month
let's actually pick out the top 10 most
longest longest storms and check these
out and so in this case these are all
droughts and so that kind of makes a
little bit more sense than a hurricane
lasting for a month alright so if we
want to do a bit more pre-processing
with our time we can create a time table
and so it's very similar to a table
which we've been working with but it
actually uses the time stamps as the
rows of the table and so you can access
the data with the time and you can do a
lot of
nice pre-processing steps that are sort
of headache sometimes when you're

Chinese: 
当然这边的持续时间都是相当短的
但是我们在这里有几个大约持续一个月的
让我们看看前十名吧
我们看到了整整持续一个月的最长灾害
我们来看看十个最长的灾害
这些都是干旱的
这种情况比持续一个月的飓风更合理
如果我们想对时间做更多的预处理
我们可以创建一个时间表 (timetable)
它非常类似于我们一直使用的表 (table)
但它使用时间戳作为表的行
这样 你可以通过时间访问数据
还可以执行许多很好的预处理步骤
这些步骤有时在处理时序数据时会让人头疼
表 (table) 和时间表 (timetable) 还有很多属性

Korean: 
이 부분은 모두 매우 낮지만,
약 1개월에 해당하는 2군데를 확인할 수 있습니다.
그러면 상위 10개의 항목에 대해
살펴보도록 하겠습니다.
한 달간 발생한 폭풍 중에
가장 오래 지속된 폭풍을 확인하고자 합니다.
가장 오래 지속되었던 폭풍 10개 항목을
가려내어 확인해 보겠습니다.
여기에 나오는 것은 모두 drought(가뭄)입니다.
허리케인이 1개월 동안 지속되는 것보다
조금 더 이치에 맞습니다.
원하는 시간으로 전처리를 수행하려는 경우
‘timetable’을 생성할 수 있습니다.
이 ‘timetable’은 일반적인 테이블과 매우 유사하지만
시간 스탬프를 테이블의 행으로 사용합니다.
따라서 시간을 토대로 데이터에 액세스할 수 있으며
유용한 여러 전처리 단계를 수행할 수 있습니다.
따라서 시계열을 사용할 때 가끔씩 직면하게 되는
까다로운 문제를 해결할 수 있습니다.
‘table’ 및 ‘timetable’에는

Chinese: 
可方便将元数据包含进来
在一些应用场景中 你通常有很多关于变量的信息
你可以在这里得到这些信息
我们有变量名称 时间信息以及任何你想添加的自定义属性
我们的时间维度称为 "begin_timestamp"
如果我称之为time也许更容易理解
让我们来看看这个范围
 我想确保时间范围是对的
我确定时间是从2016年1月到2017年12月
让我们看看我们的分类数据
分类数据更像是一个标签或重复标签
比如这个例子里 我们有美国的州或事件类型
如果你在MATLAB中使用分类数据类型
你会有很多非常好的功能来帮助你处理这些变量

Korean: 
메타데이터를 포함할 수 있는 속성이 있습니다.
이러한 애플리케이션을 통해 여기서 캡처할 수 있는 변수에 대한
많은 정보를 얻을 수 있습니다.
화면에 표시된 대로
변수 이름(VariableNames)과 시간 정보가 있고
사용자가 직접 추가할 수 있는
사용자 지정 속성(CustomProperties)이 있습니다.
여기서는 시간 차원을 ‘시작 시간 스탬프(begin_time stamp)’라고 합니다.
저는 간단하게 ‘시간’으로 칭하겠습니다.
이번엔, 범위를 살펴보도록 하겠습니다.
그리고 시간 범위가 올바른지 확인해 보겠습니다.
범위는 2016년 1월부터 2017년 12월까지입니다.
이제 범주별 데이터를 살펴보도록 하겠습니다.
범주별 데이터는 레이블 또는
반복 레이블과 유사합니다.
이 경우에서는 미국 주(state) 또는
이벤트 유형(event_type)이 해당됩니다.
MATLAB에서 실제 범주별 데이터를 사용하는 경우
이러한 종류의 변수를 사용하는 데 도움이 될 만한
유용한 기능이 많이 있습니다.
우선 빠른 요약을 확인할 수 있습니다.

English: 
working with time-series tables and time
tables also contain properties that can
help contain metadata and so with these
applications you often have a lot of
information about the variables that you
can capture here and so you know we have
our variable names we have the you know
time information and then any custom
properties that you want to add yourself
so our time dimension is called begin
time stamp it might be easier if I just
call it time and so let's also take a
look at the range so I want to see you
know make sure that the time range is
correct and so sure enough this is from
January 2016 to December 2017 let's now
take a look at our categorical data and
so categorical data it's more it's like
a label or a repeated label like in this
case we have the US state or the event
type and if you use the actual
categorical data type in MATLAB you have
a lot of really nice functionality that
comes with it that will help you work

Korean: 
빠른 요약을 통해 범주의 종류와
범주의 규모를 확인할 수 있습니다.
따라서 전처리를 수행하는 데 필요한 사항을 파악할 수 있습니다.
수역과 관련한 범주를 제거할 수도 있습니다.
또한 일부 이벤트 유형은 결합할 수 있습니다.
예를 들어 폭우 및 강우를
동일한 범주로 간주할 수도 있습니다.
또한 데이터가 거의 들어 있지 않은
일부 범주는 예측을 수행할 때 모두 제거할 수도 있습니다.
또한 히스토그램에서도 빠르게 살펴볼 수 있습니다.
저는 규모를 확대하기 위해 ’tallFigure’를 이용하여
함수를 만들었습니다.
이렇게 하면 한 번에 모두 볼 수 있습니다.
화면에서와 같이
바람을 동반한 뇌우, 강풍, 토네이도
겨울 폭풍 등을 볼 수 있습니다.
따라서 이러한 이벤트의 분포를 빠르게 파악할 수 있습니다.
앞서 언급했듯이 좀 더 이치에 맞도록
일부 범주를 결합할 수 있습니다.
바람의 경우 바람(wind)과 강풍(high wind)을 모두 

English: 
with these kind of variables and so
first off I can just get a quick summary
it's me an idea of what sort of
categories I have and how many and so I
can see already that I'm gonna need to
do some pre-processing you know I
probably want to remove things over
bodies of water and then for my event
types some of these could be combined
you know for example you know maybe
heavy rain and rain could be considered
the same category I also have a very few
of these so you know we might want to
remove those altogether when we're doing
predictions so we can also take a quick
look at this with a histogram I've
created a function to make a bigger
figure a tall figure so that I can see
all of this at once and so you know as
you can see there are lots of
thunderstorm winds high winds
lots of tornadoes winter storms and so
you can get a quick idea of the
distribution of these events so as I
mentioned we probably want to combine
some of these just to make a little bit
more sense and so maybe with wind we
could combine wind and high wind to just

Chinese: 
首先 我可以快速地汇总一下
看看我有哪些类别以及有多少类别
我发现我需要做一些预处理
我可能想把水上情况移走
然后我可以合并一些事件类型
例如 大雨和暴雨可以认为是同一类
我也有一点点类型
当我们做预测的时候 我们想把它们全部去掉
我们也可以用柱状图观察数据
我创建了一个函数来画一个更大的图 一个Tall图
这样我可以同时看到所有这些类别
你可以看到 有很多雷暴 风 大风
很多龙卷风和冬季风暴
你就能对这些事件的分布有一个大概的了解
正如我前面提到的
我们想把其中的一些合并起来
这样更合理一些
有了风 我们可以把风和大风统一成风

English: 
be all win and I'm gonna continue this
over and over again so I've created a
live function
that goes through the same process for a
multi multiple other variables so for
example you know snow heavy snow flood
heavy floods those kinds of things will
all be combined and so I'll go back here
use my live function and check out the
new categories so sure enough this is a
much more manageable list of categories
and we still have good interesting ones
like dust storms and debris flow alright
so that takes care of our categorical
data and we also have some textual data
that we need to work work with so some
of it is textual by Nature like our
event narratives so you know the things
the free text that somebody actually
wrote so that's appropriate to keep as a
string data type in MATLAB the other
ones in our dataset are not appropriate

Chinese: 
我需要反复执行这个过程
我创建了一个实时函数
它会对多个其他变量执行相同的过程
例如 雪 大雪 洪水 大洪水
这些项目都会合并在一起
我回到这里调用我的实时函数并查看新的类别
这是一个更易于管理的分类列表
我们仍然有一些有趣的分类
比如沙尘暴和泥石流
这就是处理分类数据的方式
我们还需要处理一些文本数据
其中一些本身就是文本性质
比如我们的事件叙述
一些人写的文本
在 MATLAB 中将其保存为字符串数据类型是合适的
我们数据集中的其他数据不适合当作字符串处理
我们需要对它们进行转换

Korean: 
바람(wind)으로 결합할 수 있습니다.
이러한 작업을 반복해서 수행할 것입니다.
저는 여러 개의 다른 함수에 대해
동일한 프로세스를 수행하는
라이브 함수를 만들었습니다.
예를 들어
강설, 폭설, 홍수,
대홍수와 같은 유형의 기상을 모두 결합할 수 있습니다.
여기로 다시 돌아와서
라이브 함수를 사용하여 
새 범주를 살펴보도록 하겠습니다.
화면에서 보듯이, 훨씬 더 관리하기 쉬운
범주 목록으로 구성되어 있습니다.
그리고 황사(Dust Storm) 및 토석류(Debris Flow)와 같은
흥미로운 범주도 여전히 있습니다.
범주별 데이터를 관리하는 방법에 대해 말씀드렸습니다.
텍스트 데이터도
처리해야 합니다.
여기서 말하는 텍스트는 이벤트 서술과 같은
일반적인 텍스트를 말하는 것으로,
누군가가 실제로 작성한 자유 텍스트입니다.
이러한 텍스트는 MATLAB에서 
문자열 데이터 유형으로 유지하기에 적절합니다.
데이터 세트에서 그 밖의 데이터 유형은 
문자열로 적절하지 않습니다.
그렇기 때문에 변환해야 합니다.

English: 
as strings so we're going to need to
convert these and for me I always if I
don't know what the data type should be
or I'm not sure what it looks like I'll
just bring it in as a string so I can go
ahead and pre process and convert later
just because it's very friendly to do
that so first I'll make sure all of the
event narratives are lowercase just so I
can more easily you know analyze those
and then I have another function to do
our string pre-processing that converts
our data types and so for example it's
just going through and converting our
latitude and longitude directly just to
double precision and our damage crossed
variables it's detecting where it says M
or K for millions or thousands and you
know changing the units based on that
and so now we'll run that function and
we'll check out our results now we have
a much more manageable data set and our

Korean: 
어떤 데이터 유형을 사용해야 하는지 모르거나
어떻게 구성되어 있는지 잘 모를 때
저는 항상 데이터를 문자열로 가져옵니다.
그리고 전처리를 수행한 후 나중에 변환합니다.
이러한 작업이 저에게는 익숙하기 때문입니다.
먼저, 이벤트 서술이 전체적으로 소문자로 작성되어 있는지
확인해 보도록 하겠습니다.
소문자로 작성되어 있어야 보다 쉽게 분석할 수 있습니다.
데이터 유형을 변환하기 위한
문자열 전처리를 수행하는 다른 함수가 있습니다.
예를 들어
위도 및 경도를 배정밀도로
직접 변환하는 함수가 있습니다.
피해 비용 변수의 경우 M 또는 K로 표시되어 있습니다.
여기서 M은 100만 단위이고 K는 1,000 단위입니다.
따라서 단위를 적절히 변경하면 됩니다.
이제 함수를 실행하고
결과를 확인해 보겠습니다.
화면에 표시된 대로
데이터 세트가 훨씬 더 관리하기 쉽게 구성되어 있습니다.
숫자로 나타내야 하는 데이터는 숫자로,

Chinese: 
对我来说 如果我不知道数据类型应该是什么
或者我不确定它是什么样子的
我会把它作为一个字符串导入
这样我可以进行预处理 稍后再转换
这样做非常方便
首先 我要确保所有事件叙述都是小写的
这样我可以更容易地进行分析
然后 我用另一个函数来执行字符串预处理
它可以转换数据类型
例如 它会将经纬度直接转换成双精度值
对于记录损失的变量 他会检测出现“M“和”K“的地方
在这里M表示百万 K表示千
并以此为基础进行单位转换
之后 我们将运行该函数并查看结果
现在我们有了一个更易于管理的数据集
我们的数字就是数字类型

English: 
numbers are actually numbers and our
text is text all right so now that
everything is in this the right data
type we have a lot of missing data so we
want to figure out how to approach this
and so sometimes we want to remove these
sometimes we want to fill them you have
lots of options in MATLAB so you know we
could standardize we can detect them
or fill them with a bunch of different
options and so in this case let's just
take a quick look to see how much I
actually have and so if we we can use is
missing and that lets me know that you
know the some of them have no missing
data some of them have you know 13,000
missing data points the first things
first we want to remove rows that have
all missing data and so if it's all
missing except for the time that's not
helpful to us another thing that we need
to do is add our damage costs but
sometimes there are missing data in one
of those variables and so I can tell the
function to omit Nan's so you know just
ignore the missing data as you're

Korean: 
텍스트로 나타내야 하는 데이터는 텍스트로 표시되어 있습니다.
이제 모든 데이터가 적절한 데이터 유형으로 지정되었습니다.
지금부터는 누락된 데이터를 살펴보도록 하겠습니다.
누락된 데이터가 많으므로 어떻게 접근해야 할지를 결정해야 합니다.
경우에 따라 누락된 데이터를 제거하거나
채울 수 있습니다.
MATLAB은 여러 가지 옵션을 제공합니다.
누락된 데이터를 정규화하거나
누락된 데이터를 찾아내거나 다양한 옵션을 통해 
누락된 데이터를 채울 수도 있습니다.
그러면 누락된 데이터가 실제로 얼마나 많은지 
알아보기 위해 간단히 살펴보겠습니다.
이를 위해 ’ismissing’을 사용할 수 있습니다.
누락된 데이터가 없을 수도 있고
누락된 데이터가 있을 수도 있습니다.
이 경우에는 누락된 데이터가 13,000개 있습니다.
먼저 누락된 데이터를 모두 포함하고 있는 행을 제거하고자 합니다.
시간을 제외한 데이터가 모두 누락된다면
수행하려는 작업에 도움이 되지 않습니다.
수행해야 할 또 다른 사항은
피해 비용을 추가하는 것입니다.
하지만 변수 중 하나에 누락된 데이터가 있는 경우가 있습니다.
NaN을 생략하도록 함수에 지시할 수 있습니다.
이렇게 하면 계산할 때

Chinese: 
我们的文本就是文本类型
现在所有数据都有了正确的数据类型
但我们有很多缺失的数据
我们想知道如何处理这个问题
有时我们想去掉这些数据
有时我们想要填充这些数据
我们在MATLAB中有很多选择
我们可以标准化处理方法
我们可以检测它们
移除它们或者用不同的选项进行填充
在这个例子中 我们看看我有多少缺失的数据
我们可以使用ismissing函数
它可以检测出数据有没有缺失
有一些没有缺失数据 另一些缺失了13000个数据点
首先 我们希望删除所有缺少数据的行
除了时间以外什么都没有 这个对我们来说没有什么用
我们需要做的另一件事是添加我们的损失成本
有时 其中一个变量会丢失数据
我可以让函数忽略NaN

English: 
calculating all right so our event data
is looking good but now we also want to
compare this to current weather data and
so we actually have at our math works
headquarters in Natick Massachusetts we
have sensors on our building that give
us weather data we use things speak to
store the data from the sensors and I
can use things peak read to bring that
into MATLAB through things speak read I
can choose the date range so I want to
make sure I'm choosing a range from the
study and it's bringing back you know
typical meteorological information like
the wind direction wind speed
temperature humidity all that kind of
stuff and we can take a quick visual a
quick visual look at this with a stacked
plot whenever you pass a time table
it'll actually show you all of the
variables at once and so as you can see
you know this is also a bit messy you
know there are some outliers we're
probably going to want to do some
smoothing you know so it's a little bit
different types of pre-processing so

Chinese: 
这样在计算时将忽略缺失的数据
我们的事件数据看起来不错
但现在我们还想把它与当前的天气数据进行比较
在我们位于美国马萨诸塞州纳蒂克的Mathworks总部
我们的大楼上安装了传感器
可以提供天气数据
我们使用ThingSpeak来存储来自传感器的数据
我可以用ThingSpeakRead函数把数据导入MATLAB
通过 ThingSpeakRead 我可以选择日期范围
我要确保我选择了研究中的一个范围
它回返回很多典型的气象信息
比如风向、风速、温湿度等
我们可以用堆叠图快速看一下
当你输入一个时间表时 它会一次性显示所有的变量
正如你现在看到的 这也有点混乱
有一些离群值 我们可能需要做一些平滑处理
这是另一种预处理

Korean: 
누락된 데이터가 무시됩니다.
따라서 이벤트 데이터는 올바르게 처리됩니다.
다음으로 이 이벤트 데이터를
현재 기상 데이터와 비교하고자 합니다.
실제로 매사추세츠 주의 내틱에 소재한 MathWorks 본사 건물에
기상 데이터를 제공하는 센서가 설치되어 있습니다.
‘ThingSpeak'를 사용하여
센서에서 비롯되는 데이터를 저장하고 있으며
저는 'thingSpeakRead'를 사용하여 
그러한 데이터를 MATLAB에 가져올 수 있습니다.
'thingSpeakRead'를 통해
데이터 범위를 선택할 수 있습니다.
또한 풍향과 풍속, 온도, 습도, 
그리고 기타 모든 관련 사항 등
일반적인 기상 정보를 가져올 수 있습니다.
다음으로, 정보를 빠르게 시각화할 수 있습니다.
timetable을 입력으로 넣으면
‘stackedplot’을 이용해 간편하고 쉽게 확인할 수 있습니다.
또한 모든 변수가 한꺼번에 표시됩니다.
보시다시피,
조금 복잡해 보이고 몇 군데 이상값이 있습니다.
우리는 이것을 매끄럽게 다듬을 수 있습니다.
이것은 약간 다른 유형의 전처리입니다.
이상값의 경우

Korean: 
누락된 데이터에 접근하는 방법과 매우 유사합니다.
‘isoutlier’를 이용해 이상값을 찾아낼 수 있습니다.
그런 다음 이상값을 제거하거나
함수가 제공하는 다양한 방법을 통해
이상값을 채울 수 있습니다.
먼저, 이상값이 있는지 확인해 보겠습니다.
특정 방법을 선택하여 이상값을 찾아낼 수 있습니다.
여기서는 ’median’을 사용해 보려고 합니다.
화면에 표시된 대로
이상값이 여러 개가 있는 경우도 있고 거의 없는 경우도 있습니다.
'LightIntensity’ 데이터를 사용하여
이상값을 모두 채우려고 합니다.
경우에 따라 시간, 분 또는 초 단위의 데이터가
필요할 수도 있기 때문에
센서 데이터를 이에 맞게 처리해야 합니다.
이러한 데이터가 전체 데이터 세트에 걸쳐
일관성을 유지하고 있는지 확인하고자 합니다.
동일한 시간 단위로 지정되어 있으면
훨씬 수월하게 분석할 수 있습니다.
따라서 다시 샘플링하거나 시간을 다시 지정할 수 있습니다.
여기서는 선형 보간을 사용하여
모든 데이터를 분 단위로 지정하려고 합니다.
그러면

English: 
when it comes to outliers it's very
similar to what to our approach with
missing data so I can detect them with
is outlier and then I can decide to
remove or fill them with a bunch of
different methods that the function
provides so first let's check to see if
I have outliers and I can choose the
method to detect the outlier so in this
case I'm doing a median and so you can
see some have multiple you know some
have very few I know that with the light
intensity data I want to just go ahead
and fill those
altogether another thing with sensor
data is that you know sometimes you
might have you know hourly or you know
data on the minute or on the second and
we want to just make sure this is
consistent throughout the whole data set
it's much easier in our analysis that
they're on the same time and so we can
resample or retime and in this case I'm
gonna use linear interpolation to put

Chinese: 
当涉及到处理离群值时 它与我们处理数据缺失的方法非常相似
我可以用isoutlier来检测它们
然后用一系列函数提供的方法来移除或填充它们
首先让我们检查一下是否有离群值
我可以选择检测离群值的方法
在这个例子中 我用的是中位数
你可以看到有些数据有很多离群值 有些基本没有
对于光强数据 我想把它们都填充上
另一点要注意的是 对于传感器数据
有的是每小时的数据 有的是每分钟或每秒数据
我们要确保整个数据集是一致的
如果数据都是相同时间间隔 我们的分析就会容易得多
我们可以重新采样 或者重新计时
在个例子里 我要用线性插值把所有的数据都精确到分钟

English: 
all of the data on the minute and sure
enough these are all on the same time
now and I can carry on with some of my
further analysis and so you know we
notice there's a lot of up and down in
doing my analysis I know I can I can
just work with a smooth to set from here
on out and so the last thing I want to
do is to synchronize the data and so you
know I mentioned that we have all of
this event data and we only have our
sensor data for you know obviously
Massachusetts where the sensors are
located and so we can put these data
sets together but we want to make sure
that we're being careful about the times
and so if we use synchronize we can
actually choose what time we want in
this case I'm saying first so that's
gonna put everything on the time of the
weather data and then I can see that you
know February 5th
there was a winter weather warning on
the 8th there was a blizzard and so if I
look at a plot I can see that you know
these are some of the points where you

Chinese: 
现在我们确认了这些都是同样的时间间隔
我们就可以进行下一步分析了
你会注意到我的数据中有很多起伏
这样我就可以使用趋势相对平滑的数据进行分析了
我要做的最后一件事是同步数据
我们拥有很多事件的数据
不过我们只有马萨诸塞州的传感器数据
我们只在这里有传感器
我们可以把这些数据集放在一起
但我们要注意它们的时间
如果我们使用同步
我们实际上可以选择我们想要的时间
这里 我选 ”first"
这将把所有一切都纳入天气数据
我会看到 在2月5日 有一个冬季天气警报
8日 有一场暴风雪
我们看一下图

Korean: 
모든 데이터가 동일한 시간 단위로 표시됩니다.
이제 추가 분석을 수행할 수 있습니다.
화면을 보시면 위아래로 데이터가 지저분합니다.
분석을 수행할 때
‘smooth’를 사용하여 매끄럽게 다듬을 수 있습니다.
마지막으로 수행할 작업은 데이터 동기화입니다.
앞서 언급한 대로
MathWorks는 이러한 모든 이벤트 데이터와
센서 데이터를 보유하고 있습니다.
그리고 센서 데이터의 경우 매사추세츠 주 본사 건물에 설치되어 있는
센서로부터 얻는다고 말씀드렸습니다.
따라서 이러한 데이터 세트를 통합할 수 있습니다.
하지만 시간에 주의를 기울여야 합니다.
동기화를 사용하면
원하는 시간을 선택할 수 있습니다.
여기서 'first'는
모든 데이터를 기상 데이터의 시간으로 지정합니다.
2월 5일에는 겨울 기상 경보가 있었고
2월 8일에는 눈보라가 발생했었음을 알 수 있습니다.
플롯을 살펴보면
몇 개의 지점을 볼 수 있습니다.

English: 
know the blizzard happened and there was
wind that was likely related winter
weather you know all kind of related and
nice to see you on the visual thanks for
watching in the next video we'll look at
analyzing our data

Korean: 
눈보라가 치거나 바람이 불었던 때를 알 수 있고
겨울 날씨와 관련한 정보도 확인할 수 있습니다.
이처럼 시각적으로 쉽게 파악할 수 있습니다.
지금까지 이 동영상을 시청해 주셔서 감사합니다.
다음 동영상에서는 데이터 분석에 대해 살펴보겠습니다.

Chinese: 
这里有一些与暴风雪、大风天、冬季天气有关的数据点
在图上看起来很容易
谢谢收看
下一节 我们将对数据进行分析
